Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
HỒ THỊ PHƯỢNG
PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH
TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI
THEO TIẾP CẬN TẬP THÔ MỜ
LUẬN ÁN TIẾN SĨ MÁY TÍNH
HÀ NỘI - 2021
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
HỒ THỊ PHƯỢNG
PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH
TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI
THEO TIẾP CẬN TẬP THÔ MỜ
Chuyên ngành : Khoa học máy tính
Mã số : 9 48 01 01
LUẬN ÁN TIẾN SĨ MÁY TÍNH
Người hướng dẫn khoa học: PGS.TS. Nguyễn Long Giang
HÀ NỘI - 2021
LỜI CẢM ƠN
Luân an nay đươc hoan thanh vơi sự nỗ lực không ngừng cua tac gia va sự giup
đỡ hết mình từ cac thây giao hương dẫn, ban be va ngươi thân. Đâu tiên, tac gia xin
bay to lơi tri ân tơi PGS.TS Nguyễn Long Giang, Viên Công nghê Thông tin, Viên
Hàn lâm Khoa hoc va Công nghê Viêt Nam ngươi thây đã tân tình hương dẫn tác gia
hoàn thành luân án này.
Tác gia xin gửi lơi cam ơn sâu sắc đến thây cô, ban bè công tác tai Viên Công
nghê Thông tin, Viên Hàn lâm Khoa hoc va Công nghê Viêt Nam đã nhiêt tình giup đỡ
va tao ra môi trương nghiên cứu tốt để tác gia hoan thanh công trình cua mình; cam ơn
các thây cô va cac đồng nghiêp ở cac nơi ma tac gia tham gia viết bai đã có những góp
ý chính xac để tác gia có đươc những công bố như ngày hôm nay.
Cam ơn Hoc Viên Khoa hoc và Công nghê Viêt Nam đã tao moi điều kiên
thuân lơi để tác gia hoàn thành Luân án này.
Tac gia xin gửi lơi cam ơn tơi Đang uy, Ban Giam hiêu trương Đai hoc Tây
Nguyên nơi tac gia công tac đã ung hô va tao moi điều kiên để tac gia hoan thanh luân
an đung thơi han.
Cuối cung, tac gia xin gửi tơi ban be, ngươi thân lơi cam ơn chân thanh nhât vì
đã đồng hanh cung tac gia trong suốt thơi gian qua. Con xin cam ơn Cha, Mẹ và gia
đình đã luôn la chỗ dựa vững chắc về tinh thân và vât chât, cũng la những ngươi luôn
mong moi cho con thành công; cam ơn chồng và các anh chị em đã ganh vac công viêc
gia đình thay cho em; xin lỗi các con vì phân nao đó đã chịu thiêt thòi trong thơi gian
mẹ hoc tâp nghiên cứu, chính các con là nguồn đông lực lơn lao giúp mẹ hoàn thành
đươc công viêc khó khăn nay.
Hà Nôi, tháng 01 năm 2021
Hồ Thị Phượng
LỜI CAM ĐOAN
Cac kết qua trình bay trong luân an la công trình nghiên cứu cua tôi đươc hoan
thanh dươi sự hương dẫn cua PGS.TS. Nguyễn Long Giang. Những kết qua trình bay
la mơi va chưa từng đươc công bố ở cac công trình cua ngươi khac.
Tôi xin chịu trach nhiêm về những lơi cam đoan cua mình.
Hà Nội, Ngày….tháng ….năm 2021
Nghiên cứu sinh
Hồ Thị Phượng
i
MỤC LỤC
MỞ ĐẦU ........................................................................................................................................ 1
CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP
THÔ MỜ ........................................................................................................................................ 8
1.1. Tổng quan về rút gon thuôc tính............................................................................... 8
1.2. Cac hương tiếp cân filter-wrapper trong rút gon thuôc tính ................................... 10
1.3. Tổng quan về tâp thô mơ ........................................................................................ 11
1.3.1. Bang quyết định va quan hê tương đương............................................................... 12
1.3.2. Quan hê tương đương mơ ......................................................................................... 12
1.3.3. Ma trân tương đương mơ .......................................................................................... 14
1.3.4. Phân hoach mơ ........................................................................................................... 14
1.4. Các nghiên cứu liên quan đến rút gon thuôc tính theo tiếp cân tâp thô mơ ........... 17
1.4.1. Rut gon thuôc tính theo tiếp cân tâp thô mơ............................................................ 17
1.4.2. Phương phap gia tăng rut gon thuôc tính theo tiếp cân tâp thô mơ....................... 19
1.5. Tóm tắt cac đóng góp cua luân án .......................................................................... 23
1.6. Kết luân chương 1 .................................................................................................. 24
CHƯƠNG 2. THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC
TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ ................. 25
2.1. Mở đâu .................................................................................................................... 25
2.2. Xây dựng khoang cách giữa hai tâp mơ ................................................................. 26
2.2.1. Đô đo khoang cach mơ .............................................................................................. 27
2.2.2. Đô đo khoang cach mơ va cac tính chât .................................................................. 27
2.3. Thuât toán filter tìm tâp rút gon sử dụng khoang cách mơ .................................... 30
2.4. Thuât toán filter-wrapper tìm tâp rút gon sử dụng khoang cách mơ ...................... 36
2.5. Thực nghiêm va đanh gia kết qua các thuât toán ................................................... 37
2.5.1. Mục tiêu thực nghiêm ................................................................................................ 37
2.5.2. Số liêu, phương phap va môi trương thực nghiêm ................................................. 38
2.5.3. Kết qua so sanh đô chính xac phân lơp va số lương thuôc tính tâp
rut gon ......................................................................................................................... 39
2.5.4. Kết qua so sanh thơi gian thực hiên ......................................................................... 41
2.6. Kết luân Chương 2.................................................................................................. 42
ii
CHƯƠNG 3. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP
RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG ............................................. 44
3.1. Mở đâu .................................................................................................................... 44
3.2. Thuât toán gia tăng filter-wrapper tìm tâp rút gon bổ sung tâp đối tương ............. 47
3.2.1. Công thức gia tăng để tính khoang cach mơ khi bổ sung môt đối tương ............. 47
3.2.2. Công thức gia tăng tính khoang cach mơ khi bổ sung tâp đối tương ................... 50
3.3. Thuât toan gia tăng fifter-wrapper tìm tâp rut gon khi loai bo tâp đối tương ........... 71
3.4. Kết luân Chương 3.................................................................................................. 88
CHƯƠNG 4. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP
RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH .......................................... 90
4.1. Mở đâu .................................................................................................................... 90
4.2. Thuât toan gia tăng filter-wrapper tìm tâp rut gon khi bổ sung tâp thuôc tính .............. 93
4.2.1. Công thức gia tăng câp nhât khoang cach khi bổ sung tâp thuôc tính .................. 93
4.2.2. Thuât toan gia tăng filter-wrapper tìm tâp rut gon khi bổ sung tâp
thuôc tính ................................................................................................................. 94
4.2.3. Thực nghiêm va đanh gia thuât toan ........................................................................ 97
4.3. Thuât toan gia tăng filter-wrapper tìm tâp rut gon khi loai bo tâp thuôc tính ............. 106
4.3.1. Công thức câp nhât khoang cach khi loai bo tâp thuôc tính ................................ 106
4.3.2. Thuât toan gia tăng filter-wrapper câp nhât tâp rut gon khi loai bo tâp
thuôc tính ................................................................................................................. 106
4.4. Kết luân Chương 4................................................................................................ 108
KẾT LUẬN ............................................................................................................................... 110
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ .................................................................. 111
TÀI LIỆU THAM KHẢO ...................................................................................................... 112
iii
DANH MỤC CÁC THUẬT NGỮ
Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh
Tập thô Rough Set
Tập thô mờ Fuzzy Rough Set
Hệ thông tin Information System
Bảng quyết định Decision Tables
Bảng quyết định mờ Fuzzy Decision Tables
Quan hệ tương đương Equivalence Relation
Quan hệ tương đương mờ Fuzzy Equivalence Relation
Phân hoạch mờ Fuzzy Partition
Ma trận tương đương mờ Fuzzy Equivalence Matrix
Lớp tương đương mờ Fuzzy equivalence Classes
Xấp xỉ dưới mờ Fuzzy Lower Approximation
Xấp xỉ trên mờ Fuzzy Upper Approximation
Rút gọn thuộc tính Attribute Reduction
Tập rút gọn Reduct
Phương pháp gia tăng Incremental Methods
Khoảng cách mờ Fuzzy Distance
Hàm thuộc mờ Fuzzy Dependency Function
Lọc Filter
Đóng gói Wrapper
iv
BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT
Ký hiệu, từ viết tắt Diễn giải
,DS U C D Bang quyết định
U Số đối tương
C Số thuôc tính điều kiên trong bang quyết định
u a Giá trị cua đối tương u tai thuôc tính a
IND B Quan hê tương đương trên B
/U P Phân hoach cua U trên P
B
u Lơp tương đương chứa u cua phân hoach /U P
Ra Quan hê tương đương mơ R .
PR Quan hê tương đương mơ �� trên tâp thuôc tính P
( )PM R Ma trân tương đương mơ cua ��𝑃
Φ PR Phân hoach mơ trên ��𝑃
i Px
Lơp tương đương mơ cua ix thuôc phân hoach mơ Φ PR
i Px Lực lương lơp tương đương mơ i P
x
PX Tâp xâp xỉ dươi mơ cua X đối vơi PR
PX Tâp xâp xỉ trên mơ cua X đối vơi PR
FPD Φ ,ΦP QR R Khoang cách mơ giữa hai phân hoach mơ Φ PR và Φ QR
v
DANH MỤC CÁC BẢNG
Bảng 1.1 Bang quyết định cua Ví dụ 1.1 ...................................................................... 16
Bảng 1.2 Liêt kê các nghiên cứu liên quan đến các thuât toán heuristic tìm tâp rút gon
cua bang quyết định theo tiếp cân tâp thô mơ. .............................................................. 18
Bảng 1.3 Liêt kê các nghiên cứu liên quan đến các thuât toan gia tăng tìm tâp rút gon
cua bang quyết định theo tiếp cân tâp thô mơ. .............................................................. 21
Bảng 2.1 Bang quyết định cua Ví dụ 2.2 ...................................................................... 33
Bảng 2.2 Bô dữ liêu thử nghiêm thuât toán FW_FDBAR ............................................ 38
Bảng 2.3 Đô chính xác phân lơp và số lương thuôc tính tâp rút gon............................ 39
Bảng 2.4 Thơi gian thực hiên FW_FDBAR, FEBAR, FPDAR ................................... 41
Bảng 3.1 Bang quyết định cua Ví dụ 3.1 ...................................................................... 48
Bảng 3.2 Bang quyết định sau khi thêm đối tương u4 cua Ví dụ 3.1 ............................ 49
Bảng 3.3 Bang quyết định cua Ví dụ 3.2 ...................................................................... 51
Bảng 3.4 Bang quyết định cua Ví dụ 3.2 sau khi thêm tâp đối tương .......................... 52
Bảng 3.5 Bô dữ liêu thử nghiêm khi thêm tâp đối tương ............................................. 59
Bảng 3.6 Thơi gian thực hiên cua các thuât toán IFW_FDAR_AdObj, IV-FS-FRS-2
IARM, ASS-IAR và IFSA (tính bằng giây) .................................................................. 60
Bảng 3.7 Đô chính xác phân lơp và số lương thuôc tính tâp rút gon cua các thuât toán
IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA .................................. 65
Bảng 3.8 Bang quyết định cua Ví dụ 3.3 ...................................................................... 72
Bảng 3.9 Bang quyết định sau khi loai bo 1 đối tương cua Ví dụ 3.3 .......................... 74
Bảng 3.10 Bang quyết định cua Ví dụ 3.4 .................................................................... 76
Bảng 3.11 Bang quyết định sau khi loai bo tâp đối tương cua Ví dụ 3.4 ..................... 78
Bảng 3.12 Mô ta dữ liêu khi loai bo tâp đối tương ....................................................... 83
Bảng 3.13 Thơi gian thực hiên cua thuât toán IFW_FDAR_DelObj và IFSD ............. 84
Bảng 3.14 Đô chính xác phân lơp cua thuât toán IFW_FDAR_DelObj và IFSD ....... 86
Bảng 4.1 Bô dữ liêu thử nghiêm ................................................................................... 98
Bảng 4.2 Số lương thuôc tính tâp rút gon va đô chính xác phân lơp cua
IFW_FDAR_AA và FRSA-IFS-HIS(AA) .................................................................... 99
Bảng 4.3 Thơi gian thực hiên cua IFW_FDAR_AA và FRSA-IFS-HIS(AA) ........... 103
vi
DANH SÁCH CÁC HÌNH VẼ
Hình 1.1 Quy trình rút gon thuôc tính ......................................................................... 10
Hình 1.2 Cách tiếp cân filter và wrapper trong rút gon thuôc tính .............................. 11
Hình 2.1 Đô chính xác phân lơp cua ba thuât toán ...................................................... 40
Hình 2.2 Số lương thuôc tính tâp rút gon cua ba thuât toán ......................................... 41
Hình 2.3 Thơi gian thực thiên cua ba thuât toán........................................................... 42
Hình 3.1 Thơi gian thực hiên các thuât toán IFW_FDAR_AdObj, IV-FS-FRS-2
IARM, ASS-IAR và IFSA ............................................................................................. 64
Hình 3.2 Số lương thuôc tính tâp rút gon cua các thuât toán IFW_FDAR_AdObj, IV-
FS-FRS-2 IARM, ASS-IAR và IFSA ........................................................................... 71
Hình 3.3 Thơi gian thực hiên các thuât toán IFW_FDAR_DelObj và IFSD ............... 86
Hình 3.4 Số lương thuôc tính tâp rút gon cua các thuât toán IFW_FDAR_DelObj và
IFSD ............................................................................................................................... 88
Hình 4.1 Đô chính xác phân lơp cua các thuât toán IFW_FDAR_AA và FRSA-IFS-
HIS(AA) ...................................................................................................................... 103
Hình 4.2 Thơi gian thực hiên cua thuât toán IFW_FDAR_AA và FRSA-IFS-
HIS(AA) ...................................................................................................................... 105
1
MỞ ĐẦU
1. Tính cấp thiết
Rút gon thuôc tính là bài toán quan trong trong bươc tiền xử lý dữ liêu cua quá
trình khai phá tri thức từ dữ liêu. Mục tiêu cua rút gon thuôc tính là loai bo các thuôc
tính dư thừa, không cân thiết nhằm nâng cao tính hiêu qua cua các mô hình khai phá
dữ liêu. Rút gon thuôc tính cua bang quyết định là quá trình lựa chon tâp con nho nhât
cua tâp thuôc tính điều kiên, loai bo các thuôc tính dư thừa mà bao toàn thông tin phân
lơp cua bang quyết định, goi là tâp rút gon (reduct). Kết qua rút gon thuôc tính anh
hưởng trực tiếp đến hiêu qua thực hiên các nhiêm vụ khai pha: Gia tăng tốc đô, cai
thiên chât lương, tính dễ hiểu cua các kết qua thu đươc. Cho đến nay, có hai hương
tiếp cân chính đối vơi bài toán lựa chon thuôc tính: Loc (filter) va đóng gói (wrapper).
Cách tiếp cân fifter thực hiên viêc lựa chon thuôc tính đôc lâp vơi thuât toán khai phá
sử dụng sau này. Các thuôc tính đươc chon chỉ dựa trên đô quan trong cua chúng trong
viêc mô ta dữ liêu. Trong khi đó, cach tiếp cân wrapper tiến hành viêc lựa chon bằng
cách áp dụng ngay thuât khai pha, đô chính xác cua kết qua đươc lây làm tiêu chuẩn để
lựa chon các tâp con thuôc tính.
Lý thuyết tập thô mờ (fuzzy rough set) do Dübois và các công sự [1] đề xuât là
công cụ hiêu qua giai quyết bài toán rút gon thuôc tính trực tiếp trên bang quyết định
gốc không qua bươc tiền xử lý dữ liêu nhằm nâng cao hiêu qua đô chính xác mô hình
phân lơp. Cho đến nay, nhiều phương phap rut gon thuôc tính theo tiếp cân tâp thô mơ
đã đươc đề xuât, điển hình la cac phương phap sử dụng hàm thuôc mơ [2, 3, 4], các
phương phap sử dụng miền dương mơ [5, 6], cac phương phap sử dụng entropy mơ [7,
8, 9], cac phương phap sử dụng khoang cách mơ [10, 11, 12] và môt số phương phap
khác [13, 14, 15, 16, 17, 18]. Trong xu thế dữ liêu lơn (Big data) hiên nay, các bang
quyết định ngày càng có số thuôc tính rât lơn, ví dụ các bang dữ liêu trong lĩnh vực tin
sinh hoc có hàng triêu thuôc tính. Hơn nữa, các bang quyết định luôn luôn thay đổi,
câp nhât vơi các tình huống như bổ sung và loai bo tâp đối tương, bổ sung và loai bo
tâp thuôc tính, giá trị tâp đối tương, tâp thuôc tính thay đổi. Để xây dựng mô hình phân
lơp hiêu qua, ta cân giai quyết bài toán rút gon thuôc tính trên các bang quyết định
kích thươc lơn va thay đổi. Cac phương phap rut gon thuôc tính theo tiếp cân truyền
thống trên các bang quyết định như vây gặp hai thách thức. Thứ nhât, vơi các bang
quyết định có kích thươc lơn, viêc thực hiên các thuât toán tìm tâp rút gon gặp khó
2
khăn về không gian lưu trữ và tốc đô tính toán. Thứ hai, vơi các bang quyết định thay
đổi, câp nhât, các thuât toán này phai tính toán lai tâp rút gon trên toàn bô bang quyết
định sau khi thay đổi, do đó chi phí về thơi gian tính toan tăng lên đang kể. Để giai
quyết hai thách thức trên, các nhà nghiên cứu đề xuât hương tiếp cân tính toan gia tăng
tìm tâp rút gon. Các thuât toan gia tăng chỉ câp nhât lai tâp rút gon trên phân dữ liêu bị
thay đổi mà không tính lai tâp rút gon trên toàn bô bang quyết định ban đâu. Do đó,
chúng giam thiểu đang kể thơi gian thực hiên. Hơn nữa, các thuât toan gia tăng có thể
thực hiên đươc trên các bang quyết định kích thươc lơn bằng giai pháp chia nho bang
quyết định thành nhiều phân, tâp rút gon đươc tính khi lân lươt bổ sung từng phân.
Hương tiếp cân tính toan gia tăng tìm tâp rút gon cua bang quyết định đã va
đang thu hut sự quan tâm cua các nhà nghiên cứu trong suốt hơn thâp kỷ qua.
Theo tiếp cận lý thuyết tập thô truyền thống của Pawlak [19] và các mô hình
tập thô mở rộng, các nhà nghiên cứu đã đề xuât nhiều thuât toan gia tăng tìm tâp rút
gon cua bang quyết định thay đổi. Với trường hợp bổ sung, loại bỏ tập đối tượng, môt
số thuât toan gia tăng đề xuât sử dụng khoang cách [20, 21], hat thông tin [22, 23, 24,
25, 26, 27], ma trân phân biêt [28, 29, 30, 31, 32], miền dương [33, 34, 35], ham thuôc
[36], quan hê không phân biêt đươc [37], entropy thông tin [38], đô đo không nhât
quán [39], lựa chon mẫu kích hoat [40]. Với trường hợp bổ sung, loại bỏ tập thuộc
tính, môt số thuât toan gia tăng tìm tâp rút gon đã đươc đề xuât sử dụng miền dương
[41], entropy thông tin [42], ma trân phân biêt [43, 44, 45], quan hê không phân biêt
[46, 47], khoang cach [48], đô phụ thuôc cua thuôc tính [49], hat tri thức [50, 51].
Theo tiếp cận tập thô mờ [1], trong mây năm gân đây môt số thuât toan gia tăng
tìm tâp rút gon cua bang quyết định đã đươc đề xuât vơi cac trương hơp: bổ sung và
loai bo tâp đối tương [52, 53, 54, 56, 57], bổ sung và loai bo tâp thuôc tính [58]. Với
trường hợp bổ sung, loại bỏ tập đối tượng, Liu và các công sự [52] xây dựng công
thức gia tăng tính đô phụ thuôc mơ va đề xuât thuât toan giăng FIAT tìm tâp rút gon
khi bổ sung tâp đối tương. Yang và các công sự [53] xây dựng công thức gia tăng tính
quan hê phân biêt, trên cơ sở đó xây dựng thuât toan gia tăng IARM tìm tâp rút gon
khi bổ sung tâp đối tương. Yang và các công sự [54] xây dựng cơ chế câp nhât quan hê
phân biêt va đề xuât hai thuât toán IV-FS-FRS-1 và IV-FS-FRS-2 tìm tâp rút gon trong
trương hơp bổ sung tâp đối tương. Zhang và các công sự [56] đề xuât thuât toán gia
3
tăng AIFWAR tìm tâp rút gon sử dụng entropy có điều kiên mở rông trong trương hơp
bổ sung tâp đối tương. Ni và các công sự [57] đưa ra khai niêm tâp đối tương chính
(key instance set), trên cơ sở đó xây dựng hai thuât toan gia tăng tìm tâp rút gon dựa
trên tâp đối tương chính trong trương hơp bổ sung tâp đối tương: thuât toán DIAR sử
dụng hàm thuôc mơ và thuât toán PIAR sử dụng miền dương mơ. Với trường hợp bổ
sung, loại bỏ tập thuộc tính, các kết qua nghiên cứu về các thuât toan gia tăng tìm tâp
rút gon theo tiếp cân tâp thô mơ còn han chế. Zeng và các công sự [58] xây dựng các
công thức gia tăng câp nhât đô phụ thuôc mơ trong hê thông tin hỗn hơp (HIS), trên cơ
sở đó đề xuât hai thuât toan gia tăng câp nhât tâp rút gon sử dụng đô phụ thuôc mơ:
thuât toán FRSA-IFS-HIS(AA) trong trương hơp bổ sung tâp thuôc tính và thuât toán
FRSA-IFS-HIS(AD) trong trương hơp loai bo tâp thuôc tính. Kết qua thực nghiêm
trong các công trình nêu trên cho thây, các thuât toan gia tăng giam thiểu đang kể thơi
gian thực hiên so vơi các thuât toan không gia tăng. Do đó, chung có thể thực thi hiêu
qua trên các bang quyết định có kích thươc lơn va thay đổi, câp nhât. Tuy nhiên, phần
lớn các thuật toán đề xuất đều theo hướng tiếp cận lọc (filter) truyền thống. Vơi cách
tiếp cân này, tâp rút gon tìm đươc là tâp thuôc tính tối thiểu bao toan đô đo đươc xây
dựng. Viêc đanh gia đô chính xác phân lơp đươc thực hiên sau khi tìm đươc tâp rút
gon. Vì vây, tâp rút gon thu đươc chưa phai là lựa chon tốt nhât trên hai tiêu chí: số
lương thuôc tính tâp rút gon va đô chính xác phân lơp. Do đó, đông lực nghiên cứu cua
luân án là nghiên cứu, đề xuất các thuật toán gia tăng theo tiếp cận kết hợp filter-
wrapper nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác
mô hình phân lớp.
2. Mục tiêu nghiên cứu
Nghiên cứu, đề xuât các thuât toan gia tăng tìm tâp rút gon cua bang quyết định
thay đổi dựa trên tâp thô mơ theo tiếp cân kết hơp filter-wrapper nhằm giảm thiểu số
lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô hình phân lớp, từ đó
giam thiểu đô phức tap cua mô hình khai phá dữ liêu.
Với mục tiêu đặt ra, luận án đã thu được các kết quả chính như sau:
1) Đề xuât thuât toán filter-wrapper tìm tâp rút gon cua bang quyết định sử
dụng đô đo khoang cách mơ. Đóng góp nay đươc trình bày ở Chương 2 cua
luân án.
4
2) Đề xuât hai thuât toan gia tăng filter-wrapper tìm tâp rút gon cua bang quyết
định thay đổi trong trương hơp bổ sung, loai bo tâp đối tương. Đóng góp nay
đươc trình bày ở Chương 3 cua luân án.
3) Đề xuât hai thuât toan gia tăng filter-wrapper tìm tâp rút gon cua bang quyết
định thay đổi trong trương hơp bổ sung, loai bo tâp thuôc tính. Đóng góp
nay đươc trình bày ở Chương 4 cua luân án.
3. Đối tượng nghiên cứu của luận án:
- Tâp thô mơ va cac phương phap rut gon thuôc tính theo tiếp cân tâp thô mơ
- Bang quyết định thay đổi trong trương hơp bổ sung, loai bo tâp đối tương, tâp
thuôc tính.
- Cac đô đo đươc sử dụng trong lý thuyết tâp thô mơ, tâp trung vao đô đo
khoang cách mơ.
4. Phạm vi nghiên cứu
Về lý thuyết: Nghiên cứu các thuât toán heuristic tìm tâp rút gon cua bang quyết
định thay đổi (bổ sung, loai bo tâp đối tương; bổ sung, loai bo tâp thuôc tính) sử dụng
cac đô đo trong tâp thô mơ.
Về thử nghiệm: Thử nghiêm, so sanh, đanh gia cac thuât toan đề xuât vơi các
thuât toan đã công bố trên các bô dữ liêu mẫu từ kho dữ liêu UCI [59] nhằm đanh gia
tính hiêu qua cua các thuât toan đề xuât theo các mục tiêu đặt ra.
5. Phương pháp nghiên cứu
Nghiên cứu lý thuyết: Tổng hơp các nghiên cứu liên quan về cac phương phap
gia tăng rut gon thuôc tính theo tiếp cân tâp thô mơ, trên cơ sở đó phân tích, đanh gia
các vân đề còn tồn tai và xây dựng cac đề xuât cai tiến: Cai tiến về đô chính xác mô
hình phân lơp và cai tiến về số lương thuôc tính tâp rút gon, từ đó giam đô phức tap
cua mô hình.
Nghiên cứu thực nghiệm: Các thuât toan đề xuât đươc cai đặt, chay thử nghiêm,
so sanh, đanh gia vơi các thuât toán khác trên các bô số liêu mẫu từ kho dữ liêu UCI
[59] nhằm minh chứng về tính hiêu qua cua các nghiên cứu về lý thuyết.
5
6. Nội dung nghiên cứu
1) Nghiên cứu cac phương phap rut gon thuôc tính trong bang quyết định dựa
trên mô hình tâp thô mơ theo tiếp cân kết hơp filter-wrapper.
2) Nghiên cứu cac phương phap gia tăng rut gon thuôc tính trong bang quyết
định thay đổi theo tiếp cân kết hơp filter-wrapper. Bang quyết định thay đổi trong
trương hơp bổ sung, loai bo tâp đối tương; bổ sung, loai bo tâp thuôc tính.
3) Cai đặt, thử nghiêm, so sanh, đanh gia cac thuât toan đề xuât vơi các thuât
toan khac đã công bố trên các bô dữ liêu thử nghiêm từ kho dữ liêu UCI [59].
7. Ý nghĩa khoa học và thực tiễn
Ý nghĩa khoa học:
Đề xuât các thuât toán mơi tìm tâp rút gon cua bang quyết định theo tiếp cân kết
hơp filter-wrapper trong trương hơp bang quyết định thay đổi. Cụ thể luân án có các
kết qua chính như sau:
1) Xây dựng môt đô đo khoang cách mơ va đề xuât thuât toán theo tiếp cân kết
hơp filter-wrapper FW_FDBAR tìm tâp rút gon cua bang quyết định sử dụng đô đo
khoang cách mơ. Kết qua thử nghiêm trên các bô số liêu mẫu từ kho dữ liêu UCI [59]
cho thây, thuât thoán filter-wrapper FW_FDBAR giam thiểu đang kể số lương thuôc
tính tâp rút gon và cai thiên đô chính xác mô hình phân lơp so vơi các thuât toán filter
truyền thống khác.
2) Xây dựng cac công thức gia tăng tính khoang cach va đề xuât 04 thuât toan
gia tăng filter-wrapper tìm tâp rút gon cua bang quyết định :
a. Thuât toan gia tăng filter-wrapper IFW_FDAR_AdObj tìm tâp rút gon trong
trương hơp bổ sung tâp đối tương.
b. Thuât toan gia tăng filter-wrapper IFW_FDAR_DelObj tìm tâp rút gon trong
trương hơp loai bo tâp đối tương.
c. Thuât toan gia tăng filter-wrapper IFW_FDAR_AA tìm tâp rút gon trong
trương hơp bổ sung tâp thuôc tính.
d. Thuât toan gia tăng filter-wrapper IFW_FDAR_DA tìm tâp rút gon trong
trương hơp loai bo tâp thuôc tính.
6
Kết qua thử nghiêm trên các bô số liêu mẫu từ kho dữ liêu UCI [59] cho thây,
bốn thuât toan đề xuât đều theo tiếp cân kết hơp filter-wrapper, trong đó giai đoan
filter tìm các ứng viên cho tâp rút gon (là các tâp thuôc tính bao toan đô đo sử dụng),
giai đoan wrapper tìm tâp rút gon có đô chính xác phân lơp cao nhât. Bốn thuât toan đề
xuât đều giam thiểu số thuôc tính tâp rút gon và cai thiên đô chính xác mô hình phân
lơp so vơi các thuât toan đươc so sánh.
Ý nghĩa thực tiễn
Các thuât toan đề xuât có thể áp dụng để giai quyết bài toán rút gon thuôc tính
trong các ứng dụng thực tiễn nhằm loai bo các thuôc tính dư thừa, nâng cao hiêu qua
các mô hình khai phá dữ liêu và hoc may, đặc biêt là trong các hê thống cơ sở dữ liêu
trong cac lĩnh vực chẩn đoan y tế, tài chính ngân hàng,...
8. Bố cục của luận án
Bố cục cua luân án gồm: phân mở đâu và bốn chương nôi dung, phân kết luân
và danh mục các tài liêu tham khao. Cụ thể như sau:
Chương 1 trình bay môt số khái niêm cơ ban gồm: tổng quan về rút gon thuôc
tính và về cách tiếp cân filter-wrapper trong rút gon thuôc tính. Chương 1 cũng trình
bày các nghiên cứu liên quan đến rút gon thuôc tính theo tiếp cân tâp thô mơ, các
nghiên cứu liên quan đến phương phap gia tăng rut gon thuôc tính theo tiếp cân tâp thô
mơ trong mây năm gân đây. Trên cơ sở đó, luân án phân tích các vân đề còn tồn tai và
nêu rõ các mục tiêu nghiên cứu cùng vơi tóm tắt các kết qua đat đươc. Các kiến thức
cơ ban nay đươc sử dụng trong cac chương sau, la cac đóng góp chính cua luân án.
Cac đóng góp chính cua luân an đươc trình bày trong Chương 2, Chương 3 và
Chương 4. Chương 2 trình bày kết qua nghiên cứu về xây dựng đô đo khoang cách mơ
va đề xuât thuât toán kết hơp filter-wrapper FW_FDBAR tìm tâp rut gon cua bang
quyết định.
Chương 3 va Chương 4 đề xuât các công thức gia tính khoang cách mơ và vân
dụng các khoang cach nay để xây dựng 4 thuât toan gia tăng filter-wrapper; thuât toán
gia tăng filter-wrapper thứ nhât tìm tâp rút gon cua bang quyết định trong trương hơp
bổ sung tâp đối tương; thuât toan gia tăng filter-wrapper thứ hai tìm tâp rút gon cua
bang quyết định trong trương hơp loai bo tâp đối tương; thuât toan gia tăng filter-
7
wrapper thứ ba tìm tâp rút gon cua bang quyết định trong trương hơp bổ sung tâp
thuôc tính; thuât toan gia tăng filter-wrapper thứ bốn tìm tâp rút gon cua bang quyết
định trong trương hơp loai bo tâp thuôc tính. Ca bốn thuât toan đề xuât đều sử dụng đô
đo khoang cách mơ đề xuât ở Chương 2 va đều có mục tiêu là giam thiểu thơi gian
thực hiên so vơi thuât toan không gia tăng, nâng cao đô chính xác phân lơp và tối thiểu
hóa số lương thuôc tính tâp rút gon so vơi các thuât toan gia tăng khac đã công bố.
Cuối cùng, phân kết luân nêu những đóng góp cua luân an, hương phát triển và
những vân đề quan tâm cua tác gia.
8
CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH
THEO TẬP THÔ MỜ
Trong chương nay, luân án sẽ trình bày tổng quan về rút gon thuôc tính, các
hương tiếp cân filter va hương tiếp cân kết hơp fifter-wrapper trong rút gon thuôc tính,
nhằm rút ra những ưu nhươc điểm cua các cách tiếp cân trên, từ đó đề xuât hương tiếp
cân phù hơp; trình bày tổng quan lý thuyết tâp thô mơ là những khái niêm cơ ban để
nghiên cứu vân dụng vào bài toán rút gon trên tâp mơ, la cơ sở nền tang để đưa ra đề
xuât thuât toán rút gon thuôc tính sử dụng khoang cách mơ theo tiếp cân filter-wrapper
va cũng la căn cứ cơ ban để chúng tôi nghiên cứu và phát triển cho các thuât toán gia
tăng rut gon thuôc tính trong cac chương tiếp theo.
1.1. Tổng quan về rút gọn thuộc tính
Trong bối canh ngay nay, cac cơ sở dữ liêu ngay cang gia tăng về dung lương
dữ liêu cũng như số lương thuôc tính, gây rât nhiều khó khăn cho viêc thực thi các
thuât toán khai phá dữ liêu. Vân đề đặt ra là phai tìm cách rút gon số lương thuôc tính
mà không làm mât mát những thông tin cân thiết phục vụ nhiêm vụ khai phá dữ liêu.
Do đó, rut gon thuôc tính (hay còn goi là rút gon chiều – dimension reduction, rút gon
đặc trưng – feature reduction) trở thanh đề tài thu hút sự quan tâm cua nhiều nhà
nghiên cứu trong viêc xử lý dữ liêu lơn thuôc các hê thống Internet of Things (IoT) nơi
xuât hiên môt lương lơn dữ liêu ở các dang và khối lương khác nhau.
Rút gọn thuộc tính là bài toán quan trong trong bươc tiền xử lý dữ liêu vơi mục
tiêu là loai bo các thuôc tính dư thừa, không liên quan, chỉ giữ lai các thuôc tính hữu
ích nhât từ môt tâp các thuôc tính ban đâu nhằm tăng tính hiêu qua cua các thuât toán
khai phá dữ liêu: Gia tăng tốc đô, cai thiên chât lương và tính dễ hiểu cua các kết qua
thu đươc.
Các kỹ thuât rút gon thuôc tính thương đươc phân thành hai loai: Lựa chọn
thuộc tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation). [60]
Lựa chọn thuộc tính là chon môt tâp con tối tiểu tốt nhât (theo môt nghĩa nao
đó) từ tâp thuôc tính ban đâu cua tâp dữ liêu.
Biến đổi thuộc tính là thực hiên viêc biến đổi các thuôc tính ban đâu thành môt
tâp các thuôc tính mơi vơi số lương ít hơn sao cho bao tồn đươc thông tin nhiều nhât.
9
Vơi những cách thực hiên viêc rút gon thuôc tính như trên, trong qua trình phân
tích luân an đề xuât nghiên cứu hương tiếp cân lựa chọn thuộc tính, goi chung là rút
gọn thuộc tính.
Các công trình nghiên cứu về rút gon thuôc tính thương tâp trung vào nghiên
cứu các kỹ thuât lựa chon thuôc tính. Lựa chọn thuộc tính là quá trình lựa chon môt
tâp con gồm P thuôc tính từ tâp gồm A thuôc tính (P A) sao cho không gian thuôc
tính đươc thu gon lai môt cách tối ưu theo môt tiêu chuẩn nhât định. Viêc tìm ra môt
tâp con thuôc tính tốt nhât thương khó thực hiên; bài toán liên quan đến vân đề này
thuôc lơp bài toán NP-khó. Nhìn chung, môt thuât toán lựa chon thuôc tính thương
bao gồm bốn khâu cơ ban:
(1) Tao lâp tâp con;
(2) Đanh gia tâp con;
(3 ) Kiểm tra điều kiên dừng;
(4) Kiểm chứng kết qua.
Tao lâp tâp con thuôc tính là quá trình tìm kiếm liên tiếp nhằm tao ra các tâp
con để đanh gia, lựa chon. Gia sử có A thuôc tính trong tâp dữ liêu ban đâu, khi đó số
tât ca các tâp con từ A thuôc tính sẽ là 2A . Như vây, rât khó khăn khi tìm tâp con tối ưu
từ tât ca các tâp con nay. Phương phap chung để tìm tâp con thuôc tính tối ưu la lân
lươt tao ra các tâp con để so sánh. Mỗi tâp con sinh ra bởi môt thu tục sẽ đươc đanh
giá theo môt tiêu chuẩn nhât định va đem so sánh vơi tâp con tốt nhât trươc đó. Nếu
tâp con này tốt hơn, nó sẽ thay thế tâp cũ. Qua trình tìm kiếm tâp con thuôc tính tối ưu
sẽ dừng khi môt trong bốn điều kiên sau xay ra:
- Đã thu đươc số thuôc tính quy định.
- Số bươc lặp quy định cho quá trình lựa chon đã hết.
- Viêc thêm vào hay loai bơt môt thuôc tính nao đó không lam cho môt tâp con
trở nên tốt hơn.
- Đã thu đươc tâp con tốt nhât theo tiêu chuẩn đanh gia.
Tâp con tốt nhât cuối cùng phai đươc kiểm chứng thông qua viêc tiến hành các
phép kiểm định, so sánh các kết qua khai phá vơi tâp thuôc tính “tốt nhât” nay va tâp
10
thuôc tính ban đâu trên các tâp dữ liêu khác nhau. Quá trình lựa chon thuôc tính đươc
biểu diễn như hình sau: [60]
Hình 1.1 Quy trình rút gọn thuộc tính
1.2. Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính
Hiên nay có hai cách tiếp cân chính đối vơi bài toán lựa chon thuôc tính: Loc
(filter) va đóng gói (wrapper), vơi mỗi hương tiếp cân có những mục tiêu riêng về
giam số lương thuôc tính hoặc nâng cao đô chính xác cua mô hình phân lơp.
Cách tiếp cân kiểu loc thực hiên viêc lựa chon thuôc tính đôc lâp vơi các thuât
toán khai phá sử dụng sau này. Các thuôc tính đươc chon chỉ dựa trên đô quan trong
cua chúng trong viêc mô ta dữ liêu.
Cách tiếp cân kiểu loc có ưu điểm là thơi gian tính toan nhanh, nhươc điểm là
không sử dụng thông tin nhãn lơp cua các bô dữ liêu nên đô chính xác không cao
Ngươc lai vơi cách tiếp cân loc, lựa chon thuôc tính kiểu đóng gói tiến hành
viêc lựa chon bằng cách áp dụng ngay kỹ thuât khai phá cụ thể vơi tâp rút gon vừa
thu đươc, đô chính xác cua kết qua đươc lây làm tiêu chuẩn để lựa chon các tâp con
thuôc tính.
Cac hương tiếp cân loc va đóng gói cua bài toán lựa chon thuôc tính đươc biểu
diễn.[60]
11
Tập thuộc tínhTập con
được chọnThuật toán học
Filter
Tập thuộc tínhTạo lập
các tập conThuật toán học
WrapperCác thuộc
tính
Sự đánh
giá
Tập con được lựa chọn
Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính
Từ những ưu nhươc điểm cua 2 cách tiếp cân trên, nghiên cứu sinh đã nghiên
cứu va đề xuât môt số cách tiếp cân mơi nhằm kết hơp những ưu điểm cua phương
pháp filter, wapper và loai bo đi những nhươc điểm cua nó, nghiên cứu sinh đã đề xuât
môt số cách tiếp cân mơi, như la: cách tiếp cận kết hợp fifter-wrapper [9, 61]
1.3. Tổng quan về tập thô mờ
Lý thuyết tập thô truyền thống cua Pawlak [19] sử dụng quan hê tương đương
để xâp xỉ tâp hơp. Trong khi đó, lý thuyết tập thô mờ (Fuzzy Rough Set) do D.
Dübois và các công sự [1] đề xuât sử dụng quan hệ tương đương mờ để xâp xỉ tâp
mơ. Giống như lý thuyết tập thô truyền thống, lý thuyết tập thô mờ đươc xem là công
cụ hiêu qua giai quyết bài toán rút gon thuôc tính và trích loc luât trên bang quyết
định. Cho đến nay, các nghiên cứu liên quan đến rút gon thuôc tính theo tiếp cân tâp
thô mơ tâp trung vao hai hương chính: thứ nhât là rút gon thuôc tính trên các bang
quyết định mơ (bang quyết định vơi giá trị thuôc tính là các tâp mơ); thứ hai là rút
gon thuôc tính trực tiếp trên bang quyết định gốc (bang quyết định không qua bươc
rơi rac hóa dữ liêu) nhằm nâng cao đô chính xác cua mô hình phân lơp. Luân án
nghiên cứu hương thứ hai, do đó trong phân này luân án trình bày môt số khái niêm
cơ ban về mô hình tâp thô mơ trên bang quyết định. Các khái niêm nay đươc sử dụng
trong cac chương sau cua luân án.
12
1.3.1. Bảng quyết định và quan hệ tương đương
Bảng quyết định la môt cặp ,DS U C D trong đó U la tâp hữu han, khac
rỗng cac đối tương; C la tâp thuôc tính điều kiên, D la tâp thuôc tính quyết định vơi
C D .
Lý thuyết tâp thô truyền thống cua Pawlak [19] sử dụng quan hê tương đương để
xâp xỉ tâp hơp. Xét bang quyết định ,DS U C D , mỗi tâp con thuôc tính P C xác
định môt quan hê tương đương trên miền gia trị thuôc tính, ký hiêu la PR .
, ,PR x y U U a P a x a y
Vơi a x la gia trị thuôc tính a tai đối tương x. Quan hê PR xac định môt phân
hoach trên U, ký hiêu la / p PK P U R x x U vơi
Px la lơp tương đương chứa
đối tương x, , PPx y U x y R . Vơi X U , tâp xâp xỉ dươi va xâp xỉ trên cua X
tương ứng la PPX x U x X và P
PX x U x X . Cặp ,PX PX đươc
goi la tâp thô (rough set) cua X đối vơi PR
1.3.2. Quan hệ tương đương mờ
Định nghĩa 1.1. [1] Cho bang quyết định ,DS U C D , môt quan hê R xác
định trên miền giá trị thuôc tính đươc goi là quan hệ tương đương mờ nếu thoa mãn
cac điều kiên sau vơi moi , ,x y z U
1) Tính phan xa (reflexive): , 1R x x ;
2) Tính đối xứng (symetric): , ,R x y R y x ;
3)Tính bắc câu max-min (max-min transitive):
, sup min , , ,z UR x y R x z R y z vơi , R x y là giá trị quan hê giữa hai đối tương
x và y.
Mệnh đề 1.1. [58] Cho bang quyết định ,DS U C D và quan hệ tương
đương mờ R . Ký hiêu PR , QR tương ứng là quan hê R xac định trên tâp thuôc tính
P, Q. Khi đó, vơi moi ,x y U ta có:
13
1) , ,P Q P QR R R x y R x y
2) ( , ) max , , ,P Q P Q P QR R R R x y R x y R x y
3) ( , ) min , , ,P Q P Q P QR R R R x y R x y R x y
4) , ,P Q P QR R R x y R x y
Môt số quan hệ tương đương mờ đươc sử dụng trong bài toán rút gon thuôc tính:
1) Trong các công trình [62, 63, 64], các tác gia sử dụng quan hệ tương đương mờ theo
công thức (1.1) trên thuôc tính a C có miền giá trị số
max min max min
1 4* 0.25
0
,
,
i j i j
i j
a x a x a x a x, if
a a a a
othe
x
r
R
wise
x
(1.1)
vơi ia x là giá trị cua thuôc tính a tai đối tương ix , max min,a a tương ứng là giá
trị lơn nhât, nho nhât cua thuôc tính a C .
2) Trong các công trình [9], các tác gia sử dụng quan hệ tương đương mờ theo công
thức (1.2) trên thuôc tính a C có miền giá trị thực thuôc đoan [0, 1].
1, i ji j aR x xx x a (1.2)
Trong trương hơp giá trị thuôc tính a không thuôc đoan [0, 1], các tác gia sử
dụng môt phương phap tiền xử lý để ánh xa miền giá trị thuôc tính a về đoan [0, 1].
Ngoài ra, môt số công trình [53] sử dụng quan hệ tương đương mờ
min ,,i j a x a yR x x trên thuôc tính a C có miền giá trị số thuôc đoan [0, 1].
3) Trên các thuôc tính a C có miền giá trị định danh (nominal) hoặc nhị phân
(binary), các tác gia sử dụng quan hê tương đương. Quan hê tương đương đươc xem là
quan hệ tương đương mờ theo công thức (1.3) như sau:
1, i
f,
f
0, i
i j
j
i j
i
a x a xR
a xx
a xx
(1.3)
14
1.3.3. Ma trận tương đương mờ
Ma trận tương đương mờ là công cụ biểu diễn giá trị quan hệ tương đương mờ
giữa cac đối tương cua bảng quyết định va đươc định nghĩa như sau:
Định nghĩa 1.2.[58] Cho bảng quyết định ,DS U C D vơi
1 2, ,..., nU x x x và PR là quan hệ tương đương mờ xac định trên tâp thuôc tính
P C . Khi đó, ma trận tương đương mờ biểu diễn PR , ký hiêu là ij( )n nPM pR
đươc định nghĩa như sau:
11 12 1
21 22 2
1 2
...
...( )
... ... ... ...
...
n
n
P
n n nn
p p p
p p pM R
p p p
vơi ,Pij i jp R x x là giá trị cua quan hê giữa hai đối tương ix và jx trên tâp
thuôc tính P, 0,1ijp , , ,1 ,i jx x U i j n .
Như vây, giá trị các phân tử cua ma trận tương đương mơ ( )PM R phụ thuôc vào
quan hệ tương đương mờ PR đươc chon. Mặt khác, ma trận tương đương mờ la cơ sở để
xây dựng cac đô đo sử dụng để giai quyết bài toán rút gon thuôc tính trong bang quyết
định. Do đó, viêc lựa chon các quan hệ tương đương mờ anh hưởng đến kết qua thực hiên
các phương pháp rút gọn thuộc tính.
1.3.4. Phân hoạch mờ
Mệnh đề 1.2.[64] Cho bang quyết định ,DS U C D và ,P Q C . Gia sử
ij( )n nPM pR
, ij
( )n nQ
M qR
tương ứng là ma trận tương đương mờ cua PR , Q
R
khi đó ma trận tương đương mờ trên tâp thuôc tính S P Q là:
ij( )S P Qn n
M R M R s
vơi ij ij ijmin ,s p q
Định nghĩa 1.3.[64] Cho bang quyết định ,DS U C D vơi P C ,
1 2, ,..., nU x x x và PR là quan hê tương đương mơ trên P. Khi đó phân hoach mơ trên
15
U sinh bởi PR , ký hiêu là: Φ PR đươc xac định như sau:
11Φ / , ,
n
P P i nP P PiR U R x x x
(1.4)
vơi 1 1 2 2/ / ... /i i i in nPx p x p x p x là môt tâp mơ đóng vai trò la môt lơp tương
đương mơ (fuzzy equivalent class) cua đối tương ix U .
Vơi lơp tương đương mơ i Px , hàm thuôc cua các cua cac đối tương
jx U
đươc xac định bởi , ,
Pi Pi j P i jRj ijx
x x R xx x p và lực lương cua lơp đương
đương mơ i Px đươc tính bởi
1
ii
n
P j
j
x p
.
Goi là tâp tât ca các phân hoach mơ trên U xac định bởi các quan hê tương
đương mơ trên các tâp thuôc tính, khi đó đươc goi là môt không gian phân hoach
mơ trên U. Như vây, môt không gian phân hoach mơ đươc xac định bởi quan hê
tương đương mơ định nghĩa trực tiếp trên miền giá trị thuôc tính.
Định nghĩa 1.4. Xét phân hoach mơ 1
Φn
P i P iR x
sinh bởi quan hê tương
đương mơ PR vơi 1 1/ ... /i i in nPx p x p x , có 2 trương hơp đặc biêt xay ra:
(1) Nếu 0, ) à 1ij iip i j v p (vơi 1 ,i j n thì 1i Px , i n , phân hoach
mơ Φ PR đươc goi là mịn nhât ký hiêu là Φ .
(2) Nếu 1ijp vơi 1 ,i j n thì i Px U , i n , phân hoach mơ Φ PR đươc
goi là thô nhât (roughest) ký hiêu là Φ .
Định nghĩa 1.5 [64]. Xét hai phân hoach mơ Φ , ΦP QR R , quan hê thứ
tự bô phân đươc định nghĩa như sau:
Φ Φ , , ,P Q i i ij ijP QR R x x i n p q i j n , viết tắt là P QR R .
Dâu đẳng thức Φ Φ , , , , P Q i i ij ijP QR R x x i n p q i j n viết tắt là
P QR R .
Φ Φ Φ ΦP Q P QR R R R và Φ ΦP QR R , viết tắt là P QR R .
16
Ví dụ 1.1. Cho bang quyết định ,DS U C d trong Bang 1.1 vơi
1 2 3 4, , ,U u u u u và 1 2 3 4, , ,C c c c c
Bảng 1.1 Bảng quyết định của Ví dụ 1.1
U 𝑐1 𝑐2 𝑐3 𝑐4 D
𝑢1 0.5 0.6 0.8 0.4 1
𝑢2 0.8 0.6 0.8 0.4 1
𝑢3 0.2 0.2 1.0 0.6 0
𝑢4 0.2 0.8 0.6 0.6 0
Luân án dùng quan hê tương đương mơ trong [9] trên mỗi thuôc tính điều kiên
như sau: , 1aR x y a x a y vơi a C và ,x y U
Gia sử rằng 1 2,P c c , ta có:
1 2
1 0.7 0.7 0.7 1 1 0.6 0.8
0.7 1 0.4 0.4 1 1 0.6 0.8,
0.7 0.4 1 1 0.6 0.6 1 0.4
0.7 0.4 1 1 0.8 0.8 0.4 1
c cM R M R
và
1 0.7 0.6 0.7
0.7 1 0.4 0.4
0.6 0.4 1 0.4
0.7 0.4 0.4 1
PM R
Phân hoach mơ trên PR như sau: 1 2 3 4, , ,P P P P PR u u u u
vơi 1 1 2 3 4 11/ 0.7 / 0.6 / 0.7 / 3,P P
u u u u u u
2 1 2 3 4 20.7 / 1/ 0.4 / 0.4 / 2.5,P P
u u u u u u
4 33 1 2 30.6 / 0.4 / 1/ 0.4 / 2.4,P P
u u u u u u
4 1 2 3 4 4 0.7 / 0.4 / 0.4 / 1/ 2.5,P P
u u u u u u
Cho 2 3,Q c c , 3 4,S c c , tính toan tương tự ta có
1 2 3 4, , , Q Q Q Q QR u u u u vơi: 1 1 2 3 4 1/ 1/ 0.6 / 0.8 /
Qu u u u u ,
17
2 1 2 3 41/ 1/ 0.6 / 0.8 /Q
u u u u u , 3 1 2 3 4 0.6 / 0.6 / 1/ 0.4 /Q
u u u u u ,
4 1 2 3 4 0.8 / 0.8 / 0.4 / 1/Q
u u u u u .
Và 1 2 3 4, , , S S S S SR u u u u vơi 1 1 2 3 4 1/ 1/ 0.8 / 0.8 /
Su u u u u ,
2 1 2 3 41/ 1/ 0.8 / 0.8 /S
u u u u u , 3 1 2 3 40.8 / 0.8 / 1/ 0.6 /S
u u u u u ,
4 1 2 3 4 0.8 / 0.8 / 0.6 / 1/S
u u u u u .
Điều đó chỉ ra rằng Φ ΦP SR R và Φ ΦQ SR R .
1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ
Kể từ khi Lý thuyết tâp thô mơ (Fuzzy rough set) do Dübois và các công sự
[1] đề xuât, cac phương phap rut gon thuôc tính trên bang quyết định theo tiếp cân
tâp thô mơ đã thu hut sự quan tâm cua công đồng nghiên cứu. Trong phân này, luân
án trình bày tóm tắt các nghiên cứu liên quan đến rút gon thuôc tính theo tiếp cân
tâp thô mơ
1.4.1. Rút gọn thuộc tính theo tiếp cận tập thô mờ
1.4.1.1 Các nghiên cứu liên quan
Cac phương phap rut gon thuôc tính trong bang quyết định theo tiếp cân tâp thô
mơ đều dựa trên cac phương phap rut gon thuôc tính theo tiếp cân tâp thô đã đươc
nghiên cứu lâu nay. Đây la cac phương phap heuristic theo tiếp cân filter, bao gồm các
bươc xây dựng đô đo, định nghĩa tâp rút gon va đô quan trong cua thuôc tính sử dụng
đô đo đươc xây dựng, trên cơ sở đó xây dựng thuât toán heuristic tìm tâp rút gon theo
tiêu chuẩn la đô quan trong cua thuôc tính. Viêc đanh gia đô chính xác cua mô hình
phân lơp đươc thực hiên sau khi tìm đươc tâp rút gon. Cho đến nay, các nghiên cứu
liên quan đến rút gon thuôc tính theo tiếp cân tâp thô mơ tâp trung vao cac phương
phap chính như: phương phap sử dụng hàm thuôc mơ, phương phap sử dụng miền
dương mơ, cac phương phap sử dụng entropy mơ, phương phap sử dụng khoang cách
mơ và môt số phương phap mở rông gân đây.
18
Bảng 1. 2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn
của bảng quyết định theo tiếp cận tập thô mờ.
STT Công bố, năm xuất bản Thuật toán
1) Hàm thuộc mờ
1
Anoop Kumar Tiwari 2018, [3]
Z. Wang và công sự 2017, [4]
Zhang và công sự 2018, [5]
Cac thuât toan tìm tâp rut gon sử
dụng ham thuôc mơ
2) Miền dương mờ
2 T.K. Sheeja và công sự 2018, [6]
Y. Lin và công sự 2018, [7]
Cac phương phap sử dụng miền
dương mơ
3) Entropy mờ
3
J.H. Dai và công sự 2018, [8]
Q.H. Hu và công sự 2016, [9]
X. Zhang và công sự 2016,[10]
Cac thuât toan tìm tâp rut gon sử
dụng phương phap entropy mơ.
4) Phương pháp sử dụng khoảng cách mờ
4
C.Z. Wang và công sự 2019, [11]
C.Z. Wang và công sự 2015, [12]
Cao Chinh Nghia và công sự 2016,
[13]
Cac thuât toan tìm tâp rut gon sử
dụng đô đo phương phap khoang
cách mơ
5) Các phương pháp khác
5
J.H. Dai và công sự 2018, [14]
J.H. Dai và công sự 2017, [15]
L.J.Ping và công sự 2020, [16]
W.P. Ding và công sự 2019, [17]
X.M. Liu và công sự 2019, [18]
Y.J. Lin và công sự 2017, [19]
Cac thuât toan tìm tâp rut gon sử
dụng môt số phương phap khac
1.4.1.2 Các điểm chung của các nghiên cứu liên quan
Từ các nghiên cứu liên quan đươc trình bày ở phân 1.4.1.1, tác gia tổng kết các
phương phap rut gon thuôc tính theo tiếp cân tâp thô mơ có cac điểm chung như sau:
1) Cac phương phap rut gon thuôc tính theo tiếp cân tâp thô mơ có đô chính xác
phân lơp cao hơn cac phương phap rut gon thuôc tính theo tiếp cân tâp thô truyền
thống. Điều nay đươc thể hiên ở các kết qua thử nghiêm trên các tâp dữ liêu mẫu trong
các công bố.
2) Mục tiêu chung cua cac phương phap đề xuât la nâng cao đô chính xác phân
lơp, tối thiểu hóa số thuôc tính cua tâp rút gon và thơi gian thực hiên. Vì vây, các
19
phương phap đã đề xuât trong luân án đều cố gắng cai thiên đô chính xác mô hình
phân lơp, rút gon thuôc tính và cai thiên đang kể thơi gian thực hiên so vơi cac phương
phap trươc đó.
3) Giống như cac phương phap rut gon thuôc tính theo tiếp cân tâp thô, các
phương phap rut gon thuôc tính theo tiếp cân tâp thô mơ la cac phương phap heuristic
theo tiếp cân filter. Nghĩa la, đô chính xác phân lơp đươc đanh gia sau khi tìm đươc
tâp rút gon. Cac phương phap bao gồm 03 bươc chính: (1) Xây dựng đô đo, (2) xây
dựng tâp rút gon va đô quan trong cua thuôc tính dựa trên đô đo va (3) xây dựng thuât
toán heuristic tìm môt tâp rút gon theo tiêu chuẩn đô quan trong cua thuôc tính.
1.4.1.3 Các vấn đề còn tồn tại
Các thuât toan đã đề xuât đươc trình bày trong Bang 1.2 nêu trên đều là các
thuât toán heuristic theo tiếp cân filter truyền thống, nghĩa la tâp rút gon thu đươc là
tâp thuôc tính tối thiểu bao toan đô đo đươc định nghĩa. Viêc đanh gia đô chính xác
cua mô hình phân lơp đươc thực hiên sau khi tìm đươc tâp rút gon. Do đó, tâp rút gon
cua các thuât toan filter nêu trên chưa tối ưu về số lương thuôc tính va đô chính xác
phân lơp.
1.4.1.4 Đề xuất nghiên cứu của luận án
Trong cac đô đo đươc sử dụng trong các thuât toán trong Bang 1.2, khoang
cách mơ đươc chứng minh la đô đo hiêu qua giai quyết bài toán rút gon thuôc tính
trong bang quyết định. Đông lực nghiên cứu thứ nhât là nghiên cứu, đề xuât các
thuật toán tìm tập rút gọn theo hướng tiếp cận kết hợp filter-wrapper sử dụng
độ đo khoảng cách mờ, là sự kết hơp giữa tiếp cân loc (filter) và đóng gói
(wrapper). Vơi cách tiếp cân nay, giai đoan filter tìm ra các tâp rút gon xâp xỉ, giai
đoan wrapper sử dụng các bô phân lơp để tính đô chính xác cua các tâp rút gon xâp
xỉ và tìm ra tâp rút gon xâp xỉ có đô chính xác phân lơp cao nhât, đồng thơi giam
thiểu số lương thuôc tính tâp rút gon.
1.4.2. Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ
Trong xu thế dữ liêu lơn (Big data) hiên nay, các bang quyết định ngày càng có
số thuôc tính rât lơn, ví dụ các bang dữ liêu trong lĩnh vực tin sinh hoc có hàng triêu
thuôc tính. Hơn nữa, các bang quyết định luôn luôn thay đổi, câp nhât vơi các tình
20
huống như bổ sung và loai bo tâp đối tương, bổ sung và loai bo tâp thuôc tính, giá trị
tâp đối tương, tâp thuôc tính thay đổi. Trong đó, trương hơp bổ sung, loai bo tâp
thuôc tính xuât hiên ngày càng phổ biến. Ví dụ bài toán chuẩn đoan bênh trong lĩnh
vực y tế, các triêu chứng lâm sang đươc xem như cac thuôc tính ban đâu để bac sĩ
chẩn đoan bênh. Sau đó, cac chỉ số xét nghiêm đươc xem như cac thuôc tính tiếp
theo liên tục đươc bổ sung, câp nhât nhằm hỗ trơ bac sĩ trong viêc nâng cao đô chính
xác chẩn đoan. Để xây dựng mô hình phân lơp hiêu qua, ta cân giai quyết bài toán rút
gon thuôc tính trên các bang quyết định kích thươc lơn va thay đổi. Viêc ap dụng cac
thuât toan tìm tâp rut gon theo phương phap truyền thống gặp nhiều thach thức. Vơi
trương hơp bang quyết định có kích thươc lơn, viêc thực hiên cac thuât toan tìm tâp
rut gon gặp khó khăn do han chế về không gian lưu trữ va tốc đô tính toan. Vơi
trương hơp bang quyết định thay đổi, câp nhât, cac thuât toan nay phai tính toan lai
tâp rut gon trên toan bô bang quyết định sau khi thay đổi, do đó chi phí về thơi gian
tính toan tăng lên đang kể. Để vươt qua cac thach thức trên, cac nha nghiên cứu đề
xuât hương tiếp cân tính toan gia tăng tìm tâp rut gon. Cac thuât toan gia tăng chỉ câp
nhât lai tâp rut gon trên phân dữ liêu bị thay đổi ma không tính lai tâp rut gon trên
toan bô bang quyết định. Vơi cac bang quyết định thay đổi, câp nhât, cac thuât toan
gia tăng giam thiểu đang kể thơi gian thực hiên. Hơn nữa, cac thuât toan gia tăng có
thể thực hiên đươc trên cac bang quyết định kích thươc lơn bằng giai phap chia nho
bang quyết định thanh nhiều phân, sau đó tâp rut gon đươc tính khi lân lươt bổ sung
từng phân vao bang quyết định.
Hương tiếp cân tính toan gia tăng tìm tâp rut gon đã va đang thu hut sự quan
tâm cua cac nha nghiên cứu trong suốt hơn hai thâp kỷ qua. Trong phân nay, tac gia
trình bay cac nghiên cứu liên quan đến cac thuât toan gia tăng tìm tâp rut gon cua bang
quyết định theo tiếp cân tâp thô mơ, trên cơ sở đó đưa ra cac vân đề còn tồn tai va
đông lực nghiên cứu cua luân an.
1.4.2.1. Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn theo tiếp cận
tập thô mờ
Cac hương nghiên cứu đươc liêt kê tóm tắt trong bang dươi đây:
21
Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn
của bảng quyết định theo tiếp cận tập thô mờ.
STT Công bố, năm xuất bản Thuật toán
1. Trường hợp bổ sung, loại bỏ tập đối tượng
1.1. Tiếp cận tập thô truyền thống
1
Demetrovics, J., Thi, V.D., & Giang,
N.L. [20], 2014
Huong, N. T. L., &Giang, N. L. [
21], (2016)
Các thuât toan gia tăng tìm tâp rút
gon sử dụng khoang cách
2
Y.G. Jing và công sự [22, 23], 2017
Zhang và công sự [24], 2020
Cai và công sự [25], 2019
Zhang và công sự [26], 2019
Zhang và công sự [27], 2020
Cac thuât toan gia tăng tìm tâp rut
gon sử dụng hat thông tin
3
W. Wei và công sự 2018, [28]
G. Lang và công sự 2017, [29]
Ma và công sự 2019, [30]
Yang và công sự, [31]
Liu và công sự, [32]
Cac thuât toan gia tăng tìm tâp rut
gon sử dụng ma trân phân biêt
4
Das và công sự 2018, [33]
Lang và công sự 2018, [34]
Hao và công sự 2019, [35]
Cac thuât toan gia tăng tìm tâp rut
gon sử dụng miền dương
5 Shua và công sự 2019, [36] Cac thuât toan gia tăng tìm tâp rut
gon sử dụng ham thuôc
6
Nandhini và công sự 2019, [37] Cac thuât toan gia tăng tìm tâp rut
gon sử dụng quan hê không phân
biêt đươc
7 Shu và công sự 2020, [38] Cac thuât toan gia tăng tìm tâp rut
gon sử dụng entropy thông tin
8 Xie và công sự 2018, [39] Thuât toan gia tăng tìm tâp rut gon
sử dụng đô đo không nhât quan
9 Y.Y. Yang và công sự Cac thuât toan gia tăng tìm tâp rut
gon sử dụng lựa chon mẫu kích hoat
1.2. Tiếp cận tập thô mờ
10 Liu và các công sự 2017, [52] Thuât toan gia tăng FIAT tìm tâp rut
gon sử dụng đô phụ thuôc mơ.
11
Yang và các công sự 2017, [53] Cac thuât toan gia tăng IARM tìm
tâp rut gon sử dụng quan hê phân
biêt mơ.
12
Yang và các công sự 2017, [54] Cac thuât toan gia tăng IV-FS-FRS-
1 và IV-FS-FRS-2 tìm tâp rut gon
sử dụng quan hê phân biêt mơ.
22
13
Giang và các công sự 2020, [55] Cac thuât toan gia tăng
IFW_FDAR_AdObj và
IFW_FDAR_DelObj tìm tâp rut gon
sử dụng quan hê khoang cach mơ.
14
Zhang và các công sự 2020, [56] Thuât toan gia tăng AIFWAR tìm
tâp rut gon sử dụng entropy có điều
kiên mở rông
15
Ni và các công sự 2020, [57] Thuât toan gia tăng DIAR sử dụng
ham thuôc mơ va thuât toan PIAR
sử dụng miền dương mơ tìm tâp rut
gon dựa trên tâp đối tương chính
2. Trường hợp bổ sung, loại bỏ tập thuộc tính
2.1. Tiếp cận tập thô truyền thống
16 W.H. Shu và công sự 2014, [41] Thuât toan gia tăng tìm tâp rut gon
sử dụng miền dương
17 F. Wang và công sự 2013, [42] Thuât toan gia tăng tìm tâp rut gon
sử dụng entropy thông tin
18
M.J. Cai và công sự 2017, [43]
Ma và công sự 2019, [44]
Wei và công sự 2019, [45]
Thuât toan gia tăng tìm tâp rut gon
sử dụng ma trân phân biêt.
19 Nandhini và công sự 2019, [46]
Chen và công sự 2020, [47]
Thuât toan gia tăng tìm tâp rut gon
sử dụng quan hê không phân biêt.
20 Demetrovics Janos và công sự 2016,
[48]
Thuât toan gia tăng tìm tâp rut gon
sử dụng khoang cach.
21
M.S. Raza và công sự 2016, [49] Thuât toan gia tăng tìm tâp rut gon
sử dụng đô phụ thuôc cua thuôc
tính.
22
Y. Jing và công sự 2016, [50]
Y.G. Jing và công sự 2018, [51]
Cac thuât toan gia tăng tìm tâp rut
gon sử dụng hat tri thức.
2.2. Tiếp cận tập thô mờ
23
A.P. Zeng và các công sự 2015, [58] Xây dựng các công thức gia tăng
câp nhât đô phụ thuôc mơ trong hê
thông tin hỗn hơp (HIS), trên cơ sở
đó đề xuât hai thuât toan gia tăng
câp nhât tâp rút gon sử dụng đô phụ
thuôc mơ: thuât toán FRSA-IFS-
HIS(AA) trong trương hơp bổ sung
tâp thuôc tính và thuât toán FRSA-
IFS-HIS(AD) trong trương hơp loai
bo tâp thuôc tính
23
1.4.2.2 Các vấn đề còn tồn tại
Các thuât toan gia tăng tìm tâp rút gon theo tiếp cân tâp thô mơ nêu trên có thơi
gian thực hiên nho hơn đang kể các thuât toan không gia tăng va có thể thực thi trên
các bang dữ liêu kích thươc lơn. Tuy nhiên, các thuât toan nêu trên đều theo hương
tiếp cân loc truyền thống (filter). Trong đó, tâp rút gon tìm đươc là tâp thuôc tính tối
thiểu bao toan đô đo đươc định nghĩa (ham thuôc mơ, quan hê phân biêt…), viêc đanh
gia đô chính xác phân lơp đươc thực hiên sau khi tìm đươc tâp rút gon. Vì vây, tâp rút
gon tìm đươc cua các thuât toán nêu trên chưa tối ưu ca về số lương thuôc tính va đô
chính xác phân lơp, nghĩa la tâp rút gon tìm đươc chưa chắc có đô chính xác phân lơp
tốt nhât.
1.4.2.3 Các đề xuất của luận án
Từ vân đề còn tồn tai cua các thuât toan gia tăng đã trình bay ở trên, đông lực
nghiên cứu cua luân án là:
1) Nghiên cứu, đề xuât các thuật toán gia tăng tìm tập rút gọn của bảng
quyết định theo tiếp cận kết hợp filter-wrapper nhằm giam thiểu số lương
thuôc tính tâp rút gon, trong khi cố gắng bao toàn và cai thiên đô chính xác
mô hình phân lơp.
2) Các thuât toan gia tăng tìm tâp rút gon cua bang quyết định theo tiếp cân kết
hơp đươc nghiên cứu, đề xuât trong cac trương hơp: bổ sung, loại bỏ tập đối
tượng; bổ sung, loại bỏ tập thuộc tính.
1.5. Tóm tắt các đóng góp của luận án
Dựa trên lý thuyết tâp thô mơ, luân an đề xuât các thuật toán cải tiến tìm tập rút
gọn theo tiếp cận tập thô mờ bằng thuật toán kết hợp filter-wrapper nhằm giai
quyết các vân đề còn tồn tai đươc trình bày ở mục 1.4.1 và 1.4.2 vơi hai đóng góp chính
như sau:
1) Đề xuât thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định
theo tiếp cận tập thô mờ: Thuật toán sử dụng khoảng cách mờ. Đô đo
khoang cách mơ đươc xây dựng là mở rông cua đô đo khoang cách trong công
trình [65]. Cac đóng góp nay đươc trình bày ở Chương 2 cua luân an va đươc
công bố trong các công trình 1, 2 phân “Danh mục công trình cua tác gia”.
24
2) Đề xuât các thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng
quyết định trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung,
loại bỏ tập thuộc tính. Cac đóng góp nay đươc trình bày ở Chương 3 và
Chương 4 cua luân an va đươc công bố trong công trình 1,3,4 phân “Danh
mục công trình cua tác gia”.
1.6. Kết luận chương 1
Trong chương 1 luân an đã nêu tổng quan về những vân đề cơ ban:
Tổng quan về rút gon thuôc tính, cac hương tiếp cân fifter - wrapper trong rút
gon thuôc tính; môt số khái niêm cơ ban về tâp thô mơ nhằm giai quyết bài toán rút
gon thuôc tính. Ngoai ra, chương 1 còn trình bay tổng quan về rút gon thuôc tính từ
đó đưa ra các thuât toán fifter-wrapper về tìm tâp rút gon cua bang quyết định va định
hương nghiên cứu cua luân án. Các khái niêm đươc trình bày ở chương 1 la kiến thức
nền tang đươc sử dụng trong cac chương sau cua luân án.
25
CHƯƠNG 2. THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH
TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ
2.1. Mở đầu
Trong mây năm gân đây, nhóm nghiên cứu cua PGS.TS Nguyễn Long Giang và
công sự đã sử dụng cac đô đo khoang cach để giai quyết bài toán rút gon thuôc tính
trong bang quyết định theo tiếp cân tâp thô truyền thống [48, 66, 67, 68] và bang quyết
định không đây đu theo tiếp cân tâp thô dung sai [66, 69, 70, 71, 72]. Đang chu ý theo
tiếp cân tâp thô mơ, nhóm nghiên cứu đã mở rông cac đô đo khoang cach đã đề xuât
thanh cac đô đo khoang cách mơ va đã có môt số kết qua trong viêc sử dụng đô đo
khoang cách mơ để giai quyết bài toán rút gon thuôc tính trên bang quyết định có miền
giá trị số. Trong công trình [73], nhóm tác gia xây dựng đô đo khoang cách Jaccard
mơ giữa hai tâp thuôc tính dựa trên khoang cách Jaccard giữa hai tâp hơp hữu han và
chứng minh môt số tính chât cua nó. Trong công trình [74], các tác gia đã sử dụng
khoang cách Jaccard mơ trong [73] để giai quyết bài toán rút gon thuôc tính trực tiếp
trên bang quyết định gốc có miền giá trị số. Trong công trình [12], các tác gia xây
dựng đô đo khoang cách mơ và sử dụng khoang cách mơ giai quyết bài toán rút gon
thuôc tính trên bang quyết định có miền giá trị số.
Tiếp tục hương nghiên cứu này, vơi mục tiêu tìm kiếm cac đô đo khoang cách
hiêu qua (có công thức tính toan đơn gian) giai quyết bài toán rút gon thuôc tính, giam
thiểu thơi gian thực hiên, trong chương nay luân an đề xuât đô đo khoang cách mơ
(sau đây goi là khoang cách mơ) dựa trên đô đo khoang cách phân hoach trong công
trình [65]. Sử dụng khoang cách mơ đươc xây dựng, luân an đề xuât phương phap
filter-wrapper rút gon thuôc tính trong bang quyết định nhằm nâng cao đô chính xác
phân lơp và giam thiểu số lương thuôc tính tâp rút gon. Bao gồm các nôi dung sau:
(1) Xây dựng khoang cách giữa hai tâp mơ;
(2) Xây dựng khoang cách mơ giữa hai phân hoach mơ;
(3) Thuât toán filter tìm tâp rút gon sử dụng khoang cách mơ;
(4) Thuât toán filter-wrapper tìm tâp rút gon sử dụng khoang cách mơ;
(5) Thử nghiêm va đanh gia tính hiêu qua cua các thuât toan đề xuât.
Các kết qua trong chương nay đươc công bố trong các công trình 1, 2 phân
“Danh mục công trình cua tác gia”.
26
2.2. Xây dựng khoảng cách giữa hai tập mờ
Trong hê thông tin, mỗi tâp thuôc tính sinh ra môt tri thức về tâp cac đối
tương, trong đó mỗi phân tử cua tri thức là môt lơp tương đương, hay môt khối.
Khoang cach cho phép đanh gia đô gân nhau (hay đô tương đương) giữa các tri thức,
nghĩa la khoang cách giữa hai tri thức càng nho thì hai tri thức đó cang gân nhau,
hay cang tương đương nhau va ngươc lai. Như vây, khi môt khoang cach nao đó
đươc định nghĩa trên tâp các tri thức thì cũng có nghĩa la môt khoang cach đã đươc
xác lâp trên tâp các thuôc tính. Sử dụng khoang cach để đanh gia sự khác nhau giữa
các thuôc tính, phát hiên các thuôc tính quan trong [63, 66, 67, 75]. Nhơ đó, xây
dựng thuât toán hiêu qua để giai quyết bài toán rút gon thuôc tính trong lý thuyết tâp
thô mơ.
Kế thừa sự thành công cua kỹ thuât rút gon thuôc tính sử dụng khoang cách
phân hoach theo tiếp cân tâp thô truyền thống [76] luân an đề xuât thuât toán heuristic
để rút gon thuôc tính cua bang quyết định miền giá trị thực sử dụng khoang cách mơ.
Khoang cách mơ giữa hai tâp thuôc tính đươc xây dựng dựa trên khoang cách mơ giữa
hai tâp mơ. Kết qua thực nghiêm trên môt số bô số liêu lây từ kho dữ liêu UCI[59] cho
thây, phương phap đề xuât cai thiên đô chính xác phân lơp dữ liêu tốt hơn so vơi các
công bố trươc đây [77].
Đâu tiên trong chương nay luân án xây dựng đô đo khoang cách giữa hai tâp
mơ, goi là khoang cách mơ.
Cho bang quyết định ,DS U C D vơi 1 2, ,..., nU x x x
,P Q C va hai phân hoach trên P và Q, KP
P x vơi x U ,
K Q
Q x mà x U , Liang va công sự [65] chứng minh rằng:
1
1K ,K
i i i iU P Q P Q
i
x x x xD P Q
U U
là khoang cách phân hoach giữa K P và K Q với X là lực lương cua X. Luân án
mở rông khoang cach nay để xây dựng khoang cách mơ.
27
2.2.1. Độ đo khoảng cách mờ
Bộ đề 2.1 [12]. Cho 3 tâp mơ 𝑋, 𝑌, 𝑍 trên tâp đối tương U, khi đó ta có:
X X Y Z Z X Z Z Y
Mệnh đề 2.1. Cho 2 tập mờ 𝑋, 𝑌 trên tập đối tượng U, khi đó
,FD X Y X Y X Y là khoảng cách giữa 𝑋 và 𝑌.
Chứng minh: Đâu tiên, bât đẳng thức X Y X Y suy ra FD , 0X Y .
Hơn nữa, ta có FD , FD ,X Y Y X . FD ,X Y la đô đo khoang cach nếu nó thoa mãn
bât đẳng thức tam giac. Không mât tính tổng quat, ta cân chứng minh
FD , FD , FD ,X Y X Z Y Z . Theo Bô đề 2.1, ta có:
X X Y Z Z X Z Z Y (1)
X X Z Y Y X Y Y Z (2)
Công (1) va (2) vế theo vế, ta có:
2 2 2X Y X Y X Z X Z Y Z Y Z (3)
Vơi 2 số bât kì a, b, ta có max , min ,a b a b a b . Khi đó, ta có
max , min ,X i Y i X i Y i X i Yu u u u u u vơi moi iu U . Điều nay
có nghĩa la X Y X Y X Y . Từ (3), ta có:
X Y X Y X Z X Z Y Z Y Z
Hoặc FD , FD , FD ,X Y X Z Y Z .
Từ đó, FD ,X Y la 1 đô đo khoang cach giữa hai tâp mơ X va Y.
2.2.2. Độ đo khoảng cách mờ và các tính chất
Mệnh đề 2.2. Cho bảng quyết định , DS U C D với 1 2, , , nU x x x và
PR , QR là 2 phân hoạch mờ sinh bởi hai quan hệ tương đương mờ PR , QR trên
P ,Q C khi đó: 2 1
1FPD Φ ,Φ
n
P Q i i i iP Q P QiR R x x x x
n (2.1)
28
La môt khoang cach mơ giữa hai phân hoach mơ PR và QR , goi la
khoang cach mơ.
Chứng minh: Rõ ràng FPD Φ ,Φ 0P QR R và
FPD Φ ,Φ FPD Φ ,ΦP Q Q PR R R R . Chung ta cân chứng minh (2.1) thoa mãn
bât đẳng thức tam giac. Không mât tính tổng quat vơi moi PR , QR , Φ SR , ta
cân chứng minh:. FPD Φ ,Φ FPD Φ ,Φ FPD Φ ,ΦP Q Q S P SR R R R R R
Theo Mênh đề 2.1, vói moi ix U ta có
FD , FD , FD ,i i i i i iP Q P Q Q Sx x x x x x . Từ đó, ta cũng có:
FPD Φ ,Φ FPD Φ ,ΦP Q P SR R R R
2 21 1
1 1n n
i i i i i i i iP Q P Q P S P Si ix x x x x x x x
n n
2 2 21 1 1
1 1 1FD , FD , FD ,
n n n
i i i i i iP Q P S P Si i ix x x x x x
n n n
FPD Φ ,ΦQ SR R
Gia trị cua FPD Φ ,ΦP QR R đat gia trị nho nhât la 0 khi va chỉ khi
Φ ΦP QR R . Gia trị cua FPD Φ ,ΦP QR R đat gia trị lơn nhât la 1
(1 )n
(nếu va
chỉ nếu Φ ΦPR và Φ ΦQR ) (hoặc Φ ΦPR và Φ ΦQR ). Do
đó, 10 FPD Φ ,Φ 1 .P QR R
n
Ví dụ 2.1 (Tiếp tục từ Ví dụ 1.1), theo Mênh đề 2.2, khi đó ta có
FPD , 0.125P QR R , FPD , 0.075Q SR R , FPD , 0.2. P SR R
Vì vây:
FPD , FPD , FPD ,P Q Q S P SR R R R R R
FPD , FPD , FPD ,P Q P S Q SR R R R R R
FPD , FPD , FPD ,Q S P S P QR R R R R R
29
Mệnh đề 2.3. Cho bảng quyết định ,DS U C D với 1 2, , , nU x x x và R
là một quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, khi
đó khoảng cách mờ giữa hai tập thuộc tính C và C D được xác định như sau:
2 1
1FPD Φ ,Φ
n
C C D i i iC C DiR R x x x
n
(2.2)
Chứng minh:
Từ Mênh đề 2.2, ta có:
2 1
1FPD Φ ,Φ
n
C C D i i i iC C D C C DiR R x x x x
n
2 21 1
1 1n n
i i i i i i i iC C D C D C C Di ix x x x x x x x
n n
Nếu Φ Φ C DR R thì khoang cach mơ đat gia trị nho nhât khi
FPD Φ ,Φ 0C C DR R , nếu Φ ΦCR và i iDx x for 1 i n thì khoang
cach mơ đat gia trị lơn nhât 1FPD Φ ,Φ 1C C DR R
n . Do đó,
10 FPD Φ ,Φ 1C C DR R
n .
Mệnh đề 2.4. Cho bảng quyết định ,DS U C D với, B C và R là quan hệ
tương đương mờ trên miền giá trị tập thuộc tính điều kiện. Khi đó
, ,B B D C C DFPD R R FPD R R .
Chứng minh: Từ B C , theo [29] ta có Φ ΦC BR R . Nghĩa la i iC Bx x
vơi 1 i n i iC Bx x vơi 1 i n . Xét đối tương ix U , ta có:
1 1min ,
i i iC C D
n n
i i i j j jx x xC C D j jx x x x x x
1 1min ,
i i iB B D
n n
i i i j j jx x xB B D j jx x x x x x
(1) vơi j i Dx x ta có 1
i Djx
x , do đó
0i i i i i iC C D B B Dx x x x x x
30
(2) vơi j i Dx x ta có 0
i Djx
x , vì vây
i i i i i i i iC C D C B B B Dx x x x x x x x .
Từ (1) va (2) ta có: i i i i i iB B D C C Dx x x x x x
2 21 1
1 1n n
i i i i i iB B D C C Di ix x x x x x
n n
FPD Φ ,Φ FPD Φ ,ΦB B D C C DR R R R .
FPD Φ ,Φ FPD Φ ,ΦB B D C C DR R R R xay ra khi va chỉ khi i iB Cx x
vơi moi ix U .
Mênh đề 2.4 cho thây FPD Φ ,ΦC C DR R thoa mãn tính phan đơn điêu vơi
tâp thuôc tính điều kiên. Nghĩa la vơi moi ,B C tâp thuôc tính điều kiên B cang nho,
khoang cach mơ FPD Φ ,ΦB B DR R cang lơn. Do đó, FPD Φ ,ΦC C DR R có
thể đươc sử dụng lam tiêu chuẩn lựa chon thuôc tính trong thuât toan tìm tâp rut gon,
đươc trình bay ở mục tiếp theo.
2.3. Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ
Trong mục nay, chung tôi trình bay phương phap rut gon thuôc tính sử dụng
khoang cách mơ theo tiếp cân filter. Giống cac phương phap filter khac theo tiếp cân
tâp thô, phương phap đề xuât bao gồm cac bươc:
(1) Định nghĩa tâp rút gon dựa trên khoang cách mơ;
(2) Định nghĩa đô quan trong cua thuôc tính dựa trên khoang cách mơ;
(3) Xây dựng thuât toán filter tìm tâp rút gon sử dụng khoang cách mơ;
(4) Đô chính xác phân lơp đươc đanh gia sau khi tìm đươc tâp rút gon.
Định nghĩa 2.1. Bang quyết định ,DS U C D và , B CR R là các quan hê
tương đương mơ trên tâp thuôc tính điều kiên B, C vơi B C . Nếu:
1) FPD Φ ,Φ FPD Φ ,ΦB B D C C DR R R R
2) , FPD Φ ,Φ FPD Φ ,ΦC C DB b B b Db B R R R R
31
Thì B la tâp rut gon cua bang quyết định sử dụng khoang cach mơ.
Định nghĩa 2.2. Bang quyết định ,DS U C D vơi B C và b C B . Đô
quan trong cua thuôc tính 𝑏 đối vơi 𝐵 đươc định nghĩa bởi:
FPD Φ ,Φ FPD Φ ,ΦB B B D B b B b DSIG b R R R R
(2.3)
Theo tính chât cua khoang cách mơ (Mênh đề 2.4) ta có 0BSIG b . Đô quan
trong BSIG b đặc trưng cho chât lương phân lơp cua thuôc tính b đối vơi thuôc tính
quyết định D va đươc sử dụng làm tiêu chuẩn lựa chon thuôc tính cho thuât toán filter
F_FDBAR tìm tâp rút gon.
Thuật toán F_FDBAR (Filter - Fuzzy Distance Based
Attribute Reduction): Thuật toán filter tìm tập rút gọn sử
dụng khoảng cách mờ.
Đầu vào: Bảng quyết định ,DS U C D , quan hệ tương
đương mờ R xác định trên tập thuộc tính điều kiện.
Đầu ra: Một tập rút gọn B
1. B ; , 1B B DFPD R R ;
2. Tính khoảng cách mờ ,C C DFPD R R ;
// Thêm dần vào B các thuộc tính có độ quan trọng
lớn nhất
3. While , ,B B D C C DFPD R R FPD R R do
4. Begin
5. Với mỗi a C B tính
, ,B B D B a B a DBSIG a FPD R R FPD R R
6. Chọn ma C B sao cho B m Ba C B
SIG a Max SIG a
;
7.
mB B a ;
8. End;
//Loại bỏ các thuộc tính dư thừa trong B
nếu có
9. For each a B
10. Begin
11. Tính ,B a B a DFPD R R ;
12. If , ,B a B a D C C DFPD R R FPD R R then
32
B B a ;
13. End;
14. Return B;
Tiếp theo, luân an đanh gia đô phức tap thơi gian cua thuât toán F_FDBAR, goi
tắt la đô phức tap. Gia sử D d và ký hiêu ,C U tương ứng là số thuôc tính điều kiên
và số đối tương. Đô phức tap tính ma trân tương đương mơ ( )CM R là 2O C U , do đó
đô phức tap tính khoang cách mơ trong câu lênh 2 là 2O C U . Xét vòng lặp While từ
câu lênh 3 đến 8, để tính BSIG a ta phai tính ,B a B a DFPD R R vì
,B B DFPD R R đã đươc tính ở bươc trươc. Đô phức tap tính
,B a B a DFPD R R bằng đô phức tap tính ma trân tương đương mơ cua thuôc
tính a, nghĩa la 2O U . Do có hai vòng lặp lồng nhau theo C nên đô phức tap cua vòng
lặp While là 2 2O C U . Tương tự, đô phức tap cua vòng lặp For từ dòng lênh số 9 đến
13 là 2 2O C U . Do đó, đô phức tap cua thuât toán F_FDBAR là 2 2
O C U
Ví dụ 2.2. Xét bang quyết định ,DS U C d
cho ở Bang 2.1 vơi
1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , ,C c c c c c c , { }D d . Vơi các thuôc tính điều kiên,
chúng tôi sử dụng quan hê tương đương mơ aR trên thuôc tính a C trong [10] như sau:
, 1a i j i jR u u a u a u
ơi ,i ju u U
Vơi thuôc tính quyết định D chúng tôi sử dụng quan hê tương đương DR .
33
Bảng 2.1 Bảng quyết định của Ví dụ 2.2
U 1c 2c
3c 4c
5c 6c D
1u 0.8 0.2 0.6 0.4 1 0 0
2u 0.8 0.2 0 0.6 0.2 0.8 1
3u 0.6 0.4 0.8 0.2 0.6 0.4 0
4u 0 0.4 0.6 0.4 0 1 1
5u 0 0.6 0.6 0.4 0 1 1
6u 0 0.6 0 1 0 1 0
Áp dụng cac bươc cua thuât toán F_FDBAR tìm tâp rút gon, ta có:
Khởi tao B ; , 1d
FPD R R . Tính các ma trân tương đương mơ
1 2 3 4 5 6( ), ( ), ( ), ( ), ( ), ( ), ( ), ( )c c c c c c C DM M M M RM MR R R R R M RMR
1 2
1 1 0.8 0.2 0.2 0.2
1 1 0.8 0.2 0.2 0.2
0.8 0.8 1 0.4 0.4 0.4( ) ,
0.2 0.2 0.4 1 1 1
0.2 0.2 0.4 1 1 1
0.2 0.2 0.4 1 1 1
1 1
1 1 0.8 0.6 0.6
0.8 0.8 1 1 0.8 0.8
0.8 0.8 1 1 0.8 0.8
0.6 0.6 0.8 0.8 1 1
0.6 0.6 0.8 0.
0.8 0.8 0.6 0.6
0.8
8
( )
1 1
c cM R RM
3 4,
1 0.8 0.4 1 0.8 0.4
1 1 0.8 0.8
0.8 0.2 1 0.8 0.2 0.6 1 0.8 0.2
1 1
1 0 1
0.2 0.4 1
0.4 1 1 0.8 1 1
0.4 0.2 0.4 0.4 1 0.8 0.6 0.6
0.8 0.8 0.8( ) ( )
1 0.4 0.8 1 0.4 1 0.8 0.8 1 0.4
1 0.4 0.8 1 0.4 1 .8 0.8 1 0.4
0.4 1 0.4 0.4 0.6 0.2 0.40.4
c cR RM M
1
4 5,
0.8 1 1 0.2 0.6 0
0.8 0.6 0.6 0.2 0.6 0.8 0.8 0.8
0.8 0.8 0.6 0.6 0.4 0.4( ) ( )
1 0.8 0.8 1 0.4 0.8 0.4 1 1
1 0.8 0.8 1 0.4 0.8 0.4 1
0.4 0.6 0.2
1 0.8 0.4 1 0 0
1 0.8 0.8 1
0.6 1 0.8
80.4 0 0. 0.
1
2
44 1
0. 1 0.4
1 0
1 0 1 1
0. 1 1 1
c cR RM M
34
5 6,
0.2 0.6 0 0.2 0.6
0.2 0.6 0.8 0.8 0.8 0.2 0.6 0.8 0.8
0.6 0.6 0.4 0.4 0.6 0.6 0.4( ) ( )
0.8 0.4 1 1 0.8 0
1 0 0 1 0 0 0
1 1 0.8
1 0.4 1 0.4 0.4
0 1 0 1
0 1 1 0 1 1
1
.4 1 1
0.8 0.4 1 0.8 0.4 1
0 0 11 0 1.8 0.4 1 0 4 1.8 0.
c cR RM M
6
0.2 0.6
0.2 0.6 0.8 0.8
0.6 0.6 0.4( )
0.8 0.4 1 1
0.8 0.4 1
0.8 1
1 0 0 0
1 0.8
1 0.4 0.4
0 1
0 1 1
0 0.4 1 1
cRM
,
0.2 0.6 0 1 1
0.2 0.2 0.2 0.2 0.2 0 0 1 1 0
0.6 0.4 0.4 0.2 1 0 0 0 1( ) ( )
0.4 0.8 1 0 1
0.
1 0 0 0 1 0 0
1 1
0.2 1 1
0 0.2 1 0.
0
4 0 1 0
0 0.4 0.8 1 0 1
0 0.2 0.2 0. 0
2 0.4 1 0 1
4
0
. 14 1 11 0 0
C DR RM M
Từ đó ta có: , 4.4 / 36C C dR RFPD
,
1 1
, 10.4 / 36c c d
F R RPD
, 2 2
, 14.8 / 36c c d
F R RPD
,
3 3
, 12 / 36c c d
R RFPD
,
6 6, 8,8 / 36
c c dR RFPD
,
4 4
, 12.8 / 36c c d
F R RPD
,
5 5, 8,8 / 36
c c dR RFPD
,
Chon 5SIG c có giá trị lơn nhât và 5B c .
Do
5 5, ,C C dc c d
RFPD FPDR R R
nên tiếp tục vòng lặp
While,
ta có:
51 1.2 / 36
cSIG c ;
5
2 0.8 / 36c
SIG c ;
53 3.2 / 36
cSIG c ;
5
4 2.8 / 36c
SIG c ;
56 0
cSIG c .
Chon 3c có đô quan trong lơn nhât và 3 5,B c c .
Tính
3 5 3 5, ,, 5.6 / 36 ,C C dc c c c d
FPD FR R R RPD
nên tiếp
tục vòng lặp While.
35
Ta có
3 51,
1.2 / 36c c
SIG c ;
3 52,
0.4 / 36c c
SIG c ;
3 54,
0.4 / 36c c
SIG c ;
3 56,
0c c
SIG c
. Chon 1c có đô quan trong lơn nhât và 1 3 5, ,B c c c .
Do
1 3 5 1 3 5, , , ,, , 4.4 / 36C C dc c c c c c d
F R R R RPD FPD
nên
thuât toán dừng và 1 3 5, ,B c c c là tâp rút gon tìm đươc cua thuât toán.
Xét bang quyết định ,DS U C D vơi 1 2, ,..., mC a a a và R là quan hê
tương đương mơ xac định trên miền giá trị thuôc tính điều kiên. Đặt
,C C DD RF RP . Theo thuât toán F_FDBAR, gia sử các thuôc tính 1 2, ,...i ia a
đươc thêm vào tâp rỗng theo giá trị lơn nhât cua đô quan trong thuôc tính cho đến khi
tồn tai 1,2,...t m sao cho
1 2 1 2, ,..., , ,...,
,i i i i i it t
a a a a a a DFP R RD
. Kết thúc thuât
toan, ta thu đươc tâp rút gon 1 2, ,...,
ti i iB a a a , đô chính xác phân lơp trên tâp dữ liêu
đươc tính bởi đô chính xác phân lơp trên B. Do đó, thuât toán F_FDBAR theo hương
tiếp cân filter truyền thống.
Mặt khác, theo Mênh đề 2.4 ta có
1 1 1 2 1 2
1 1
, ,
,..., ,...,
, , ...
,
i i i i i i
i i i it t
a a D a a a a D
a a a a D
R R R R
R
FPD FPD
FPD R
Vơi ngưỡng
cho
trươc, đặt 1,...,
kk i iB a a thoa mãn ,k kB B DR RFPD và
1 1
,k i k ik k
B a B a DFPD R R
. Khi đó, kB được gọi là tập rút gọn xấp xỉ ngưỡng
. Nếu kB và 1,...,
k tk i iB a a
đươc sử dụng để xây dựng bô phân lơp, công bố [9]
cho thây, đô chính xác phân lơp trên 1,...,
k tk i iB a a
chưa chắc đã tốt hơn trên kB .
Gia sử kB có đô chính xác phân lơp tốt hơn 1,...,
k tk i iB a a
. Khi đó, nếu chon kB là
kết qua cua thuât toán thì kB có đô chính xác phân lơp cao hơn, có số lương thuôc tính
ít hơn nên kha năng khai quat hóa va hiêu năng thực hiên các thuât toán phân lơp sẽ
cao hơn. Điều đó dẫn đến hương tiếp cân kết hơp tìm tâp rút gon xâp xỉ, là sự kết hơp
giữa filter (loc) và wrapper (gói). Phương phap filter tìm ra cac tâp rút gon xâp xỉ,
phương phap wrapper kiểm tra đô chính xác phân lơp cua các tâp rút gon xâp xỉ để
36
chon tâp rút gon có đô chính xác cao nhât. Vơi hương tiếp cân nay, đô chính xác phân
lơp trên tâp rút gon tìm đươc cao hơn so vơi cac phương phap filter truyền thống. Tuy
nhiên, thơi gian thực hiên sẽ lơn hơn vì phai thực hiên các bô phân lơp.
2.4. Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ
Thuât toán filter-wrapper tìm tâp rút gon xâp xỉ sử dụng khoang cách mơ đươc
mô ta như sau:
Thuật toán FW_FDBAR (Filter-Wrapper Fuzzy Distance
Based Attribute Reduction): Thuật toán filter-wrapper tìm
tập rút gọn xấp xỉ sử dụng khoảng cách mờ.
Đầu vào: Bảng quyết định ,DS U C D , quan hệ tương
đương mờ R trên miền giá trị thuộc tính điều kiện.
Đầu ra: Tập rút gọn xấp xỉ xB có độ chính xác phân
lớp tốt nhất.
// Khởi tạo
1. B; , 1B B DF D RP R ;
2. Tính khoảng cách mờ ,C C DFPD R R ;
// Giai đoạn filter, tìm các ứng viên cho tập rút gọn
// Thêm dần vào B các thuộc tính có độ quan trọng
lớn nhất
3. While , ,B B D C C DFPD FPDR R R R do
4. Begin
5. Với mỗi a C B tính
, ,B B B D B a B a DS RIG a FPD FP R RDR
;
6. Chọn ma C B sao cho B m Ba C B
SIG a Max SIG a
;
7.
mB B a ;
8. End;
// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác
phân lớp cao nhất
9. Đặt t B // t là số phần tử của B, B chứa các
chuỗi thuộc tính được chọn tại mỗi bước lặp của
vòng lặp While, nghĩa là 1 1 2 1 2
, , ,..., , ,...,ti i i i i iB a a a a a a ;
10. Đặt 1 1 2 1 21 2, , ,..., , ,...,
ti i i t i i iB a B a a B a a a
37
11. For j = 1 to t
12. Begin
13. Tính độ chính xác phân lớp trên jB bằng một
bộ phân lớp và sử dụng phương pháp 10-fold;
14. End
15. x joB B với joB có độ chính xác phân lớp lớn nhất.
Return xB ;
Tiếp theo, chung tôi đanh gia đô phức tap thơi gian cua thuât toán filter-wrapper
FW_FDBAR, goi tắt la đô phức tap. Gia sử D d và ký hiêu ,C U tương ứng là số
thuôc tính điều kiên và số đối tương cua DS. Theo mục 2.3, đô phức tap cua thuât toán
filter F_FDBAR là 2 2*O C U , do đó đô phức tap cua giai đoan filter (từ câu lênh 3
đến 8) là 2 2*O C U . Đô phức tap cua giai đoan wrapper (từ câu lênh số 9 đến số 15)
phụ thuôc vao đô phức tap cua bô phân lơp đươc sử dụng. Gia sử đô phức tap cua bô
phân lơp là O T , khi đó đô phức tap cua giai đoan wrapper là *O C T . Vì vây, đô
phức tap cua thuât toán FW_FDBAR là 2 2* *O C U O C T
2.5. Thực nghiệm và đánh giá kết quả các thuật toán
2.5.1. Mục tiêu thực nghiệm
Theo hương tiếp cân filter, các tác gia trong công trình [12] đã xây dựng môt đô
đo khoang cách mơ và xây dựng thuât toán filter tìm tâp rút gon sử dụng khoang cách
mơ, goi là thuât toán FPDAR (Fuzzy Partition Distance Based Attribute Reduction).
Các tác gia trong [12] cũng chỉ ra bằng thực nghiêm thuât toán FPDAR hiêu qua hơn
các thuât toán sử dụng miền dương mơ và entropy mơ về thơi gian thực hiên va đô
chính xác phân lơp. Hơn nữa, công thức khoang cách mơ trong [12] đơn gian hơn công
thức khoang cách Jaccard mơ trong [74] nên thuât toán FPDAR hiêu qua hơn thuât
toán trong [74] về thơi gian thực hiên.
Theo hương tiếp cân filter-wrapper, gân đây Zhang và các công sự [9] đề xuât
thuât toán filter-wrapper FEBAR (Fuzzy Entropy Based Attribute Reduction) tìm tâp
rút gon xâp xỉ sử dụng đô đo -entropy mơ, là cai tiến cua đô đo entropy mơ trong
[8,78, 79]. Để tính -entropy mơ cân mât chi phí tính hê số dựa vào miền dương mơ.
Do đó, chi phí thơi gian cua FEBAR sẽ tăng lên.
38
Mục tiêu cua thực nghiêm là:
1) So sánh thuât toán filter-wrapper đề xuât FW_FDBAR vơi thuât toán filter-
wrapper FEBAR trong [9] về thơi gian thực hiên, đô chính xác phân lơp và số lương
thuôc tính tâp rút gon.
2) So sánh thuât toán filter-wrapper đề xuât FW_FDBAR vơi thuât toán filter
FPDAR trong [12] về thơi gian thực hiên, số lương thuôc tính tâp rút gon va đô chính
xác phân lơp.
2.5.2. Số liệu, phương pháp và môi trường thực nghiệm
Viêc thực nghiêm đươc thực hiên trên 8 bô dữ liêu mẫu lây từ kho dữ liêu UCI
[59] cho ở Bang 2.2. Trên mỗi bô dữ liêu, vơi mỗi thuôc tính a có miền giá trị thực,
chúng tôi chuẩn hóa về miền [0, 1] như sau vơi ix U
min
max min
i
i
a x aa x
a a
vơi max(a), min(a) là giá trị lơn nhât, nho nhât trên miền giá trị thuôc tính a. Luân án
sử dụng quan hê tương đương mơ aR trên thuôc tính a trong [9, 54] như sau
, 1a i j i jx x a x a xR
vơi ,i jx x U
Vơi các thuôc tính a có miền giá trị định danh (nominal) hoặc phân loai
(catergorized), chúng tôi sử dụng quan hê tương đương mơ aR , vơi ,i jx x U
1,
,0,
i j
a i j
a x a xx x
otherwiseR
Bảng 2 2 Bộ dữ liệu thử nghiệm thuật toán FW_FDBAR
STT Bộ dữ liệu Mô tả Số đối
tượng
Số thuộc tính điều kiện
Số lớp
quyết
định
Tất
cả
Thuộc tính
định danh
(nominal)
Thuộc tính
thực
(Real-
valued)
1 Lympho Lymphography 148 18 18 0 2
2 Wine Wine 178 13 0 13 3
3 Libra Libras movement 360 90 0 90 15
4 WDBC
Wisconsin
diagnostic breast
cancer
569 30 0 30 2
39
5 Horse Horse colic 368 22 15 7 2
6 Heart Statlog (heart) 270 13 7 6 2
7 Credit Credit approval 690 15 9 6 2
8 German German credit data 1000 20 13 7 2
Vơi các thuât toán filter-wrapper FW_FDBAR và FEBAR [9], chúng tôi sử dụng
bô phân lơp CART (cây phân lơp, hồi quy) để tính đô chính xác phân lơp trong giai
đoan wrapper. Vơi thuât toán filter FPDAR [12], chung tôi cũng sử dụng bô phân lơp
CART để tính đô chính xác phân lơp sau khi tìm đươc tâp rút gon. Chúng tôi sử dụng
phương phap kiểm tra chéo 10-fold, nghĩa la bô dữ liêu đươc chia thành 10 phân xâp
xỉ bằng nhau, lây ngẫu nhiên 1 phân làm bô dữ liêu kiểm tra, 9 phân còn lai làm dữ
liêu huân luyên. Qua trình đươc lặp lai 10 lân. Đô chính xác phân lơp đươc biểu diễn
bởi v trong đó v là giá trị đô chính xác trung bình (mean) cua 10 lân lặp và là
sai số chuẩn (standard error). Công cụ lâp trình thực nghiêm là ngôn ngữ lâp trình C#
và công cụ phân tích dữ liêu R.
Môi trương thực nghiêm là máy tính PC vơi câu hình Intel(R) Core(TM) i7-
3770CPU @3.40 GHz, sử dụng hê điều hành Windows 7, 32 bit.
2.5.3. Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập rút gọn
Kết qua so sanh đô chính xác phân lơp và số lương thuôc tính tâp rút gon cua 3
thuât toan đươc mô ta ở Bang 2.3 va Hình 2.1. Trong đó, ký hiêu C là số thuôc tính
cua bô dữ liêu ban đâu, B là số thuôc tính cua tâp rút gon. Kết qua ở Bang 2.3 và
Hình 2.1 cho thây, so vơi thuât toán FPDAR sử dụng khoang cách mơ theo tiếp cân
filter, số thuôc tính tâp rút gon cua thuât toan đề xuât FW_FDBAR nho hơn nhiều, đặc
biêt la đối vơi các bô dữ liêu Horse, Heart, Credit, German. Đô chính xác cua
FW_FDBAR cao hơn FPDAR trên tât ca các bô dữ liêu. Do đó, hiêu năng va tính khai
quát hóa cua tâp luât phân lơp trên tâp rút gon cua FW_FDBAR cao hơn nhiều so vơi
FPDAR. Vơi thuât toán filter-wrapper FEBAR [9] sử dụng -entropy mơ, số lương
thuôc tính tâp rút gon cua FW_FDAR xâp xỉ FEBAR, đô chính xác phân lơp cua
FW_FDBAR xâp xỉ FEBAR.
Bảng 2.3 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn
FW_FDBAR, FEBAR, FPDAR
STT Bộ dữ liệu Độ chính xác
ban đầu
Thuật toán
FW_FDBAR
Thuật toán
FEBAR [9]
Thuật toán
FPDAR [12]
40
C
Đô
chính
xác
B Đô chính
xác B
Đô
chính
xác
B
Đô
chính
xác
1 Lympho 18 0.776±
0.008 4
0.768 ±
0.085 4
0.768 ±
0.085 6
0.722 ±
0.062
2 Wine 13 0.910 ±
0.066 5
0.893 ±
0.072 5
0.893 ±
0.072 7
0.886 ±
0.058
3 Libra 90 0.566 ±
0.137 7
0.658 ±
0.077 8
0.605 ±
0.103 26
0.556 ±
0.205
4 WDBC 30 0.924 ±
0.037 4
0.968 ±
0.058 3
0.952 ±
0.027 6
0.925 ±
0.644
5 Horse 22 0.829 ±
0.085 5
0.816 ±
0.052 4
0.802 ±
0.066 12
0.798 ±
0.058
6 Heart 13 0.744 ±
0.072 3
0.803 ±
0.074 3
0.803 ±
0.074 12
0.752 ±
0.055
7 Credit 15 0.826 ±
0.052 3
0.865 ±
0.028 2
0.846 ±
0.048 14
0.820 ±
0.078
8 German 20 0.692 ±
0.030 6
0.716 ±
0.029 5
0.702 ±
0.043 11
0.684 ±
0.024
Hình 2.1 Độ chính xác phân lớp của ba thuật toán
41
Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán
2.5.4. Kết quả so sánh thời gian thực hiện
Bảng 2.4 Thời gian thực hiện FW_FDBAR, FEBAR, FPDAR
STT Bộ dữ liệu
Thuật toán FW_FDBAR Thuật toán FEBAR [9] Thuật
toán
FPDAR
[12]
Thủ
tục
Filer
Thủ tục
Wrapper
Tổng
cộng
Thủ
tục
Filer
Thủ tục
Wrapper
Tổng
cộng
1 Lympho 0.32 0.50 0.82 0.38 0.52 0.90 0.34
2 Wine 0.46 1.21 1.67 0.51 1.18 1.69 0.48
3 Libra 46.28 86.18 132,46 55.12 88.26 143.38 48.48
4 WDBC 20.15 8.74 28.89 26.38 8.22 34.60 22.32
5 Horse 4.85 2.68 7.53 5.26 2.65 7.91 4.98
6 Heart 1.22 1.52 2.74 1.45 1.78 3.23 1.26
7 Credit 16.58 3.42 20.00 19.26 3.98 23.24 18.02
8 German 52.48 8.64 61.12 71.22 8.28 79.50 54.65
42
Hình 2.3 Thời gian thực thiện của ba thuật toán
Kết qua so sánh về thơi gian thực hiên ở Bang 2.4 và Hình 2.3 cho thây, thuât
toán FW_FDBAR có thơi gian thực hiên nho hơn đang kể thuât toán FEBAR [9], chu
yếu là ở thu tục filter tìm tâp rút gon. Nguyên nhân là thuât toán FEBAR phai tính
miền dương mơ để xac định hê số , hơn nữa thuât toán FEBAR phai tính toán các
công thức logarit phức tap trong công thức entropy Shannon. Tuy nhiên, các thuât toán
theo tiếp cân filter-wrapper FW_FDBAR và FEBAR [9] có thơi gian thực hiên lơn
hơn thuât toán theo tiếp cân filter FPDAR [12] vì phai thực hiên bô phân lơp để tính
đô chính xác cua các tâp rút gon xâp xỉ trong giai đoan wrapper.
2.6. Kết luận Chương 2
Trong Chương 2, luân án trình bày kết qua xây dựng môt đô đo khoang cách
trong bang quyết định. Dựa vao đô đo khoang cach đươc xây dựng, luân án xây dựng
thuât toán F_FDBAR tìm tâp rút gon cua bang quyết định theo tiếp cân filter truyền
thống, trên cơ sở đó đề xuât thuât toán theo tiếp cân kết hơp filter-wrapper FW_DBAR
nhằm giam thiểu số thuôc tính cua tâp rút gon va nâng cao đô chính xác cua mô hình
phân lơp. Kết qua thử nghiêm trên các bô số liêu mẫu từ kho dữ liêu UCI [59] cho thây,
thuât toán filter-wrapper FW_DBAR đề xuât giam thiểu đang kể số lương thuôc tính
tâp rut gon so vơi cac thuât toan filter FPDAR. Hơn nữa, thuât toan FW_DBAR duy trì
va nâng cao đô chính xac phân lơp so vơi thuât toan filter FPDAR. Tuy nhiên, thuât
toán FW_FDBAR mât thêm chi phí thơi gian tính toan cac bô phân lơp. Vơi các bài
toán có số lương thuôc tính lơn (high dimention data), ví dụ trong lĩnh vực tin sinh
43
hoc, viêc giam thiểu số lương thuôc tính có ý nghĩa quan trong vì giam thiểu đô phức
tap cua mô hình, do đó lựa chon các thuât toán filter-wrapper FW_DBAR là phù hơp.
Tuy nhiên, vơi các bang có số thuôc tính nho và có dữ liêu lơn, viêc chon các thuât
toán filter phù hơp hơn vì thơi gian thực hiên nho hơn.
44
CHƯƠNG 3. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP
RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG
Nôi dung chương nay trình bay hai thuât toan gia tăng rut gon thuôc tính trong
bang quyết định sử dụng khoang cach mơ: thuât toan gia tăng filter-wrapper rut gon
thuôc tính sử dụng khoang cach mơ khi bổ sung tâp đối tương va thuât toan gia tăng
fifter-wrapper rut gon thuôc tính khi loai bo tâp đối tương. Bằng lý thuyết va thực
nghiêm đanh gia hiêu qua về thơi gian thực hiên, đô chính xac phân lơp va số lương
thuôc tính cua từng thuât toan so vơi cac thuât toan truyền thống khac.
3.1. Mở đầu
Rút gon thuôc tính là bài toán quan trong trong bươc tiền xử lý dữ liêu cua quá
trình khai phá tri thức từ dữ liêu. Mục tiêu cua rút gon thuôc tính là loai bo các thuôc
tính dư thừa, không cân thiết nhằm nâng cao tính hiêu qua cua các mô hình khai phá
dữ liêu. Lý thuyết tâp thô mơ (fuzzy rough set) do Dübois và công sự [1] đề xuât đươc
chứng minh là công cụ hiêu qua giai quyết bài toán rút gon thuôc tính trực tiếp trên
bang quyết định gốc mà không qua tiền xử lý dữ liêu. Trong các bài toán thực tế, các
bang quyết định thương có kích thươc lơn va luôn thay đổi, câp nhât. Viêc áp dụng các
thuât toán tìm tâp rút gon dựa trên tâp thô mơ theo tiếp cân truyền thống gặp nhiều
thách thức. Trương hơp bang quyết định thay đổi, câp nhât, các thuât toán này tính lai
tâp rút gon trên toàn bô bang quyết định sau khi thay đổi nên chi phí về thơi gian tính
toan tăng lên đang kể. Trương hơp bang quyết định có kích thươc lơn, viêc thực hiên
thuât toán trên toàn bô bang quyết định kích thươc lơn sẽ gặp khó khăn về dung lương
bô nhơ lưu trữ và thơi gian thực hiên. Do đó, cac nha nghiên cứu đã đề xuât hương tiếp
cân tính toan gia tăng (incremental) tìm tâp rút gon. Các thuât toan gia tăng chỉ thực
hiên câp nhât lai tâp rút gon trên phân dữ liêu thay đổi, do đó chung giam thiểu đang
kể thơi gian thực hiên. Theo tiếp cân tâp thô truyền thống cua Pawlak [19] và các mô
hình tâp thô mở rông, môt số thuât toan gia tăng tìm tâp rút gon đã đươc đề xuât trong
trương hơp bổ sung, loai bo tâp đối tương, bổ sung, loai bo tâp thuôc tính. Vơi trương
hơp bổ sung, loai bo tâp đối tương, môt số thuât toan gia tăng đề xuât sử dụng khoang
cách [20, 21], hat thông tin [22, 23, 24, 25, 26, 27], ma trân phân biêt [28, 29, 30, 31,
32], miền dương [33, 34, 35], ham thuôc [36], quan hê không phân biêt đươc [37],
entropy thông tin [38], đô đo không nhât quán [39], lựa chon mẫu kích hoat [40]. Vơi
trương hơp bổ sung, loai bo tâp thuôc tính, môt số thuât toan gia tăng tìm tâp rút gon
45
đã đươc đề xuât sử dụng miền dương [41], entropy thông tin [42], ma trân phân biêt
[43, 44, 45], quan hê không phân biêt [46, 47], khoang cach [48], đô phụ thuôc cua
thuôc tính [49], hat tri thức [50, 51], ngoài ra còn môt số phương phap khac[80, 81,82,
83, 84, 90, 98, 102, 105, 106, 107, 108, 109, 110]
Theo tiếp cân tâp thô mơ [1], trong mây năm gân đây đã có môt số nghiên cứu
đề xuât các thuât toan gia tăng tìm tâp rút gon cua bang quyết định thay đổi. Vơi
trương hơp bổ sung và loai bo tâp thuôc tính, Zeng và công sự [16] đã giơi thiêu mô
hình tâp thô mơ mở rông dựa trên các hê thống thông tin lai (HIS) va đề xuât hai
thuât toan gia tăng (FRSA-IFS-HIS-AA và FRSA-IFS-HIS-AD) tìm ra tâp rút gon
dựa trên hàm phụ thuôc mơ. Vơi trương hơp bổ sung tâp đối tương, Liu và công sự
[17] đã xây dựng các công thức gia tăng tính ham thanh viên mơ va đề xuât thuât
toan gia tăng FIAR tìm tâp rút gon. Yang và công sự [18] đã xây dựng cơ chế gia
tăng tính quan hê không phân biêt mơ va đề xuât thuât toan gia tăng IARM tìm tâp
rút gon. Yang và công sự [20] đề xuât hai thuât toan gia tăng (V-FS-FRS-1 và V-FS-
FRS-2) tìm tâp rút gon dựa trên ma trân phân biêt mơ. Theo tiếp cân tâp thô mơ [1],
trong mây năm gân đây môt số thuât toan gia tăng tìm tâp rút gon cua bang quyết
định đã đươc đề xuât vơi cac trương hơp: bổ sung và loai bo tâp đối tương [52, 53,
54, 55, 56], bổ sung và loai bo tâp thuôc tính [57], và môt số phương phap khac [86,
87, 88, 89 ,93 ,94 ,95 ,96 ,97]. Vơi trương hơp bổ sung, loai bo tâp đối tương, Liu và
các công sự [52] xây dựng công thức gia tăng tính đô phụ thuôc mơ va đề xuât thuât
toan giăng FIAT tìm tâp rút gon khi bổ sung tâp đối tương. Yang và các công sự [53]
xây dựng công thức gia tăng tính quan hê phân biêt, trên cơ sở đó xây dựng thuât
toan gia tăng IARM tìm tâp rút gon khi bổ sung tâp đối tương. Yang và các công sự
[54] xây dựng cơ chế câp nhât quan hê phân biêt va đề xuât hai thuât toán IV-FS-
FRS-1 và IV-FS-FRS-2 tìm tâp rút gon trong trương hơp bổ sung tâp đối tương.
Zhang và các công sự [56] đề xuât thuât toan gia tăng AIFWAR tìm tâp rút gon sử
dụng entropy có điều kiên mở rông trong trương hơp bổ sung tâp đối tương. Ni và
các công sự [57] đưa ra khai niêm tâp đối tương chính (key instance set), trên cơ sở
đó xây dựng hai thuât toan gia tăng tìm tâp rút gon dựa trên tâp đối tương chính
trong trương hơp bổ sung tâp đối tương: thuât toán DIAR sử dụng hàm thuôc mơ và
thuât toán PIAR sử dụng miền dương mơ. Vơi trương hơp bổ sung, loai bo tâp thuôc
46
tính, các kết qua nghiên cứu về các thuât toan gia tăng tìm tâp rút gon theo tiếp cân
tâp thô mơ còn han chế. Zeng và các công sự [58] xây dựng các công thức gia tăng
câp nhât đô phụ thuôc mơ trong hê thông tin hỗn hơp (HIS), trên cơ sở đó đề xuât hai
thuât toan gia tăng câp nhât tâp rút gon sử dụng đô phụ thuôc mơ: thuât toán FRSA-
IFS-HIS(AA) trong trương hơp bổ sung tâp thuôc tính và thuât toán FRSA-IFS-
HIS(AD) trong trương hơp loai bo tâp thuôc tính. Kết qua thực nghiêm trong các
công trình nêu trên cho thây, các thuât toan gia tăng giam thiểu đang kể thơi gian
thực hiên so vơi các thuât toan không gia tăng. Do đó, chung có thể thực thi hiêu qua
trên các bang quyết định có kích thươc lơn va thay đổi, câp nhât.Tuy nhiên, các thuât
toan nêu trên đều theo hương tiếp cân loc truyền thống (filter). Trong đó, tâp rút gon
tìm đươc là tâp thuôc tính tối thiểu bao toan đô đo đươc định nghĩa (ham thuôc mơ,
quan hê phân biêt…), viêc đanh gia đô chính xác phân lơp đươc thực hiên sau khi
tìm đươc tâp rút gon. Vì vây, tâp rút gon tìm đươc cua các thuât toan nêu trên chưa
tối ưu ca về số lương thuôc tính va đô chính xác phân lơp, nghĩa la tâp rút gon tìm
đươc chưa chắc có đô chính xác phân lơp tốt nhât.
Từ những vân đề phân tích nêu trên, trong chương nay, trươc hết luân án trình
bày các công thức gia tăng câp nhât khoang cách mơ (đươc đề xuât ở Chương 2) trong
trương hơp bổ sung, loai bo tâp đối tương. Dựa trên các công thức tính toan gia tăng
khoang cách mơ đươc xây dựng, luân án trình bày 02 thuât toan gia tăng tìm tâp rút
gon cua bang quyết định theo tiếp cân kết hơp filter-wrapper:
1) Thuât toan gia tăng filter-wrapper IFW_FDAR_AdObj tìm tâp rút gon trong
trương hơp bổ sung tâp đối tương.
2) Thuât toan gia tăng filter-wrapper IFW_FDAR_DelObj tìm tâp rút gon trong
trương hơp loai bo tâp đối tương.
Hai thuât toan đề xuât nêu trên đều theo tiếp cân kết hơp filter-wrapper, hai
thuât toán này nhằm mục tiêu giam thiểu số thuôc tính tâp rút gon và cai thiên đô
chính xác mô hình phân lơp.
Kết qua nghiên cứu ở chương nay đươc công bố ở công trình số 1, 3 phân “Danh
mục các công trình cua tác gia”.
47
3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng
Trong phân này, luân án trình bày thuât toan gia tăng filter-wrapper tìm tâp rút
gon sử dụng khoang cách mơ khi bổ sung tâp đối tương vào bang quyết định. Trươc
hết, luân án xây dựng các công thức gia tăng tính khoang cách mơ khi bổ sung môt đối
tương và môt tâp đối tương.
3.2.1. Công thức gia tăng để tính khoảng cách mờ khi bổ sung một đối tượng
Cho bang quyết định ,DS U C D vơi 1 2, ,..., nU x x x và R là quan hê
tương đương mơ xac định trên miền giá trị tâp thuôc tính điều kiên. Theo Mênh đề 2.3
cua Chương 2 , khoang cách mơ sinh bởi C và C D trên U là:
2 1
1FPD Φ ,Φ
n
C C D i i iC C DiR R x x x
n
Mệnh đề 3.1. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và �� là quan
hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giá sử đối
tượng x được bổ sung vào U . Khi đó, công thức tính gia tăng khoảng cách mờ là:
2
2
2FPD Φ ,Φ FPD Φ ,Φ
1 1C C D U C C DU x C C D
nR R R R x x x
n n
Chứng minh: Gia sử ijU C n nM R m
,
ij 1 1CU x n n
M R m
tương ứng la ma
trân tương đương mơ cua CR trên U và U x , vơi
1,1 1 1,2 2 1, 1 1/ / ... /n n n n nCx m x m x m x . Ma trân tương đương cua D trên U va
U x là ijU D n nM R d
,
ij 1 1DU x n n
M R d
.
Khi đó ta có:
1
2 1
1FPD Φ ,Φ
1
n
C C D i i iU x C C DiR R x x x
n
Mặt khac
1, 1, 1, , , ,1 1 1min , min ,
n n n
i i i n i n i n i i i iC C Di i im m d m m d x x x
2 *FPD Φ ,ΦU C C Dn R R
Từ đó ta có:
2
2
2FPD Φ ,Φ FPD Φ ,Φ
1 1C C D U C C DU x C C D
nR R R R x x x
n n
48
1 1 12
1...
1n n nC C D C C D C C D
x x x x x x x x xn
1 1
1, 1, 1, , , ,2 1 1
1min , min ,
1
n n
i i i n i n i n i C C Di im m d m m d x x x
n
1, 1, 1, , , ,2 1 1
1min , min ,
1
n n
i i i n i n i n i C C Di im m d m m d x x x
n
1, 1 1, 1 1, 1 , 1 , 1 , 1min , ... min ,n n n n n n n n nm m d m m d
1, 1, 1, , , ,2 1 1
1( min , min , 2*
1
n n
i i i n i n i n i C C Di im m d m m d x x x
n
Ví dụ 3.1
Cho bang quyết định ,DS U C D , vơi 1 2 3, u ,uU u và 1 2 3 4,c ,c ,cC c
Bảng 3.1 Bảng quyết định của Ví dụ 3.1
Luân án sử dụng quan hê tương đương mơ ��𝑎 trên thuôc tính a C như sau:
, 1 ,i j i ia j j
u u a u a u u u UR vơi ,i ju u U
Từ đó, tính các ma trân tương đương mơ lân lươt là:
1 2 3 4
1 0.2 0.2 1 1 0.6 1 1 1 1 1 1
( ) 0.2 1 0.8 ( ) 1 1 0.8 ( ) 1 1 1 ( ) 1 1 1
0.2 0.8 1 0.6 0.8 1 1 1 1 1 1 1
1 0 0 1 0.2 0.2
( ) 0 1 1 ( ) 0.2 1 0.8
0 1 1 0.2 0.8 1
c c c c
D c
M
M
R R R R
R
M M M
M R
Áp dụng công thức tính khoang cách mơ sinh bởi C và C D trên U là:
2 1 9
1FP
0.8D Φ ,Φ
n
C C D i i iC C DiR R x x x
n
Tiếp theo tiến hành bổ sung môt đối tương 1 0,0.6,0,1x
U c1 c2 c3 c4 D
u1 0.8 0.2 0.6 0.4 0
u2 0 0.4 0.6 0.4 1
u3 0 0.6 0.6 0.4 1
49
Bảng 3.2 Bang quyết định sau khi thêm đối tương u4 cua Ví dụ 3.1
U c1 c2 c3 c4 D
u1 0.8 0.2 0.6 0.4 0
u2 0 0.4 0.6 0.4 1
u3 0 0.6 0.6 0.4 1
x1 0 0.6 0 1 0
1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.1
Các ma trân tương đương mơ sau khi bổ sung môt đối tương x1
1 2 3 4( ), ( ), ( ), ( ), ( ), ( )c c c c C DM M M MR R R R RM RM
1 2 3
1 0.2 0.2 0.2 1 1 0.6 0.6 1 1 1 0.4
0.2 1 1 1 1 1 0.8 0.8 1 1 1 0.4( ) , ( ) , ( )
0.2 1 1 1 0.6 0.8 1 1 1 1 1 0.4
0.2 1 1 1 0.6 0.8 1 1 0.4 0.4 0.4 1
c c cM MR RMR
4
1 1 1 0.4 1 0.2 0.2 0.2 1 0 0 1
1 1 1 0.4 0.2 1 0.8 0.4 0 1 1 0( ) , ( ) , ( )
1 1 1 0.4 0.2 0.8 1 0.4 0 1 1 0
0.4 0.4 0.4 1 0.2 0.4 0.4 1 1 0 0 1
c C DM M MR R R
Ta có:
2
2
2FPD Φ ,Φ FPD Φ ,Φ
1 1C C D U C C DU x C C D
nR R R R x x x
n n
=2.4
16
2)Tính khoảng cách trên toàn bộ bảng quyết định theo công thức không gia tăng
Vơi n= 4
4 2 1
1Φ ,Φ
2.4
16
n
C C D i i iC Cu DiUF R R x xD xPn
Như vây, kết qua tính toán khoang cách mơ bởi công thức gia tăng cua Mênh đề
3.1 và công thức không gia tăng khi bổ sung thêm môt đối tương trên toàn bô bang
quyết định la như nhau, điều này chứng minh tính đung đắn cua công thức gia tăng.
50
3.2.2. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng
Từ Mênh đề 3.1, chúng tôi giơi thiêu công thức gia tăng tính khoang cách mơ
khi thêm môt tâp đối tương ở Mênh đề 3.2
Mệnh đề 3.2. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là quan
hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giả sử tập đối
tượng gồm s phần tử 1 2, ,...,n n n sU x x x được bổ sung vào U, mà s2. Với
ij ij,U U C U U Dn s n s n s n s
M R m M R d là ma trận tương đương mờ
tương ứng trên C và D. Khi đó, công thức gia tăng khoảng cách mờ như sau:
2
2 1
FPD Φ ,Φ
2FPD Φ ,Φ
U U C C D
s
U C C D n i n i n i iC C Di
R R
nR R x x x
n s n s
mà 1
, 1 , 1 , 1min ,s
i n i n j n i n j n i n jj im m d
Chứng minh: Ký hiêu 1 2FPD ,FPD ,...,FPDs tương ứng la công thức tính khoang cach
mơ khi thêm lân lươt cac đối tương 1 2, ,...,n n n sx x x
vào U, và 0FPD la khoang cach
mơ trên tâp đối tương ban đâu U.
Khi bổ sung đối tương 1nx vào U, ta có:
2
1 0 1 1 12
2FPD FPD (
1 1n n nC C D
nx x x
n n
(2.1)
Ở đây, lơp tương đương mơ 1n Cx
tính trên 1n đối tương. Để tính toán trên
n s đối tương sau khi bổ sung (tương ứng vơi ma trân quan hê U U CM R , công
thức (2.1) trở thành:
2
1 0 1 1 1 12
2FPD FPD
1 1n n nC C D
nx x x
n n
2
2 1 2 2 2 22
1 2FPD FPD
2 2n n nC C D
nx x x
n n
Vơi
1 1, 2 1, 2 1, 2 1, 1, 1,min , ... min ,n n n n n n n n s n n s n n sm m d m m d
51
2 2, 3 2, 3 2, 3 2, 2, 2,min , ... min ,n n n n n n n n s n n s n n sm m d m m d
Tính tương tự như vây, ta đươc:
2
0 2 1
2FPD FPD
s
s n i n i n i iC C Di
nx x x
n s n s
Vơi 1
, 1 , 1 , 1min ,s
i n i n j n i n j n i n jj im m d
Ví dụ 3.2 Cho bang quyết định ,DS U C D , vơi
1 2 3 1 2 3 4 5 6, u ,u , ,c ,c ,c ,c ,cU u C c
Bảng 3.3 Bảng quyết định của Ví dụ 3.2
Luân án sử dụng quan hê tương đương mơ aR trên thuôc tính a C như sau:
, 1 ,a i j i j i j
u u a u a u u u UR vơi ,i ju u U
Từ đó, tính các ma trân tương đương mơ lân lươt:
1 2 3
4 5 6
1 1 0.8 1 1 0.8 1 0.4 0.8
( ) 1 1 0.8 , ( ) 1 1 0.8 , ( ) 0.4 1 0.2
0.8 0.8 1 0.8 0.8 1 0.8 0.2 1
1 0.8 0.8 1 0.2 0.6 1
( ) 0.8 1 0.8 , ( ) 0.2 1 0.6 , ( )
0.8 0.8 1 0.6 0.6 1
c c c
c c c
M M M
M M M
R R R
R R R
0.2 0.6
0.2 1 0.6
0.2 0.6 1
1 0.2 0.6 1 0 1
) 0.2 1 0.2 , ( ) 0 1 0
0.2 0.2 1 1 0 1
C DM RMR
Khoang cách mơ giữa hai tâp thuôc tính C và D cua bang quyết định
,DS U C D đươc tính bằng công thức không gia tăng:
2 1
0.8
9
1Φ ,Φ
n
C C D i i iC C DiUF R R x xD xPn
Tiếp theo, tiến hành bổ sung tâp đối tương 1 2 3, ,U x x x vào bang quyết định
U c1 c2 c3 c4 c5 c6 D
u1 0.8 0.2 0.6 0.4 1 0 0
u2 0.8 0.2 0 0.6 0.2 0.8 1
u3 0.6 0.4 0.8 0.2 0.6 0.4 0
52
,DS U C D .
Bảng 3.4 Bảng quyết định của Ví dụ 3.2 sau khi thêm tập đối tượng
U c1 c2 c3 c4 c5 c6 D
u1 0.8 0.2 0.6 0.4 1 0 0
u2 0.8 0.2 0 0.6 0.2 0.8 1
u3 0.6 0.4 0.8 0.2 0.6 0.4 0
1x 0 0.4 0.6 0.4 0 1 1
2x 0 0.6 0.6 0.4 0 1 1
3x 0 0.6 0 1 0 1 0
1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.2
Cac ma trân tương đương mơ khi bổ sung tâp đối tương 1 2 3, ,U x x x
1 2
1 1 0.8 0.2 0.2 0.2
1 1 0.8 0.2 0.2 0.2
0.8 0.8 1 0.4 0.4 0.4( ) , ( )
0.2 0.2 0.4 1 1 1
0.2 0.2 0.4 1 1 1
0.2 0.2 0.4 1 1 1
1 1
1 1 0.8 0.6 0.6
0.8 0.8 1 1 0.8 0.8
0.8 0.8 1 1 0.8 0.8
0.6 0.6 0.8 0.8 1 1
0.6 0.6 0.8 0.
0.8 0.8 0.6 0.6
0.8
8 1 1
c cM MR R
,
3 4( ) , ( )
0.4 1 1 0.8 1 1
0.4 0.2 0.4 0.4 1 0.8 0.6 0.6
0.8 0.8 0.8
1 0.4 0.8 1 0.4 1 0.8 0.8 1 0.4
1 0.4 0.8 1 0.4 1 0.8 0.8 1 0.4
0.4 1 0.4
1 0.8 0.4 1 0.8 0.4
1 1 0
4
.8 0.8
0.8 0
0
.2 1 0.8 0.2 0.6 1 0.8 0.2
1 1
1 1
0.2 0 ..4 0.6 0.2.4 1 0 4 0.
c cM MR R
,
1
5 6( ) , ( )
0.2 0.6 0 0.2 0.6
0.2 0.6 0.8 0.8 0.8 0.2 0.6 0.8 0.8
0.6 0.6 0.4 0.4 0.6 0.6 0.4
0.8 0.4 1 1 0.
1
1 0 0 1 0
8 0.4 1 1
0.8 0.4 1
1
0.8 0.4 1
0 0.8 0.4 0.
0 0
1 1 0.8
1 0.4 1 0.4 0.4
0 1 0 1
0 1 1 0 1 1
48 11 0 0. 1 1
c cM MR R
,
53
( ) , ( )
0.2 0.6 0 1 1
0.2 0.2 0.2 0.2 0.2 0 0 1 1 0
0.6 0.4 0.4 0.2 1 0 0 0 1
0.4 0.8 1 0 1
0.2 0.4 1 0 1 0
0
1 0 0 0 1 0 0
1 1
0.2 1 1
0 0.2 1 0.4 0 1 0
0 0.4 0.8 1 0 1
0 0.2 0 1..2 0. 044 1 0 1 10
C DM MR R
Ta có: 2 1
1 4.4
36Φ ,Φ
n
C C D i i iC DiU CF R R x x x
nPD
2) Tính khoảng cách mờ trên toàn bộ bảng quyết định theo công thức không gia
tăng
Vơi n= 3, s=3, ta có:
2
2 1
FPD Φ ,Φ
2FPD Φ ,Φ
U U C C D
s
U C C D n i n i n i iC C Di
R R
nR R x x x
n s n s
Vơi 1
, 1 , 1 , 1min ,s
i n i n j n i n j n i n jj im m d
4.4FPD Φ ,Φ
36U U C C DR R
Như vây, kết qua tính toán khoang cách mơ bởi công thức gia tăng cua Mênh đề
3.2 và công thức không gia tăng khi bổ sung thêm tâp đối tương trên toàn bô bang
quyết định la như nhau, điều này chứng minh tính đung đắn cua công thức gia tăng.
3.2.3. Thuật toán gia tăng fifter-wrapper tìm tập rút gọn sau khi bổ sung tập
đối tượng
Mệnh đề 3.3. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là quan
hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, B C là tập
rút gọn dựa trên khoảng cách mờ. Giả sử tập đối tượng gồm s phần tử
1 2, ,...,n n n sU x x x được bổ sung vào U . Khi đó ta có:
1) Nếu n iD x d với mọi 1,2, ,i s thì:
54
2
2 1
FPD Φ ,Φ
2FPD Φ ,Φ
U U C C D
s
U C C D n i n i n iC C Di
R R
nR R x x x
n s n s
2) Nếu n i n iB Dx x với mọi 1,2,...,i s thì
FPD Φ ,Φ FPD Φ ,ΦU U B B D U U C C DR R R R .
Chứng minh: Gia sử
,C B
U U C ij U U B ijn s n s n s n sM R m M R m
tương ứng
la ma trân tương đương mơ trên C và B.
1) Nếu n iD x d vơi moi 1,2,...,i s thì vơi moi 1,2,...,i s và , , 1j i s ta
có , 1 1n i n jd . Do đó, , 1 , 1 , 1min ,C C
n i n j n i n j n i n jm d m , từ Mênh đề 3.2 ta có công
thức trong trương hơp đâu tiên.
2) Nếu n i n iB Dx x vơi moi 1,2,...,i s thì n i n i n iC B D
x x x . Khi đó, ta
có n i n i n iB D Bx x x và n i n i n iC D C
x x x . Do đó
0n i n i n iB B Dx x x , 1
0s
n i n i n iB B Dix x x
,
0n i n i n iC C Dx x x , 1
0s
n i n i n iC C Dix x x
.
Hơn nữa, , 1 , 1 , 1 , 1 , 1 , 1min , , min ,B B C C
n i n j n i n j n i n j n i n j n i n j n i n jm d m m d m vơi
1.. , .. 1i s j i s . Từ Mênh đề 3.2 ta có:
2
FPD Φ ,Φ FPD Φ ,ΦU U B B D U B B D
nR R R R
n s
(3.1)
2
FPD Φ ,Φ FPD Φ ,ΦU U C C D U C C D
nR R R R
n s
(3.2)
Từ B la tâp rut gon cua C nên ta có:
FPD Φ ,Φ FPD Φ ,ΦU B B D U C C DR R R R . Từ (3.1) va (3.2) ta có:
FPD Φ ,Φ FPD Φ ,ΦU U B B D U U C C DR R R R
Từ kết qua cua Mênh đề 3.3, thuât toan gia tăng filter-wrapper rut gon thuôc
tính sử dụng khoang cach mơ IFW_FDAR_AdObj gồm 3 bươc chính:
55
Algorithm IFW_FDAR_AdObj
Đầu vào:
1. Bảng quyết định ,DS U C D với 1 2, ,..., nU x x x , quan
hệ tương đương mờ R, tập rút gọn B C .
2. Các ma trận tương đương mờ
, , U B ij U C ij U D ijn n n n n nM R b M R c M R d
3. Tập đối tượng bổ sung 1 2, ,...,n n n sU x x x
Đầu ra: Tập rút gọn xấp xỉ bestB của ,DS U U C D với
độ chính xác phân loại cao nhất.
Bước 1: Khởi tạo
1. : ;T // T chứa ứng của viên tập rút gọn tốt nhất
2. Tính các ma trận tương đương mờ trên tập đối tượng
U U
, U U B ij U U D ijn s n s n s n sM R b M R d
;
Bước 2: Kiểm tra tập đối tượng thêm vào
3. Đặt :X U ;
4. For 1 i to s do
5. If n i n iB Dx x then : n iX X x ;
6. If X then Return 0B ; // Tập xấp xỉ
không thay đổi
7. Đặt : ; :U X s U ; //Gán lại tập đối tượng
Bước 3: Tìm tập rút gọn tốt nhất
8. Tính các khoảng cách mờ ban đầu
FPD Φ ,Φ ; FPD Φ ,ΦU B B D U C C DR R R R ;
9. Tính khoảng cách mờ bởi công thức gia tăng:
FPD Φ ,Φ ; FPD Φ ,ΦU U B B D U U C C DR R R R
// Giai đoạn fifter: tìm các ứng viên cho tập
rút gọn
10. While FPD Φ ,Φ FPD Φ ,ΦU U B B D U U C C DR R R R do
11. Begin
56
12. For each a C B do
13. Begin
14. Tính FPD Φ ,ΦU U B a B a D
R R bởi công thức gia
tăng;
15. Tính
FPD Φ ,Φ FPD Φ ,Φ ;B U U B B D U U B a B a DSIG a R R R R
16. End;
17. Selecta C B satisfying B m Ba C B
SIG a Max SIG a
;
18. : mB B a ;
19. 0 0: mB B a ;
20. 0:T T B ;
21. End;
//Giai đoạn Wrapper: tìm tập rút gọn với độ chính xác
phân loại cao nhất
22. Đặt :t T //t là số phần tử của T,
0 1 0 1 2 0 1 2, , ,..., , ,..., tT B a B a a B a a a ;
23. Đặt 1 0 1 2 0 1 2 0 1 2: ; : , ;...; : , ,...,t tT B a T B a a T B a a a ;
24. For j:= 1 to t do
25. Tính độ chính xác phân lớp trên jT bằng một bộ
phân lớp sử dụng phương pháp 10-fold;
26. :best joB T với joT có độ chính xác phân lớp cao nhất;
Return bestB ;
3.2.4. Đánh giá độ phức tạp của thuật toán
Trong phân nay, Luân an sẽ đanh gia đô phức tap cua thuât toan
IFW_FDAR_AdObj . Gia sử D d , , ,C U U tương ứng la số thuôc tính điều
kiên, số đối tương va số đối tương bổ sung từ tâp ban đâu. Đô phức tap cua thuât toan
đươc tính dựa trên thuât toan trên.
Đô phức tap cua ma trân tương đương mơ ở câu lênh 2 trên U U là
57
* *O B U U U va đô phức tap cua vòng for ở câu lênh 4, 5 la
*O U U U . Trong trương hơp tốt nhât, thuât toan kết thuc ở câu lênh 6 (tâp
rut gon không thay đổi). Khi đó, đô phức tap cua thuât toán IFW_FDAR_AdObj là
* *O B U U U . Ngươc lai, đô phức tap cua khoang cach mơ ở câu lênh 9 la
* *O C U U U , đô phức tap tính gia tăng FPD Φ ,ΦU U B a B a d
R R
là *O U U U . Bằng cach tính đô phức tap tương tự như thuât toan
FW_FDBAR ở trong phân 2.4, đô phức tap cua vòng lặp While (từ câu lênh 10 đến
câu lênh 21) la 2
*O C B U U U . Kết qua đô phức tap cua giai đoan
fifter trong trương hơp xâu nhât la 2
*O C B U U U . Đô phức tap cua giai
đoan wrapper phụ thuôc vao đô phức tap cua bô phân lơp đươc sử dụng. Gia sử đô
phức tap cua bô phân lơp la O T , khi đó đô phức tap cua giai đoan wrapper la
*O C B T .
Từ những phân tích trên đô phức tap cua thuât toan IFW_FDAR_AdObj là:
2
max * * , * * *O B U U U O C B U U U O C B T
Nếu thực hiên thuât toan không gia tăng FW_FDBAR trực tiếp trên bang
quyết định có số đối tương U U , theo mục 2.4 cua Chương 2, đô phức tap cua
FW_FDBAR là 22
* *O C U U O C T . Dựa trên kết qua nay chung ta thây
rằng thuât toan IFW_FDAR_AdObj giam thiểu đang kể thơi gian thực hiên, đặc biêt
trong trương hơp tâp đối tương U lơn hoặc tâp điều kiên C lơn va B nho.
3.2.5. Thực nghiệm thuật toán
3.2.5.1 Mục tiêu thực nghiệm
1) Đanh gia về thơi gian thực hiên cua thuât toan gia tăng filter-wrapper
IFW_FDAR_AdObj vơi hai thuât toan gia tăng theo tiếp cân filter trên tâp thô mơ IV-
FS-FRS-2 [54], IARM [18]) và hai thuât toán filter trên tâp thô (ASS-IAR [40], IFSA
[36])). Đặc biêt, thuât toán IV-FS-FRS-2 là môt thuât toán filter dựa trên ma trân phân
biêt mơ, trong khi IARM là môt thuât toán filter dựa trên quan hê phân biêt. ASS-IAR
58
là thuât toán filter dựa trên lựa chon mẫu hoat đông, trong khi IFSA là thuât toán filter
dựa trên chức năng phụ thuôc.
2) Đanh gia tính hiêu qua về đô chính xác phân lơp và số lương thuôc tính cua
tâp rút gon cua thuât toan gia tăng filter-wrapper IFW_FDAR_AdObj so vơi bốn thuât
toán filter nêu trên.
3.2.5.2 Dữ liệu thực nghiệm
Viêc thực nghiêm đươc triển khai trên 8 tâp dữ liêu mẫu lây từ kho dữ liêu
UCI[59] trong Bảng 3.5.
Vơi thuât toan IV-FS-FRS-2 va IARM bằng cach tiếp cân tâp thô mơ, tât ca
cac thuôc tính gia trị thực đươc chuẩn hóa thanh gia trị trong khoang [0, 1] trên mỗi
tâp dữ liêu [54]:
min
max min
i
i
a x aa x
a a
(3.3)
Vơi max( )a , min( )a tương ứng la gia trị lơn nhât va nho nhât cua thuôc tính a .
Quan hê tương đương mơ aR [9,54] trên thuôc tính a đươc xac định như sau:
, 1a i j i jR x x a x a x vơi ,i jx x U (3.4)
vơi mỗi thuôc tính a C có gia trị định danh hoặc nhị phân, quan hê tương
đương mơ aR trong (3.5) vơi ,i jx x U :
1,
0,
i j
a
a x a x
otherwiseR
(3.5)
Trên thuôc tính quyết định d , Luân an sử dụng quan hê tương đương d
R .
Vơi ,i jx x U
1,
0,
i j
dR
o
d x d x
therwise
(3.6)
Phân hoach / id d
U R x , vơi ix U và , 1i j i jdd
x x U R x x là
môt lơp tương đương. Khi đó, lơp tương đương i dx đươc xem la lơp tương đương mơ,
59
ký hiêu bởi i dx . Ham thanh viên đươc định nghĩa la 1
i djx
x nếu j i dx x và
0i d
jxx nếu j i d
x x .
Vơi thuât toan ASS-IAR và IFSA đươc tiếp cân theo tâp thô truyền thống, luân
án dung thuât toan phân cụm C-mean mơ (FCM) để phân biêt dữ liêu có gia trị thực
trươc khi rut gon thuôc tính.
Mỗi tâp dữ liêu đươc chia thanh 2 phân xâp xỉ nhau: dữ liêu ban đâu (Côt 5
trong Bảng 3.5) va dữ liêu gia tăng (Côt 6 trong Bảng 3.5). Dữ liêu ban đâu đươc ký
hiêu la U0. Tâp dữ liêu gia tăng đươc tach ngẫu nhiên thanh 5 phân bằng nhau, mỗi
phân đươc ký hiêu tương ứng la U1, U2, U3, U4, U5.
Để ap dụng thuât toan gia tăng IFW_FDAR_AdObj, IV-FS-FRS-2, IARM,
ASS-IAR và IFSA, đâu tiên chúng tôi thực hiên thuât toan nay trên bô dữ liêu gốc.
Tiếp đến, thuât toan nay sẽ đươc bổ sung lân lươt từ phân đâu tiên đến phân thứ năm
cua bô dữ liêu gia tăng.
Bảng 3.5 Bộ dữ liệu thử nghiệm khi thêm tập đối tượng
Stt Bộ dữ
liệu Mô tả
Số đối
tượng
Số đối
tượng
ban đầu
Số
đối
tượng
gia
tăng
Số thuộc tính điều kiện Số
lớp
quyết
định
Tổng
số
Giá
trị
định
danh
Giá
trị
thực
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
1 Libra Libras movement 360 180 180 90 0 90 15
2 WDBC
Wisconsin
diagnostic breast
cancer
569 284 285 30 0 30 2
3 Horse Horse colic 368 183 185 22 15 7 2
4 Heart Statlog (heart) 270 135 135 13 7 6 2
5 Credit Credit approval 690 345 345 15 9 6 2
6 German German credit
data 1000 500 500 20 13 7 2
7 Cmc Contraceptive
Method Choice 1473 733 740 9 7 2 3
8 Wave Waveform 5000 2500 2500 21 0 21 3
3.2.5.3 Phương pháp, công cụ và môi trường thử nghiệm
Chúng tôi dung bô phân lơp CART (CART – Classification And Regression
Tree) để tính đô chính xac phân lơp trong giai đoan wrapper cua thuât toan
60
IFW_FDAR_AdObj. Đồng thơi dung bô phân lơp CART để tính đô chính xac phân
lơp cho cac thuât toan IFW_FDAR_AdObj , IV-FS-FRS-2, IARM, ASS-IAR sau khi
rut gon tâp thuôc tính. Chúng tôi sử dụng phương phap kiểm tra chéo 10-fold và chia
bô dữ liêu thành 10 phân xâp xỉ bằng nhau. Lây ngẫu nhiên môt phân làm bô dữ liêu
kiểm tra, các phân còn lai làm dữ liêu huân luyên. Qua trình đươc lặp lai 10 lân. Đô
chính xac đươc biểu diễn bởi 𝑣 ± 𝜎 vơi 𝑣 la gia trị đô chính xac trung bình cua 10 lân
lặp và 𝜎 la sai số chuẩn (standard error). Tât ca cac thử nghiêm đươc cai đặt trên PC
Core(TM) Intel (R) i7-3770CPU, 3.40 GHz, Windows 7 sử dụng Matlab.
3.2.5.4 Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-wrapper
IFW_FDAR_AdObj với thuật toán IV-FS-FRS-2, IARM, ASS-IAR, IFSA
Bang 3.6 va Hình 3.1 trình bay thể hiên kết qua so sanh về thơi gian thực hiên
cua thuât toan IFW_FDAR_AdObj vơi cac thuât toan IV-FS-FRS-2, IARM, ASS-IAR,
IFSA vơi cac côt T0, T1, T2, T3, T4 tương ứng la tổng thơi gian tính toan cua cac thuât
toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR, IFSA. Côt DS la dữ liêu
gia tăng ban đâu.
Bảng 3.6 Thời gian thực hiện của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2
IARM, ASS-IAR và IFSA (tính bằng giây)
Stt Bộ dữ
liệu DS T0 T1 T2 T3 T4
1 Libra
U0 4.26 3.12 3.04 3.82 3.02
U1 4.84 3.98 3.86 3.86 3.16
U2 5.22 4.46 4.24 3.94 3.49
U3 5.68 4.98 4.56 4.12 3.98
U4 6.28 5.24 4.86 4.48 4.54
U5 6.78 5.76 5.08 4.86 5.06
2 WDBC
U0 2.86 2.12 2.10 2.63 2.06
U1 3.04 2.46 2.42 2.72 2.18
U2 3.28 2.72 2.68 2.80 2.34
U3 3.56 2.91 2.85 2.89 2.61
U4 3.85 3.24 3.02 2.98 2.88
U5 4.08 3.35 3.12 3.04 3.19
3 Horse
U0 0.68 0.54 0.52 0.58 0.50
U1 0.76 0.59 0.58 0.63 0.54
U2 0.85 0.66 0.67 0.69 0.59
U3 0.94 0.74 0.75 0.72 0.66
U4 0.99 0.78 0.79 0.75 0.75
U5 1.08 0.82 0.86 0.78 0.84
61
4 Heart
U0 0.68 0.11 0.11 0.14 0.10
U1 0.72 0.13 0.14 0.15 0.12
U2 0.86 0.18 0.18 0.17 0.14
U3 0.92 0.19 0.20 0.18 0.17
U4 1.08 0.20 0.21 0.19 0.20
U5 1.26 0.22 0.22 0.20 0.24
5 Credit
U0 0.74 0.52 0.52 0.56 0.48
U1 0.96 0.68 0.66 0.62 0.56
U2 1.29 0.82 0.81 0.69 0.68
U3 1.54 0.94 0.92 0.78 0.79
U4 1.75 1.05 1.04 0.88 0.94
U5 1.86 1.18 1.15 1.12 1.18
6 German
U0 2.36 2.04 2.02 2.86 2.04
U1 2.58 2.25 2.21 2.92 2.12
U2 2.94 2.62 2.58 2.98 2.26
U3 3.28 2.98 2.92 3.06 2.48
U4 3.68 3.36 3.28 3.12 2.96
U5 4.26 3.84 3.46 3.18 3.42
7 Cmc
U0 1.92 1.54 1.55 1.86 1.58
U1 2.12 1.76 1.78 1.98 1.72
U2 2.48 1.98 2.01 2.12 1.96
U3 2.74 2.25 2.28 2.28 2.32
U4 2.98 2.34 242 2.45 2.58
U5 3.22 2.72 2.96 2.64 2.82
8 Wave
U0 182.26 164.26 160.68 172.58 154.28
U1 198.64 182.98 175.48 176.12 162.18
U2 210.12 198.24 189.28 182.64 173.69
U3 228.84 209.17 202.85 189.25 188.26
U4 252.26 223.89 219.46 192.46 202.17
U5 274.48 238.64 226.26 198.16 220.46
Hình 3.1a. Thời gian thực hiện các thuật toán trên bộ dữ liệu Libra
62
2
2,5
3
3,5
4
4,5
U0 U1 U2 U3 U4 U5
Thơ
i gia
n t
hự
c hiê
n
Tâp đối tương cua dữ liêu WDBC
IFW_FDAR_AdObj
IV-FS-FRS-2
IARM
ASS-IAR
IFSA
0
0,2
0,4
0,6
0,8
1
1,2
U0 U1 U2 U3 U4 U5
Thơ
i gia
n t
hự
c hiê
n
Tâp đối tương cua dữ liêu Horse
IFW_FDAR_AdObj
IV-FS-FRS-2
IARM
ASS-IAR
IFSA
Hình 3.1b. Thời gian thực hiện các thuật toán trên bộ dữ liệu WDBC
Hình 3.1c. Thời gian thực hiện các thuật toán trên bộ dữ liệu Horse
Hình 3.1d. Thời gian thực hiện các thuật toán trên bộ dữ liệu Heart
63
2
2,5
3
3,5
4
4,5
U0 U1 U2 U3 U4 U5
Thơ
i gia
n t
hự
c hiê
n
Tâp dữ liêu cua đối tương German
IFW_FDAR_AdObj
IV-FS-FRS-2
IARM
ASS-IAR
IFSA
1,5
2
2,5
3
3,5
U0 U1 U2 U3 U4 U5
Thơ
i gia
n t
hự
c hiê
n
Tâp đối tương cua dữ liêu Cmc
IFW_FDAR_AdObj
IV-FS-FRS-2
IARM
ASS-IAR
IFSA
Hình 3.1.e Thời gian thực hiện các thuật toán trên bộ dữ liệu Credit
Hình 3.1.f Thời gian thực hiện các thuật toán trên bộ dữ liệu German
Hình 3.1.g Thời gian thực hiện các thuật toán trên bộ dữ liệu Cmc
64
Hình 3.1.h Thời gian thực hiện các thuật toán trên bộ dữ liệu Wave
Hình 3.1 Thời gian thực hiện các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM,
ASS-IAR và IFSA
Bang 3.6 và Hình 3.1 chỉ ra rằng thơi gian thực hiên cua thuât toan
IFW_FDAR_AdObj cao hơn thơi gian thực hiên cua cac thuât toan IV-FS-FRS-2 và
IARM trên tât ca cac bô dữ liêu. Mặc du viêc tính toan khoang cach mơ trong thuât
toán IFW_FDAR_AdObj đơn gian hơn viêc tính toan đô đo trong cac thuât toan IV-
FS-FRS-2, IARM, ASS-IAR và IFSA, thuât toan IFW_FDAR_AdObj cân nhiều thơi
gian hơn để thực hiên phân lơp. Thơi gian thực hiên cua thuât toan ASS-IAR la nho
nhât vì loai bo cac dữ liêu nhiễu trong tính toan gia tăng.
3.2.5.5 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính của tập rút
gọn của thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với thuật toán IV-
FS-FRS-2, IARM, ASS-IAR, IFSA
Kết qua cua đô chính xac phân lơp va số lương thuôc tính cua tâp rut gon
đươc trình bay trong Bang 3.7. Theo kết qua nay, số lương thuôc tính cua tâp rut gon
tai mỗi bươc tăng dân, thuât toan filter-wrapper IFW_FDAR_AdObj đề xuât có số
lương thuôc tính cua tâp rut gon nho hơn nhiều cac thuât toan IV-FS-FRS-2, IARM,
ASS-IAR và IFSA. Đồng thơi, tính chính xac va tính khai quat hóa cua tâp luât phân
lơp trên tâp rut gon cua thuât toan IFW_FDAR_AdObj tốt hơn cac thuât toan IV-FS-
FRS-2, IARM, ASS-IAR va IFSA. Hơn nữa, vơi viêc chon tâp rut gon có đô chính
xac cao nhât trong giai đoan wrapper, đô chính xac phân lơp cua thuât toan
65
IFW_FDAR_AdObj cao hơn cac thuât toan IV-FS-FRS-2, IARM, ASS-IAR và IFSA
trên tât ca cac bô dữ liêu. Đô chính xac phân lơp cua thuât toan IV-FS-FRS-2, IARM
theo tiếp cân tâp thô mơ cao hơn cac thuât toan ASS-IAR, IFSA theo tiếp cân tâp thô
truyền thống.
Vơi mỗi bô dữ liêu, chung ta thây rằng, đô chính xac phân lơp không tăng khi
bổ sung bô dữ liêu gia tăng. Điều nay la do có môt vai đối tương nhiễu trong bô dữ
liêu gia tăng lam giam đô chính xac phân lơp cua thuât toan hoc.
Bảng 3.7 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn của các
thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA
(Gia trị tô đâm trên mỗi hang la gia trị tốt nhât trên bô dữ liêu đó)
Stt Bộ dữ
liệu
Dữ
liệu
gốc,
dữ
liệu
gia
tăng
IFW-FDAR-
AdObj IV-FS-FRS-2 IARM ASS-IAR IFSA
B
Độ
chính
xác
B
Độ
chính
xác
B
Độ
chính
xác
B
Độ
chính
xác
B
Độ
chính
xác
1 Libra
U0 7 0.546 ±
0.028 34
0.518 ±
0.037 33
0.508 ±
0.028 29
0.492
±
0.021
30
0.496
±
0.016
U1 8 0.594 ±
0.032 38
0.556 ±
0.026 36
0.564 ±
0.037 32
0.524
±
0.042
33
0.528
±
0.023
U2 8 0.594 ±
0.032 42
0.580 ±
0.019 41
0.588 ±
0.028 36
0.556
±
0.017
37
0.542
±
0.036
U3 9 0.649 ±
0.028 46
0.621 ±
0.034 44
0.632 ±
0.016 39
0.602
±
0.028
39
0.598
±
0.029
U4 9 0.649 ±
0.028 48
0.628 ±
0.028 47
0.614 ±
0.038 42
0.576
±
0.041
42
0.565
±
0.018
U5 10 0.582 ±
0.076 51
0.502 ±
0.020 48
0.517 ±
0.014 45
0.498
±
0.024
45
0.496
±
0.012
2 WDBC
U0 4 0.889 ±
0.018 18
0.886 ±
0.043 12
0.852 ±
0.028 11
0.846
±
0.028
12
0.836
±
0.016
U1 4 0.889 ±
0.018 18
0.886 ±
0.043 12
0.852 ±
0.028 11
0.846
± 12
0.836
±
66
0.028 0.016
U2 5 0.841 ±
0.025 20
0.824 ±
0.032 14
0.849 ±
0.034 12
0.818
±
0.032
13
0.812
±
0.018
U3 5 0.841 ±
0.025 20
0.824 ±
0.032 14
0.849 ±
0.034 12
0.818
±
0.032
13
0.812
±
0.018
U4 6 0.932 ±
0.056 23
0.885 ±
0.018 15
0.908 ±
0.019 14
0.872
±
0.029
15
0.862
±
0.022
U5 6 0.932 ±
0.056 24
0.895 ±
0.012 16
0.912 ±
0.014 15
0.886
±
0.025
16
0.874
±
0.017
3 Horse
U0 4 0.765 ±
0.048 8
0.712 ±
0.028 9
0.706 ±
0.032 7
0.705
±
0.012
8
0.702
±
0.026
U1 4 0.765 ±
0.048 8
0.712 ±
0.028 9
0.706 ±
0.032 7
0.705
±
0.012
8
0.702
±
0.026
U2 4 0.765 ±
0.048 9
0.708 ±
0.016 10
0.701 ±
0.024 8
0.695
±
0.028
9
0.693
±
0.021
U3 5 0.806 ±
0.052 10
0.769 ±
0.028 11
0.758 ±
0.036 9
0.742
±
0.036
10
0.722
±
0.037
U4 5 0.806 ±
0.052 11
0.795 ±
0.037 11
0.758 ±
0.036 10
0.758
±
0.024
10
0.722
±
0.037
U5 5 0.806 ±
0.052 12
0.788 ±
0.048 12
0.744 ±
0.023 11
0.742
±
0.018
12
0.718
±
0.024
4 Heart
U0 3 0.768 ±
0.064 6
0.744 ±
0.052 7
0.726 ±
0.038 6
0.712
±
0.028
7
0.706
±
0.025
U1 3 0.768 ±
0.064 7
0.758 ±
0.026 8
0.738 ±
0.018 7
0.728
±
0.019
8
0.719
±
0.019
U2 4 0.864 ±
0.048 7
0.758 ±
0.026 8
0.738 ±
0.018 7
0.728
±
0.019
8
0.719
±
0.019
U3 4 0.864 ±
0.048 8
0.815 ±
0.052 9
0.806 ±
0.047 8
0.764
±
0.028
9
0.745
±
0.024
U4 4 0.864 ±
0.048 8
0.815 ±
0.052 10
0.798 ±
0.049 8
0.764
± 10
0.726
±
67
0.028 0.021
U5 5 0.812 ±
0.072 10
0.766 ±
0.058 11
0.772 ±
0.014 9
0.738
±
0.039
10
0.726
±
0.036
5 Credit
U0 3 0.802 ±
0.048 8
0.786 ±
0.027 8
0.764 ±
0.027 7
0.684
±
0.018
7
0.692
±
0.026
U1 3 0.802 ±
0.048 8
0.786 ±
0.027 8
0.764 ±
0.027 7
0.684
±
0.018
7
0.692
±
0.026
U2 4 0.865 ±
0.026 9
0.798 ±
0.035 9
0.792 ±
0.026 8
0.696
±
0.029
8
0.708
±
0.032
U3 4 0.865 ±
0.026 10
0.839 ±
0.029 11
0.818 ±
0.034 9
0.789
±
0.036
10
0.782
±
0.036
U4 4 0.865 ±
0.026 11
0.806 ±
0.048 12
0.802 ±
0.022 10
0.743
±
0.024
11
0.736
±
0.027
U5 4 0.865 ±
0.026 13
0.828 ±
0.014 14
0.826 ±
0.014 10
0.743
±
0.024
11
0.736
±
0.027
6 German
U0 3 0.725 ±
0.026 6
0.706 ±
0.018 6
0.706 ±
0.018 5
0.684
±
0.029
5
0.695
±
0.028
U1 5 0.768 ±
0.026 8
0.748 ±
0.029 8
0.748 ±
0.029 7
0.705
±
0.032
6
0.714
±
0.019
U2 5 0.768 ±
0.026 8
0.748 ±
0.029 8
0.748 ±
0.029 8
0.702
±
0.026
8
0.709
±
0.019
U3 6 0.716 ±
0.028 9
0.642 ±
0.038 9
0.642 ±
0.038 9
0.622
±
0.037
9
0.615
±
0.024
U4 6 0.716 ±
0.028 10
0.696 ±
0.024 10
0.696 ±
0.024 9
0.622
±
0.037
9
0.615
±
0.033
U5 6 0.716 ±
0.028 12
0.688 ±
0.032 11
0.690 ±
0.015 10
0.618
±
0.018
10
0.602
±
0.022
7 Cmc
U0 3 0.692 ±
0.012 6
0.512 ±
0.027 6
0.505
±0.038 5
0.502
±
0.017
5
0.504
±
0.026
U1 3 0.692 ±
0.012 7
0.586 ±
0.048 7
0.576 ±
0.042 6
0.543
± 6
0.552
±
68
0,45
0,5
0,55
0,6
0,65
U0 U1 U2 U3 U4 U5
Độ
ch
ính
xác
ph
ân lớ
p
Các tập đối tượng của dữ liệu Libra
IFW-FDAR-AdObj
IV-FS-FRS-2
IARM
ASS-IAR
IFSA
0.028 0.037
U2 3 0.692 ±
0.012 7
0.586 ±
0.048 7
0.576 ±
0.042 6
0.543
±
0.028
6
0.552
±
0.037
U3 4 0.658 ±
0.072 8
0.502 ±
0.035 8
0.502 ±
0.029 7
0.498
±
0.036
7
0.492
±
0.023
U4 4 0.658 ±
0.072 8
0.502 ±
0.035 8
0.502 ±
0.029 7
0.498
±
0.036
7
0.492
±
0.023
U5 4 0.658 ±
0.072 9
0.489 ±
0.042 9
0.482 ±
0.012 8
0.476
±
0.029
8
0.469
±
0.024
8 Wave
U0 5 0.785 ±
0.016 11
0.694 ±
0.036 13
0.682 ±
0.015 10
0.646
±
0.026
11
0.652
±
0.027
U1 6 0.794 ±
0.025 13
0.716 ±
0.012 14
0.706 ±
0.011 12
0.695
±
0.038
13
0.702
±
0.034
U2 6 0.816 ±
0.017 13
0.716 ±
0.012 16
0.765 ±
0.032 12
0.695
±
0.038
13
0.704
±
0.029
U3 7 0.806 ±
0.048 14
0.764 ±
0.043 16
0.728 ±
0.036 14
0.723
±
0.026
14
0.726
±
0.029
U4 7 0.811 ±
0.016 15
0.786 ±
0.028 18
0.732 ±
0.018 15
0.726
±
0.017
15
0.716
±
0.017
U5 8 0.812 ±
0.022 17
0.784 ±
0.016 21
0.702 ±
0.024 17
0.701
±
0.029
17
0.702
±
0.028
Hình 3.2a. Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Libra
69
0,7
0,75
0,8
0,85
0,9
U0 U1 U2 U3 U4 U5
Đô
chín
h x
ac p
hân
lơ
p
Cac tâp đối tương cua dữ liêu Heart
IFW-FDAR-AdObj
IV-FS-FRS-2
IARM
ASS-IAR
IFSA
Hình 3.2.b Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu WDBC
Hình 3.2.c Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Horse
Hình 3.2.d Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Heart
0,65
0,7
0,75
0,8
0,85
U0 U1 U2 U3 U4 U5
Đô
chín
h x
ac p
hân
lơ
p
Cac tâp đối tương cua dữ liêu Horse
IFW-FDAR-AdObj
IV-FS-FRS-2
IARM
ASS-IAR
IFSA
70
0,6
0,65
0,7
0,75
0,8
U0 U1 U2 U3 U4 U5
Đô
chín
h x
ac p
hân
lơ
p
Cac tâp đối tương cua dữ liêu Germen
IFW-FDAR-AdObj
IV-FS-FRS-2
IARM
ASS-IAR
IFSA
0,45
0,5
0,55
0,6
0,65
0,7
0,75
U0 U1 U2 U3 U4 U5
Đô
chín
h x
ac p
hân
lơ
p
Cac tâp đối tương cua dữ liêu Cmc
IFW-FDAR-AdObj
IV-FS-FRS-2
IARM
ASS-IAR
IFSA
Hình 3.2.e Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Credit
Hình 3.2.f Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Germen
Hình 3.2.g Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Cmc
71
Hình 3.2.h Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Wave
Hình 3.2 Đô chính xac phân lơp của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2
IARM, ASS-IAR và IFSA
3.3. Thuật toán gia tăng fifter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng
Tiếp theo, chúng tôi trình bày thuât toán filter-wrapper tìm tâp rút gon sử dụng
khoang cách mơ khi loai bo tâp đối tương theo hương tiếp cân tính toan gia tăng.
Trươc hết, chúng tôi xây dựng các công thức câp nhât khoang cách mơ khi loai bo môt
đối tương.
3.3.1. Cập nhật khoảng cách mờ khi loại bỏ một đối tượng
Mệnh đề 3.4: Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là một
quan hệ tương đương mờ được xác định trên miền giá trị của tập thuộc tính điều
kiện. Giả sử đối tượng kx U bị loại khỏi U. Khi đó, công thức tính khoảng cách mờ
như sau:
2
2
FPD Φ ,Φ
2FPD Φ ,Φ
1 1
kC C DU x
U C C D k k kC C D
R R
nR R x x x
n n
(3.7)
Với FPD Φ ,Φ ,FPD Φ ,Φk
U C C D C C DU xR R R R
tương ứng là khoảng
cách mờ trên các tập đối tượng , kU U x .
Chứng minh: Gia sử rằng ,k
U C CU xM R M R
tương ứng la ma trân tương
72
đương mơ cua CR trên U và kU x . Khi đó, ta có:
2 1,
1FPD Φ ,Φ
1k
n
C C D i i iU x C C Di i kR R x x x
n
1 1 1 1 1 12
1 1 1
1
1
...
k k kC C D C C D
k k k n n nC C D C C D
x x x x x xn
x x x x x x
1, 1, 1, , , ,1, 1,
2
, , ,1,
min , ... ,1
1 min ,
n n
i i i n i n i n ii i k i i k
n
k i k i k ii i k
m m d m min m d
n m m d
1, 1, 1, , , ,1 1,
2
, , ,1
min , ... min ,1
1 2* min ,
n n
i i i n i n i n ii i
n
k i k i k ii
m m d m m d
n m m d
2
2
1*FPD Φ ,Φ 2*
1U C C D k k kC C D
n R R x x xn
2
2
2FPD Φ ,Φ
1 1U C C D k k kC C D
nR R x x x
n n
Ví dụ 3.3. Cho bang quyết định ,DS U C D vơi
1 2 3 4 5 6 1 2 3 4 5 6, u ,u , ,u ,u , ,c ,c ,c ,c ,cU u u C c
Bảng 3.8 Bảng quyết định của Ví dụ 3.3
U c1 c2 c3 c4 c5 c6 D
u1 0.8 0.2 0.6 0.4 1 0 0
u2 0.8 0.2 0 0.6 0.2 0.8 1
u3 0.6 0.4 0.8 0.2 0.6 0.4 0
u4 0 0.4 0.6 0.4 0 1 1
u5 0 0.6 0.6 0.4 0 1 1
u6 0 0.6 0 1 0 1 0
Luân án sử dụng quan hê tương đương mơ aR trên thuôc tính a C như sau:
, 1 ,a i j i j i j
u u a u a u u u UR
vơi ,i ju u U
Từ đó, tính các ma trân tương đương mơ lân lươt:
73
1
1 1 0.8 0.2 0.2 0.2
1 1 0.8 0.2 0.2 0.2
0.8 0.8 1 0.4 0.4 0.4( )
0.2 0.2 0.4 1 1 1
0.2 0.2 0.4 1 1 1
0.2 0.2 0.4 1 1 1
cM R
, 2
( )
1 1
1 1 0.8 0.6 0.6
0.8 0.8 1 1 0.8 0.8
0.8 0.8 1 1 0.8 0.8
0.6 0.6 0.8 0.8 1 1
0.6 0.6 0.8 0.
0.8 0.8 0.6 0.6
0.8
8 1 1
cM R
3
( )
0.4 1 1
0.4 0.2 0.4 0.4 1
0.8
1 0.4 0
1 0.8 0.4
1
0
1.8 1 0.4
.
1 0.4
.
0.8 1 0.4
0.4 1 .
0.8 0 2 1 0 8 0.2
1
0. 142 0.4
cM R
, 4
( )
0.8 1 1
0.8 0.6 0.6
0.8 0.8
1 0.8 0.8 1 0.4
1 0.8 0.8 1 0.4
0.4 0.6 0.2 0
1 0.8 0.4
1 0.8 0.8
0.6 1 0.8 0.2
1
1
.4 40. 1
cM R
5
( ) ,
1 0 0
1
1 0.4
0 1
0.2 0.
0
6 0
0.2 0.6 0.8 0.8 0.8
0.6 0.6 0.4 0.4
0.8 0.4 1 1
0. 1 1
1 1
8 0.4 1
0 0.8 0.4 1
cM R
6
( )
0.2 0.6
0.2 0.6 0.
4
8 0.8
0.6 0.
0
6 0.4
0.
1
8 0.
1 0 0 0
0.8
1 0.4 0.4
14 1 1
0.8 0.
1
0 1 1
1
4 1
00 ..8 10
cM R
0.2 0.6
0.2 0.2 0.2 0.2 0.2
0.6 0.4 0.4 0.2( )
0.4
1 0 0 0
1
0.2
.
1
0 0.2 1 0.4
0 0.
0.8
0.2 0
4
4 0.8 1
0 0.2 0.2 0.4 1
.4
0
CRM
,
0 1 1
0 0 1 1 0
1 0
0
0
0 0 1( )
1
0
0 1
1
1 0
1
1
0
1 0
0
1
1
1
1
0
1 0 0
DRM
Khoang cách mơ giữa hai tâp thuôc tính C và D cua bang quyết định
,DS U C D đươc tính bằng công thức không gia tăng:
21
4.4Φ ,Φ
36
1C C D k k kC C
n
U
iD
FPDn
R R x x x
Tiếp theo, ta tiến hành loai bo 1 đối tương khoi bang quyết định
74
,DS U C D .
Bảng 3.9 Bảng quyết định sau khi loại bỏ 1 đối tượng của Ví dụ 3.3
U c1 c2 c3 c4 c5 c6 D
u1 0.8 0.2 0.6 0.4 1 0 0
u2 0.8 0.2 0 0.6 0.2 0.8 1
u3 0 0.4 0.6 0.4 0 1 1
u4 0 0.6 0.6 0.4 0 1 1
u5 0 0.6 0 1 0 1 0
1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.4
Cac ma trân tương đương mơ khi loai bo 1 đối tương
1
1 1 0.2 0.2 0.2
1 1 0.2 0.2 0.2
( ) 0.2 0.2 1 1 1
0.2 0.2 1 1 1
0.2 0.2 1 1 1
cM R
, 2
1 1 0.8 0.6 0.6
1 1 0.8 0.6 0.6
( ) 0.8 0.8 1 0.8 0.8
0.6 0.6 0.8 1 1
0.6 0.6 0.8 1 1
cM R
3
1 0.4 1 1 0.4
0.4 1 0.4 0.4 1
( ) 1 0.4 1 1 0.4
1 0.4 1 1 0.4
0.4 1 0.4 0.4 1
cM R
, 4
1 0.8 1 1 0.6
0.8 1 1 0.8 0.6
( ) 1 1 1 1 0.4
1 0.8 1 1 0.4
0.6 0.6 0.4 0.4 1
cM R
5
1 0.2 0 0 0
0.2 1 0.8 0.8 0.8
( ) 0 0.8 1 1 1
1 0.8 1 1 1
0 0.8 1 1 1
cM R
, 6
1 1 0.8 0.6 0.6
1 1 0.8 0.6 0.6
( ) 0.8 0.8 1 0.8 0.8
0.6 0.6 0.8 1 1
0.6 0.6 0.8 1 1
cM R
1 0.2 0 0 0
0.2 1 0.2 0.2 0.2
0 0.2 1 0.8 0.4
0 0.2 0.8 1 0.4
0 0.2 0.4 0.4 1
( )CRM
,
1 0 0 0 1
0 1 1 1 0
0 1 1 1 0
0 1 1 1 0
1 0 0 0 1
( )DRM
75
2
2
FPD Φ ,Φ
2FPD Φ ,Φ
1 1
2.4
25
kC C DU x
U C C D k k kC C D
R R
nR R x x x
n n
2)Tính khoảng cách mờ trên toàn bộ bảng quyết định theo công thức không gia
tăng
3
2.4FPD Φ ,Φ
25C C DU u
R R
Như vây, kết qua tính toán khoang cách mơ bởi công thức gia tăng cua Mênh đề
3.4 và công thức không gia tăng khi loai bo 1 đối tương trên toàn bô bang quyết định
la như nhau, điều này chứng minh tính đung đắn cua công thức gia tăng.
3.3.2. Cập nhật khoảng cách mờ khi loại bỏ tập đối tượng
Trên cơ sở Mênh đề 3.4, chúng tôi xây dựng công thức câp nhât khoang cách
mơ trong trương hơp loai bo tâp đối tương bởi Mênh đề 3.5 như sau:
Mệnh đề 3.5. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là một
quan hệ tương đương mờ. Giả sử tập đối tượng gồm s phần tử 1 1, ,...,k k k sU x x x
bị loại khỏi U, s n . Ma trận tương đương mờ và ma trận tương đương trên C và D
tương ứng được xác định bởi
ij ij,U U C U U Dn s n s n s n s
M R m M R d .
Khi đó, công thức cập nhật khoảng cách mờ như sau:
2
1
2 0
FPD Φ ,Φ
2FPD Φ ,Φ
U U C C D
s
U C C D k i k i k i iC C Di
R R
nR R x x x
n s n s
(3.8)
Vơi i , , ,0min ,
i
k i k j k i k j k i k jjm m d
Chứng minh: Ký hiêu 1 2FPD ,FPD ,...,FPDs tương ứng la khoang cach mơ khi
loai bo lân lươt cac đối tương 1 1, ,...,k k k sx x x khoi U va 0FPD là khoang cach mơ trên
tâp đối tương ban đâu U. Áp dụng Mênh đề 3.4, ta có:
76
2
1 0 , , ,2
2FPD FPD min ,
1 1k k k k k k k k kC C D
nx x x m m d
n n
2
2 1
1 1 1 1, 1, 1, 1, 1 1, 1 1, 12
1FPD FPD
2
2min , min ,
2k k k k k k k k k k k k k k kC C D
n
n
x x x m m d m m dn
2
2 0 , , ,2
1 1 1 1, 1, 1, 1, 1 1, 1 1, 1
2FPD FPD min ,
2 2
min , min ,
k k k k k k k k kC C D
k k k k k k k k k k k k k k kC C D
nx x x m m d
n n
x x x m m d m m d
Tính tương tự như vây, ta đươc:
21
0 2 0
, , ,0
2FPD FPD
min ,
k i k i k iC C Ds
s i i
k i k j k i k j k i k jj
x x xn
n s n s m m d
Vì vây,
21
0 2 0
2FPD FPD
s
s k i k i k i iC C Di
nx x x
n s n s
Vơi , , ,0min ,
i
i k i k j k i k j k i k jjm m d
Ví dụ 3.4 Cho bang quyết định ,DS U C D , vơi
1 2 3 4 5 6 1 2 3 4 5 6, u ,u , ,u ,u , ,c ,c ,c ,c ,cU u u C c
Bảng 3. 10 Bảng quyết định của Ví dụ 3.4
U c1 c2 c3 c4 c5 c6 D
u1 0.8 0.2 0.6 0.4 1 0 0
u2 0.8 0.2 0 0.6 0.2 0.8 1
u3 0.6 0.4 0.8 0.2 0.6 0.4 0
u4 0 0.4 0.6 0.4 0 1 1
u5 0 0.6 0.6 0.4 0 1 1
u6 0 0.6 0 1 0 1 0
Luân án sử dụng quan hê tương đương mơ aR trên thuôc tính a C như sau:
, 1 ,a i j i j i j
u u a u a u u u UR vơi ,i ju u U
Từ đó, tính các ma trân tương đương mơ lân lươt:
77
1
1 1 0.8 0.2 0.2 0.2
1 1 0.8 0.2 0.2 0.2
0.8 0.8 1 0.4 0.4 0.4( )
0.2 0.2 0.4 1 1 1
0.2 0.2 0.4 1 1 1
0.2 0.2 0.4 1 1 1
cM R
, 2
( )
1 1
1 1 0.8 0.6 0.6
0.8 0.8 1 1 0.8 0.8
0.8 0.8 1 1 0.8 0.8
0.6 0.6 0.8 0.8 1 1
0.6 0.6 0.8 0.
0.8 0.8 0.6 0.6
0.8
8 1 1
cM R
3
( )
0.4 1 1
0.4 0.2 0.4 0.4 1
0.8
1 0.4 0
1 0.8 0.4
1
0
1.8 1 0.4
.
1 0.4
.
0.8 1 0.4
0.4 1 .
0.8 0 2 1 0 8 0.2
1
0. 142 0.4
cM R
, 4
( )
0.8 1 1
0.8 0.6 0.6
0.8 0.8
1 0.8 0.8 1 0.4
1 0.8 0.8 1 0.4
0.4 0.6 0.2 0
1 0.8 0.4
1 0.8 0.8
0.6 1 0.8 0.2
1
1
.4 40. 1
cM R
5 6
( ) ( )
0.2 0.6 0 0.2 0.6
0.2 0.6 0.8 0.8 0.8 0.2 0.6 0.8 0.8
0.6 0.6 0.4 0.4 0.6 0.6 0.4
0.8 0.4 1 1 0.8 0.4 1 1
0.8 0.4 1 0.8 0.4 1
0 0.8 0.4 1
1 0 0 1 0 0 0
1 1 0.8
1 0.4 1 0.4 0.4
0 1
10 1
0 1
0 1 1 0 1 1
1 1 0 0.8 4. 1
c cM MR R
,
0.2 0.6 0 1 1
0.2 0.2 0.2 0.2 0.2 0 0 1 1 0
0.6 0.4 0.4 0.2 1 0 0 0 1( ) ( )
0.4 0.8 1 0 1
0.2 0.4 1 0 1 0
0.4 1
1 0 0 0 1 0 0
1 1
0.2 1 1
0 0.2 1 0.4 0 1 0
0 0.4 0.8 1 0 1
0 0.2 0. 1 0 11 02 0.4 0
C DR RM M
Khoang cách mơ giữa hai tâp thuôc tính C và D cua bang quyết định
,DS U C D đươc tính bằng công thức không gia tăng:
21
4.4Φ ,Φ
36
1C C D k k kC C
n
U
iD
FPDn
R R x x x
Tiếp theo, ta tiến hành loai bo tâp đối tương 4 5 6, , ,U u u u khoi bang quyết
định ,DS U C D .
78
Bảng 3.11 Bảng quyết định sau khi loại bỏ tập đối tượng của Ví dụ 3.4
U 1c 2c
3c 4c
5c 6c D
1u 0.8 0.2 0.6 0.4 1 0 0
2u 0.8 0.2 0 0.6 0.2 0.8 1
3u 0.6 0.4 0.8 0.2 0.6 0.4 0
1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.5
Ta có các ma trân
1 2 3
1 1 0.8 1 1 0.8 1 0.4 0.8
( ) 1 1 0.8 ( ) 1 1 0.8 ( ) 0.4 1 0.2
0.8 0.8 1 0.8 0.8 1 0.8 0.2 1
c c cM R RM M R
4 5 6
1 0.8 0.8 1 0.2 0.6 1 0.2 0.6
( ) 0.8 1 0.8 ( ) 0.2 1 0.6 ( ) 0.2 1 0.6
0.8 0.8 1 0.6 0.6 1 0.2 0.6 1
c c cM R RM M R
1 0.2 0.6 1 0 1
0.2 1 0.2 0 1 0
0.2 0.2 1 1 0 1
( ) ( )C DR RM M
2
1
2 0
FPD Φ ,Φ
2FPD Φ ,Φ
0.8
9
U U C C D
s
U C C D k i k i k i iC C Di
R R
nR R x x x
n s n s
2)Tính khoảng cách mờ trên toàn bộ bảng quyết định theo công thức không gia
tăng
0.8Φ ,Φ
9CU U C DFP R RD
Như vây, kết qua tính toán khoang cách mơ bởi công thức gia tăng cua Mênh đề
3.5 và công thức không gia tăng khi loai bo tâp đối tương trên toàn bô bang quyết định
la như nhau, điều này chứng minh tính đung đắn cua công thức gia tăng.
3.3.3. Thuật toán fifter-wrapper để cập nhật tập rút gọn khi loại bỏ tập đối tượng
Cho bang quyết định ,DS U C D vơi 1 2, ,..., nU x x x và R la môt quan hê
tương đương mơ. Gia sử tâp đối tương gồm s phân tử 1 1, ,...,k k k sU x x x bị loai
79
khoi U, s n . Ma trân tương đương mơ va ma trân tương đương trên C va D tương
ứng đươc xac định bởi
ij ij,U U C U U Dn s n s n s n s
M R m M R d . Khi đó,
công thức câp nhât khoang cach phân mơ như sau:
Mệnh đề 3.6. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là một
quan hệ tương đương mờ xác định trên miền giá trị của tập thuộc tính điều kiện.
B C là tập rút gọn dựa trên khoảng cách mờ. Giả sử tập đối tượng gồm s phần tử
1 1, ,...,k k k sU x x x bị loại khỏi U , s n . Khi đó ta có:
1) Nếu k iD x d vơi i 0,...,s 1 thì
2
1
2 0
FPD Φ ,Φ
2FPD Φ ,Φ
U U C C D
s
U C C D k i k i k iC C Di
R R
nR R x x x
n s n s
2) Nếu k i k iB Dx x vơi 0,..., 1i s thì .
FPD Φ ,Φ FPD Φ ,ΦU U B B D U U C C DR R R R
Chứng minh. Gia sử
,C B
U U C ij U U B ijn s n s n s n sM R m M R m
tương ứng
là ma trân tương đương mơ trên C và B sau khi loai bo tâp đối tương 𝛥𝑈. Có hai trương
hơp xay ra:
- Nếu k iD x d vơi 0,..., 1i s thì vơi moi 0,..., 1 ; , , 2i s j i s ta có
, 1 1k i k jd . Do đó, , 1 , 1 , 1min ,C C
n i n j n i n j n i n jm d m . Từ Mênh đề 3.5 ta có công thức (1).
- Nếu k i k iB Dx x vơi moi 0, , 1i s thì k i k i k iC B D
x x x . Khi đó ta có
k i k i k iB D Bx x x và k i k i k iC D C
x x x . Do đó, ta có
0k i k i k iB B Dx x x ,
1
00
s
k i k i k iB B Dix x x
và
0k i k i k iC C Dx x x ,
1
00
s
k i k i k iC C Dix x x
. Hơn nữa, vơi
0,..., 1 ; ,..., 2i s j i s , có hai công thức
, 1 , 1 , 1 , 1 , 1 , 1min , , min ,B B C C
k i k j k i k j k i k j k i k j k i k j k i k jm d m m d m .
Từ kết qua cua Mênh đề 3.5, ta có:
80
2
FPD Φ ,Φ FPD Φ ,ΦU U B B D U B B D
nR R R R
n s
(3.9)
2
FPD Φ ,Φ FPD Φ ,ΦU U C C D U C C D
nR R R R
n s
(3.10)
Mặt khac do B la tâp rut gon cua C, ta có
FPD Φ ,Φ FPD Φ ,ΦU B B D U C C DR R R R Từ (3.9) va (3.10) ta có công thức 2).
Dựa trên kết qua cua Mênh đề 3.6, thuât toan filter-wrapper câp nhât tâp rut gon
xâp xỉ có đô chính xac phân lơp tốt nhât sử dụng khoang cach mơ khi loai bo tâp đối
tương U đươc thực hiên như sau:
81
Algorithm IFW_FDAR_DelObj
Input: Đầu vào
1. Bảng quyết định ,DS U C D với 1 2, ,..., nU x x x , một quan
hệ tương đương mờ R , tập rút gọn B C ;
2. Ma trận tương đương mờ
, ,B C
U B ij U C ij U D ij n nn n n nM R m M R m M R d
3. Tập đối tượng gồm s phần tử bị loại bỏ
1 2 1, ,...,k k k sU x x x , s n
Output: Tập rút gọn xấp xỉ bestB của , DS U U C D có độ
chính xác phân lớp cao nhất.
1. :T ;
2. Đặt : ;X U
3. For 0 i to 1s do
4. If k i k iB Dx x then : ;k iX X x
5. If X then Return 0B ;
6. Đặt : ;U X s U ;
7. Tính các FPDs ban đầu:
FPD Φ ,Φ ; FPD Φ ,ΦU B B D U C C DR R R R
8. Tính khoảng cách mờ bởi Mệnh đề 3.6 khi loại tập đối
tượng U :
FPD Φ ,Φ ; FPD Φ ,Φ ;U U B B D U U C C DR R R R
// Giai đoạn Fifter, tìm các ứng viên cho tập rút gọn
9. While FPD Φ ,Φ FPD Φ ,ΦU U B B D U U C C DR R R R do
10. Begin
11. For each a B do
12. Begin
13. Tính FPD Φ ,ΦU U B a B a DR R
bởi Mệnh đề
3.6 khi loại bỏ tập đối tượng U ;
14. Tính
: FPD Φ ,Φ FPD Φ ,ΦU U U U B B DB a B a B a DSIG a R R R R
;
15. End;
16. Chọn ma B sao cho B m B aa B
SIG a Min SIG a
;
17. : mB B a ;
18. 0 0 : mB B a ;
82
19. 0 : ;T T B
20. End;
// Giai đoạn Wrapper tìm tập rút gọn có độ chính xác phân
lớp cao nhất
21. Đặt :t T // 0 1 0 1 2 0 1 2, , ,..., , ,..., tT B a B a a B a a a ;
22. Đặt 1 0 1 2 0 1 2 0 1 2: ; : , ;...; : , ,...,t tT B a T B a a T B a a a ;
23. For j:= 1 to t do
24. Tính độ chính xác phân lớp trên jT bằng một bộ phân
lớp sử dụng phương pháp 10-fold;
25. :best joB T với joT có độ chính xác phân lớp cao nhất;
Return bestB ;
3.3.4. Phân tích độ phức tạp của thuật toán
Đô phức tâp cua thuât toan IFW_FDAR_DelObj đươc tính như bên dươi. Gia
sử D d . Đô phức tap cua vòng lặp trong câu lênh 3 (For) la *O U U .
Trong trương hơp tốt nhât, thuât toan kết thuc ở câu lênh 5 (khi tâp rut gon
không thay đổi). Đô phức tap cua thuât toan IFW_FDAR_DelObj là *O U U .
Ngươc lai, đô phức tap cua thuât toan tính khoang cach mơ ở câu lênh 7 la O U . Để
tính đô phức tap cua thuât toan khi loai bo tâp U ra khoi U ở câu lênh 8, đô phức tap
là *O U U . Để tính gia trị cua BSIG a , ta phai tính
FPD Φ ,ΦU U B a B a dR R
. Đô phức tap cua FPD Φ ,ΦU U B a B a dR R
là *O U U . Do đó, đô phức tap cua vòng lặp While la 2* *O B U U va đô
phức tap cua giai đoan fifter trong trương hơp xâu nhât la 2* *O B U U . Gia sử đô
phức tap cua bô phân lơp la O T khi đó đô phức tap cua giai đoan wrapper la
*O B T .
Tóm lai, đô phức tap cua thuât toan IFW_FDAR_DelObj là
2* * *O B U U O B T . Khi ap dụng thuât toan FW_FDBAR trực tiếp vao bang
quyết định vơi U U đối tương, từ kết qua cua phân 2.4 đô phức tap cua
83
FW_FDBAR là 22*O C U U . Nếu U nho, thuât toan IFW_FDAR_DelObj
tốt hơn thuât toan FW_FDBAR. Nhưng nếu U và B đều lơn, thuât toan
FW_FDBAR tốt hơn thuât toan IFW_FDAR_DelObj.
3.3.5. Thực nghiệm thuật toán
3.3.5.1 Mục tiêu thử nghiệm
Trong phân nay chúng tôi cai đặt thử nghiêm để đanh gia đô chính xac phân
loai cua thuât toan IFW_FDAR_DelObj so vơi cac thuât toan gia tăng dựa trên tâp thô
theo tiếp cân fifter IFSD [36]. IFSD la thuât toan gia tăng rut gon thuôc tính dựa trên
ham phụ thuôc khi loai bo tâp đối tương.
3.3.5.2 Dữ liệu thử nghiệm
Cac thử nghiêm đươc triển khai trên môt số bô dữ liêu mẫu lây từ kho dữ liêu
UCI [59] trong Bảng 3.12. Tât ca dữ liêu mẫu trong Bảng 3.12 la dữ liêu đã đươc rơi
rac, luân an sử dụng quan hê tương đương mơ aR như sau:
1,
0,
i j
a
a x a x
otherwiseR
Vơi ,i jx x U và a C .
Dung bô phân lơp CART để tính toan đô chính xac phân lơp trong giai đoan
wrapper cua thuât toan IFW_FDAR_DelObj. Chúng tôi cũng sử dụng bô phân lơp
CART để tính đô chính xac phân lơp cho cac thuât toan IFW_FDAR_DelObj, IFSD
sau khi rut gon thuôc tính. Đồng thơi sử dụng phương phap kiểm tra chéo 10-fold.
Bảng 3.12 Mô tả dữ liệu khi loại bỏ tập đối tượng
Stt Bộ dữ liệu Số đối tượng Số các thuộc tính
điều kiện Số lớp quyết định
1 Audiology 226 69 24
2 Dermatology 366 34 6
3 Arrhythmia 452 279 16
4 Mfeat-factor 2000 216 10
5 Chess-kr-vs-kp 3196 36 2
6 Satimage 6435 36 6
7 Mushroom 8124 22 2
84
8 Letter 20000 16 26
Để đanh gia hiêu qua về thơi gian thực hiên va đô chính xac cua thuât toan,
chúng tôi chon xóa ngẫu nhiên 10%, 20%, 30%, 40% đối tương trên mỗi bô dữ liêu
khi xóa cac tâp đối tương ký hiêu tương ứng U1, U2, U3, U4. Dữ liêu ban đâu ký hiêu
là U.
3.3.5.3 Kết quả so sánh thời gian thực hiện của thuật toán IFW_FDAR_DelObj với
thuật toán IFSD
Bang 3.13 so sanh kết qua về thơi gian thực hiên cua thuât toan
IFW_FDAR_DelObj vơi thuât toan IFSD, ma cac côt T1, T2 tương ứng la thơi gian
thực hiên cua IFW_FDAR_DelObj, IFSD. Bang 3.12 chỉ ra rằng thơi gian thực hiên
cua thuât toan IFW_FDAR_DelObj cao hơn thuât toan IFSD trên tât ca cac bô dữ liêu
vì thuât toan IFW_FDAR_DelObj cân nhiều thơi gian để xử lý bô phân lơp.
Bảng 3.13 Thời gian thực hiện của thuật toán IFW_FDAR_DelObj và IFSD
(tính bằng giây)
Stt Bộ dữ liệu Tập đối tượng bị loại T1 T2
1 Audiology
U1 1.15 0.98
U2 1.84 1.36
U3 2.26 1.82
U4 2.98 2.24
2 Dermatology
U1 1.18 1.02
U2 2.16 1.84
U3 2.86 2.26
U4 3.12 2.84
3 Arrhythmia
U1 9.98 7.06
U2 13.26 9.84
U3 18.64 12.16
U4 22.36 15.06
4 Mfeat-factor
U1 28.67 23.16
U2 34.16 28.68
U3 39.08 32.36
U4 48.58 38.64
5 Chess-kr-vs-kp
U1 21.06 18.06
U2 28.65 23.08
U3 34.08 29.16
U4 39.89 33.18
6 Statimage
U1 58.29 51.18
U2 74.28 68.24
U3 79.14 72.06
85
0
0,5
1
1,5
2
2,5
3
3,5
U1 U2 U3 U4
Thơ
i gia
n t
hự
c hiê
n
Tâp đối tương bị loai
cua Bô dữ liêu Audiology
IFW_FDAR_DelObj
IFSD
U4 86.68 78.85
7 Mushroom
U1 19.26 16.46
U2 24.76 20.08
U3 30.12 24.58
U4 39.08 32.06
8 Letter
U1 116.78 98.06
U2 128.68 112.87
U3 199.46 178.89
U4 228.69 202.65
86
Hình 3.3 Thời gian thực hiện các thuật toán IFW_FDAR_DelObj và IFSD
3.3.5.4 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập rút gọn
thu được bởi thuật toán IFW_FDAR_DelObj và thuật toán IFSD
Kết qua cua đô chính xac phân lơp thu đươc bởi IFW_FDAR_DelObj và IFSD
đươc trình bay ở Bảng 3.14 vơi B là số lương thuôc tính cua tâp rut gon, Acc la đô
chính xac phân lơp cua tâp rut gon. Theo kết qua trong bang nay, đô chính xac phân
lơp cua thuât toan IFW_FDAR_DelObj cao hơn thuât toan IFSD trên tât ca cac bô dữ
liêu. Hơn nữa, số thuôc tính trong tâp rut gon cua thuât toan IFW_FDAR_DelObj nho
hơn thuât toan IFSD.
Bảng 3.14 Độ chính xác phân lớp của thuật toán IFW_FDAR_DelObj và IFSD
Stt Bộ dữ liệu RO IFW_FDAR_DelObj IFSD
B Acc B Acc
1 Audiology
U1 10 0.729 ± 0.086 15 0.724 ± 0.058
U2 9 0.710 ± 0.032 14 0.692 ± 0.044
U3 8 0.692 ± 0.037 12 0.687 ± 0.064
U4 8 0.691 ± 0.056 12 0.689 ± 0.042
2 Dermatology
U1 7 0.901 ± 0.024 11 0.894 ± 0.038
U2 6 0.931 ± 0.048 10 0.923 ± 0.062
U3 6 0.931 ± 0.022 10 0.923 ± 0.062
U4 5 0.927 ± 0.054 8 0.912 ± 0.028
3 Arrhythmia
U1 15 0.756 ± 0.058 22 0.745 ± 0.086
U2 13 0.723 ± 0.072 21 0.713 ± 0.072
U3 11 0.739 ± 0.064 19 0.722 ± 0.069
U4 11 0.739 ± 0.027 19 0.722 ± 0.034
4 Mfeat-factor U1 12 0.831 ± 0.064 18 0.782 ± 0.052
87
U2 12 0.831 ± 0.086 17 0.815 ± 0.083
U3 10 0.822 ± 0.079 15 0.803 ± 0.092
U4 9 0.803 ± 0.064 14 0.798 ± 0.058
5 Chess-kr-vs-kp
U1 18 0.861 ± 0.064 29 0.848 ± 0.073
U2 16 0.844 ± 0.069 28 0.840 ± 0.058
U3 14 0.838 ± 0.018 27 0.831 ± 0.049
U4 14 0.838 ± 0.026 27 0.831 ± 0.049
6 Statimage
U1 10 0.842 ± 0.046 12 0.837 ± 0.069
U2 10 0.843 ± 0.038 12 0.837 ± 0.074
U3 8 0.820 ± 0.025 11 0.815 ± 0.082
U4 8 0.819 ± 0.048 10 0.804 ± 0.078
7 Mushroom
U1 6 0.987 ± 0.026 6 0.983 ± 0.038
U2 5 0.991 ± 0.059 6 0.983 ± 0.069
U3 4 0.972 ± 0.064 5 0.968 ± 0.026
U4 4 0.972 ± 0.025 5 0.968 ± 0.041
8 Letter
U1 8 0.857 ± 0.047 10 0.842 ± 0.064
U2 8 0.860 ± 0.058 9 0.852 ± 0.073
U3 7 0.835 ± 0.019 8 0.822 ± 0.028
U4 6 0.829 ± 0.026 8 0.822 ± 0.034
88
Hình 3.4 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_DelObj
và IFSD
3.4. Kết luận Chương 3
Trong Chương 3, luân án trình bày kết qua xây dựng các công thức gia tăng tính
khoang cách mơ đề xuât ở Chương 2 trong trương hơp bổ sung, loai bo tâp đối tương.
Dựa vào các công thức gia tăng đươc xây dựng, luân án trình bày kết qua đề xuât cua
hai thuât toan gia tăng tìm tâp rút gon cua bang quyết định theo tiếp cân filter-wrapper:
1) Thuât toan gia tăng filter-wrapper IFW_FDAR_AdObj tìm tâp rút gon trong
trương hơp bổ sung tâp đối tương.
2) Thuât toan gia tăng filter-wrapper IFW_FDAR_DelObj tìm tâp rút gon trong
trương hơp loai bo tâp đối tương.
Các thuât toan gia tăng đề xuât sử dụng đô đo khoang cách mơ nên hiêu qua hơn
các thuât toan gia tăng khac sử dụng quan hê phân biêt giữa các cặp đối tương trong
tâp thô mơ. Kết qua thử nghiêm trên các tâp dữ liêu mẫu từ kho dữ liêu UCI cho
những kết luân quan trong:
89
Số thuôc tính trong tâp rut gon cua thuât toan IFW_FDAR_AdObj nho hơn thuât
toán IV-FS-FRS-2 [54], IARM [18], ASS-IAR [40] và IFSA [36]. Hơn nữa thuât toan
IFW_FDAR_AdObj có đô chính xac phân lơp cao hơn cac thuât toan IV-FS-FRS-2,
IARM, ASS-IAR và IFSA.
Số thuôc tính trong tâp rút gon cua thuât toán IFW_FDAR_DelObj nho hơn thuât
toán IFSD [36] và thuât toán IFW_FDAR_DelObj có đô chính xác phân lơp cao hơn
thuât toán IFSD.
Về thơi gian thực hiên cua các thuât toan gia tăng filter-wrapper rút gon thuôc
tính trong trương hơp bổ sung, loai bo tâp đối tương đề xuât đều cao hơn so vơi các
thuât toan gia tăng filter truyền trống trên tât ca các tâp dữ liêu, nguyên nhân là các
thuât toan gia tăng kết hơp filter-wrapper đều mât thêm chi phí thơi gian thực hiên bô
phân lơp trong giai đoan wrapper, đây cũng la nhươc điểm chung cua các thuât toán
theo tiếp cân filter-wrapper. Tuy nhiên, vơi mục tiêu giam thiểu đô phức tap va tăng
đô chính xác cua tâp luât phân lơp thì chi phí về thơi gian tìm tâp rút gon cua thuât
toan đề xuât là châp nhân đươc.
90
CHƯƠNG 4. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER
TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH
Tiếp nối sự thành công cua thuât toan gia tăng filter-wrapper sử dụng khoang
cách mơ trong chương trươc, Chương 4 cua luân án tiếp tục đề xuât hai thuât toán gia
tăng filter-wrapper sử dụng công thức tính khoang cách mơ rút gon thuôc tính trong
trương hơp bổ sung, loai bo tâp thuôc tính. Dựa trên công thức gia tăng câp nhât
khoang cách mơ đề xuât, chương này xây dựng các thuât toan gia tăng rut gon thuôc
tính cua bang quyết định trong trương hơp bổ sung, loai bo tâp thuôc tính. Thử nghiêm
trên môt số bô dữ liêu cho thây, thuât toán đề xuât hiêu qua hơn thuât toán gia tăng
filter truyền thống theo tiêu chí đanh gia đô chính xác phân lơp dữ liêu và thơi gian
thực hiên cua thuât toán.
4.1. Mở đầu
Trong xu thế dữ liêu lơn (Big data) hiên nay, cac bang quyết định ngày càng có
số thuôc tính rât lơn, ví dụ cac bang dữ liêu trong lĩnh vực tin sinh hoc có hang triêu
thuôc tính. Hơn nữa, cac bang quyết định luôn luôn thay đổi, câp nhât vơi cac tình
huống như bổ sung va loai bo tâp đối tương, bổ sung va loai bo tâp thuôc tính, gia trị
tâp đối tương, tâp thuôc tính thay đổi. Trong đó, trương hơp bổ sung, loai bo tâp thuôc
tính xuât hiên ngay cang phổ biến. Ví dụ bai toan chẩn đoan bênh trong lĩnh vực y tế,
cac triêu chứng lâm sang đươc xem như cac thuôc tính ban đâu để bac sĩ chẩn đoan
bênh. Sau đó, cac chỉ số xét nghiêm đươc xem như cac thuôc tính tiếp theo liên tục
đươc bổ sung, câp nhât nhằm hỗ trơ bac sĩ trong viêc nâng cao đô chính xac chẩn
đoan. Để xây dựng mô hình phân lơp hiêu qua, ta cân giai quyết bai toan rut gon thuôc
tính trên cac bang quyết định kích thươc lơn va thay đổi. Cac phương phap rut gon
thuôc tính theo tiếp cân truyền thống trên cac bang quyết định như vây gặp hai thach
thức. Thứ nhât, vơi cac bang quyết định có kích thươc lơn, viêc thực hiên cac thuât
toan tìm tâp rut gon gặp khó khăn về không gian lưu trữ va tốc đô tính toan. Thứ hai,
vơi cac bang quyết định thay đổi, câp nhât, cac thuât toan nay phai tính toan lai tâp rut
gon trên toan bô bang quyết định sau khi thay đổi, do đó chi phí về thơi gian tính toan
tăng lên đang kể. Để giai quyết hai thach thức trên, cac nha nghiên cứu đề xuât hương
tiếp cân tính toan gia tăng tìm tâp rut gon. Cac thuât toan gia tăng chỉ câp nhât lai tâp
rut gon trên phân dữ liêu bị thay đổi ma không tính lai tâp rut gon trên toan bô bang
91
quyết định ban đâu. Do đó, chung giam thiểu đang kể thơi gian thực hiên. Hơn nữa,
cac thuât toan gia tăng có thể thực hiên đươc trên cac bang quyết định kích thươc lơn
bằng giai phap chia nho bang quyết định thanh nhiều phân, tâp rut gon đươc tính khi
lân lươt bổ sung từng phân.
Hương tiếp cân tính toan gia tăng tìm tâp rut gon cua bang quyết định đã va
đang thu hut sự quan tâm cua cac nha nghiên cứu trong suốt hơn thâp kỷ qua. Theo
tiếp cận lý thuyết tập thô truyền thống cua của Pawlak [19] và các mô hình tập thô mở
rộng, cac nha nghiên cứu đã đề xuât nhiều thuât toan gia tăng tìm tâp rut gon cua bang
quyết định thay đổi. Vơi trương hơp bổ sung, loai bo tâp đối tương, môt số thuât toan
gia tăng đề xuât sử dụng khoang cach [20, 21], hat thông tin [22, 23, 24, 25, 26, 27],
ma trân phân biêt [28, 29, 30, 31, 32], miền dương [33, 34, 35], ham thuôc [36], quan
hê không phân biêt đươc [37], entropy thông tin [38], đô đo không nhât quan [39], lựa
chon mẫu kích hoat [40]. Vơi trương hơp bổ sung, loai bo tâp thuôc tính, môt số thuât
toan gia tăng tìm tâp rut gon đã đươc đề xuât sử dụng miền dương [41], entropy thông
tin [42], ma trân phân biêt [43, 44, 45], quan hê không phân biêt [46, 47], khoang cach
[48], đô phụ thuôc cua thuôc tính [49], hat tri thức [50, 51].
Theo tiếp cận tập thô mờ [1], trong mây năm gân đây môt số thuât toan gia tăng
tìm tâp rut gon cua bang quyết định đã đươc đề xuât vơi cac trương hơp: bổ sung va
loai bo tâp đối tương [52, 53, 54, 55, 56], bổ sung va loai bo tâp thuôc tính [57]. Với
trường hợp bổ sung, loại bỏ tập đối tượng, Liu va cac công sự [52] xây dựng công
thức gia tăng tính đô phụ thuôc mơ va đề xuât thuât toan giăng FIAT tìm tâp rut gon
khi bổ sung tâp đối tương. Yang va cac công sự [53] xây dựng công thức gia tăng tính
quan hê phân biêt, trên cơ sở đó xây dựng thuât toan gia tăng IARM tìm tâp rut gon
khi bổ sung tâp đối tương. Yang va cac công sự [54] xây dựng cơ chế câp nhât quan hê
phân biêt va đề xuât hai thuât toan IV-FS-FRS-1 và IV-FS-FRS-2 tìm tâp rut gon trong
trương hơp bổ sung tâp đối tương. Trong Chương 2 cua luân an nay đã xây dựng công
thức gia tăng tính khoang cach mơ, trên cơ sở đó trong Chương 3 đã đề xuât hai thuât
toan gia tăng filter – wrapper tìm tâp rut gon: thuât toan IFW_FDAR_AdObj trong
trương hơp bổ sung tâp đối tương va thuât toan IFW_FDAR_DelObj trong trương hơp
loai bo tâp đối tương. Zhang va cac công sự [56] đề xuât thuât toan gia tăng AIFWAR
tìm tâp rut gon sử dụng entropy có điều kiên mở rông trong trương hơp bổ sung tâp đối
tương. Ni va cac công sự [57] đưa ra khai niêm tâp đối tương chính (key instance set),
92
trên cơ sở đó xây dựng hai thuât toan gia tăng tìm tâp rut gon dựa trên tâp đối tương
chính trong trương hơp bổ sung tâp đối tương: thuât toan DIAR sử dụng ham thuôc
mơ va thuât toan PIAR sử dụng miền dương mơ. Với trường hợp bổ sung, loại bỏ tập
thuộc tính, cac kết qua nghiên cứu về cac thuât toan gia tăng tìm tâp rut gon theo tiếp
cân tâp thô mơ còn han chế. Zeng va cac công sự [58] xây dựng cac công thức gia
tăng câp nhât đô phụ thuôc mơ trong hê thông tin hỗn hơp (HIS), trên cơ sở đó đề xuât
hai thuât toan gia tăng câp nhât tâp rut gon sử dụng đô phụ thuôc mơ: thuât toan
FRSA-IFS-HIS(AA) trong trương hơp bổ sung tâp thuôc tính va thuât toan FRSA-IFS-
HIS(AD) trong trương hơp loai bo tâp thuôc tính. Kết qua thực nghiêm trong cac công
trình nêu trên cho thây, cac thuât toan gia tăng giam thiểu đang kể thơi gian thực hiên
so vơi cac thuât toan không gia tăng. Do đó, chung có thể thực thi hiêu qua trên cac
bang quyết định có kích thươc lơn va thay đổi, câp nhât. Tuy nhiên, phân lơn cac thuât
toan đề xuât đều theo hương tiếp cân loc (filter) truyền thống. Vơi cach tiếp cân nay,
tâp rut gon tìm đươc la tâp thuôc tính tối thiểu bao toan đô đo đươc xây dựng. Viêc
đanh gia đô chính xac phân lơp đươc thực hiên sau khi tìm đươc tâp rut gon. Do đó,
tâp rut gon thu đươc chưa phai la lựa chon tốt nhât trên hai tiêu chí: số lương thuôc
tính tâp rut gon va đô chính xac phân lơp. Vơi trương hơp bổ sung, loai bo tâp đối
tương nêu trên, cac tac gia trong [55, 56] đã đề xuât cac thuât toan gia tăng tìm tâp rut
gon theo tiếp cân kết hơp filter-wrapper, trong đó giai đoan filter tìm cac ứng viên tâp
rut gon khi bổ sung thuôc tính có đô quan trong lơn nhât, giai đoan wapper tìm tâp rut
gon có đô chính xac phân lơp cao nhât. Cac kết qua thử nghiêm cho thây, tâp rut gon
thu đươc cua cach tiếp cân filter-wrapper giam thiểu số lương thuôc tính va cai thiên
đô chính xac phân lơp so vơi cach tiếp cân filter.
Đồng thơi qua kết qua nghiên cứu Chương 3 cua luân án cho thây sự hiêu qua
cua thuât toán gia tăng filter-wrapper rút gon thuôc tính trong trương hơp bổ sung, loai
bo tâp đối tương sử dụng khoang cách mơ. Vì vây, đông lực nghiên cứu cua chương
nay la tiếp tục ap dụng hương tiếp cân filter-wrapper vao viêc xây dựng cac thuât toan
gia tăng tìm tâp rut gon trong trương hơp bổ sung, loai bo tâp thuôc tính nhằm giam
thiểu số lương thuôc tính tâp rut gon va cai thiên đô chính xac mô hình phân lơp.
Từ những vân đề phân tích nêu trên, trong chương nay, trươc hết luân án trình
bày các công thức gia tăng câp nhât khoang cách mơ (đươc đề xuât ở Chương 2) trong
trương hơp bổ sung, loai bo tâp thuôc tính. Dựa trên các công thức tính toan gia tăng
93
khoang cách mơ đươc xây dựng, luân án trình bày 02 thuât toan gia tăng tìm tâp rút
gon cua bang quyết định theo tiếp cân kết hơp filter-wrapper:
1) Thuât toán gia tăng filter-wrapper IFW_FDAR_AA tìm tâp rút gon trong
trương hơp bổ sung tâp thuôc tính.
2) Thuât toán gia tăng filter-wrapper IFW_FDAR_DA tìm tâp rút gon trong
trương hơp loai bo tâp thuôc tính.
Hai thuât toan đề xuât nêu trên đều theo tiếp cân kết hơp filter-wrapper, hai thuât
toán nêu trên nhằm mục tiêu giam thiểu số thuôc tính tâp rút gon và cai thiên đô chính
xác mô hình phân lơp.
Kết qua nghiên cứu ở chương nay đươc công bố ở công trình số 4, phân “Danh
mục công trình cua tác gia”.
4.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính
4.2.1. Công thức gia tăng cập nhật khoảng cách khi bổ sung tập thuộc tính
Cho bang quyết định ,DS U C D vơi 1 2, ,..., nU x x x khi đó, khoang cách
mơ giữa hai tâp thuôc tính C và D theo Mênh đề 2.3 đươc đề xuât trong Chương 2
đươc xac định như sau:
2 1
1FPD Φ ,Φ
n
C C D i i iC C DiR R x x x
n
Mệnh đề 4.1. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU u u u . Giả sử tập
thuộc tính điều kiện B được bổ sung vào C với B C . Giả sử ij( )B n nM bR
,
ij( )C n nM cR
, ij( )D n n
M dR
là các ma trận tương đương mờ của các quan hệ
tương đương mờ , ,B C DR R R trên B, C, D tương ứng. Khi đó ta có:
1) Nếu ij ijc d
với mọi 1 ,i j n thì , 0FPD C B C B D
2) Nếu
ij ijb c với mọi 1 ,i j n thì
21 1
1, , . min ,
n n
ij ij ij
i j
FPD C B C B D FPD C C D c c dn
3) Nếu ij ijb c với mọi 1 ,i j n thì
94
21 1
1, , . min ,
n n
ij ij ij
i j
FPD C B C B D FPD B B D b b dn
Chứng minh: Khi bổ sung thêm B vào C, theo mục 2.4 cua Chương 2 về khoang cách
mơ đươc xac định như sau:
21
1,
n
i i iC B C B Di
FPD C B C B D u u un
2 21 1 1
1 1. min , min , ,
n n n
i i i i i ij ij ij ij ijC B C B Di i j
u u u u u c b c b dn n
1) Nếu ij ijc d vơi moi 1 ,i j n thì i iC D
u u và i i i i iC B D C Bu u u u u .
Từ đó ta có:
21
1, .
n
i i iC B C B Di
FPD C B C B D u u un
21
1. 0
n
i i i i iC B C B Di
u u u u un
2) Từ ij ijb c ta có i iC B
u u và i i iC B Cu u u vơi moi iu U . Từ đó ta có:
21
1, .
n
i i i i iC B C B Di
FPD C B C B D u u u u un
2 21 1 1
1 1, . min ,
n n n
i i i ij ij ijC C Di i j
u u u FPD C C d c c dn n
3) Từ ij ijb c ta có i iB C
u u và i i iC B Bu u u vơi moi iu U . Từ đó ta có:
21
1, .
n
i i i i iC B C B Di
FPD C B C B D u u u u un
2 21 1 1
1 1, . min ,
n n n
i i i ij ij ijB B Di i j
u u u FPD B B D b b dn n
4.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính
Từ công thức gia tăng tính khoang cach mơ trong Mênh đề 4.1 ta có Mênh đề 4.2
sau đây:
Mệnh đề 4.2. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU u u u và R C là
tập rút gọn dựa trên khoảng cách mờ. Giá sử tập thuộc tính điều kiện B được bổ sung
vào C với B C . Đặt ij( )B n nM bR
, ij( )C n n
M cR
, ij( )D n nM dR
là các ma
95
trận tương đương mờ của các quan hệ tương đương mờ , ,B C DR R R trên B, C, D tương
ứng. Khi đó ta có:
1) Nếu ij ijb c vơi moi 1 ,1i n j n thì R là tập rút gọn của
1 ,DS U C B D .
2) Nếu ij ijb c vơi moi 1 ,1i n j n thì B chứa một tập rút gọn của
1 ,DS U C B D .
Chứng minh:
1) Theo Mênh đề 4.1, nếu ij ijb c vơi 1 ,1i n j n thì
, ,FPD C B C B D FPD C C D . Do R là tâp rút gon cua DS nên
, , ,FPD R R D FPD C C D FPD C B C B D và
, , ,r R FPD R r R r D FPD C C D . Theo Định nghĩa 2.1 cua Chương 2, R
là tâp rút gon cua 1 ,DS U C B D .
2) Cũng theo Mênh đề 4.1, nếu ij ijb c vơi 1 ,1i n j n thì
, ,FPD C B C B D FPD B B D , nghĩa la tồn tai 1B B sao cho 1B thoa mãn
Định nghĩa 1 về tâp rút gon cua 1 ,DS U C B D .
Dựa trên Mênh đề 4.2, đề xuât thuât toan gia tăng filter-wrapper tìm tâp rut gon
trong bang quyết định sử dụng khoang cach mơ khi bổ sung tâp thuôc tính B vào C.
Thuât toan gồm hai giai đoan: giai đoan filter tìm các ứng viên cho tâp rút gon mỗi khi
bổ sung thuôc tính có đô quan trong lơn nhât, giai đoan wapper tìm tâp rút gon có đô
chính xác phân lơp cao nhât. Thuât toan đươc mô ta như sau:
Thuật toán IFW_FDAR_AA (Incremental Filter-Wrapper Fuzzy
Distance-based Attribute Reduction Algorithm when Adding
Attributes).
Đầu vào:
1) Bảng quyết định ,DS U C D với 1 2, ,..., nU u u u , tập
rút gọn R C , các ma trận tương đương mờ ij( )C n nM cR
, ij( )D n nM dR
của các quan hệ tương đương mờ ,C DR R ,
khoảng cách mờ ,FPD C C D ;
96
2) Tập thuộc tính bổ sung B với B C ;
Đầu ra: Tập rút gọn 1R của 1 ,DS U C B D
Bước 1: Khởi tạo và kiểm tra tập thuộc tính bổ sung
1. ; // Chứa các ứng viên tập rút gọn
2. Tính ma trận quan hệ tương đương mờ ij( )Bn n
M R b
;
3. If ij ijb c với mọi 1 ,1i n j n then Return R ;
4. If ij ijb c với mọi 1 ,1i n j n then R ; //Tìm
tập rút gọn trong tập B
Bước 2: Thực hiện thuật toán tìm tập rút gọn
// Giai đoạn filter, tìm các ứng viên cho
tập rút gọn xuất phát từ tập R.
5. While , ,FPD R R D FPD C B C B D do
6. Begin
7. For each a B tính
, ,RSIG a FPD R R D FPD R a R a D với ,FPD R a R a D
được tính bởi công thức trong Mệnh đề 3.7.
8. Chọn ma B sao cho R m R
a BSIG a Max SIG a
;
9.
: mR R a ;
10.
:T T R ;
11. End;
// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân
lớp cao nhất
12. Đặt //t là số phần tử của T, T chứa các
chuỗi thuộc tính được chọn, nghĩa là
1 1 2 1 2
, , ,..., , ,...,ti i i i i iT R a R a a R a a a ;
13. Đặt 1 1 2 1 21 2: ; : , ;...; : , ,...,
ti i i t i i iT R a T R a a T R a a a
14. For j = 1 to t tính độ chính xác phân lớp trên
bằng một bộ phân lớp;
15. 1 : joR T với có độ chính xác phân lớp cao nhất.
:T
:t T
jT
joT
97
Return 1R ;
Tiếp theo, chung tôi đanh gia đô phức tap cua thuât toán IFW_FDAR_AA. Ký
hiêu , ,C U B tương ứng là số thuôc tính điều kiên, số đối tương và số thuôc tính điều
kiên bổ sung thêm. Ở câu lênh 2, đô phức tap tính quan hê tương đương mơ ( )BM R
là
2O B U . Trong trương hơp tốt nhât, thuât toán kết thúc ở câu lênh 3 (tâp rút gon
không thay đổi). Khi đó, đô phức tap thuât toán IFW_FDAR_AA là 2O B U .
Ngươc lai xét vòng lặp While từ câu lênh 5 đến 11, để tính BSIG a ta phai tính
,FPD R a R a D . Đô phức tap tính ,FPD R a R a D là 2
O U . Do đó, đô
phức tap cua vòng lặp While là 2 2O B U va đô phức tap cua giai đoan filter là
2 2O B U . Gia sử đô phức tap cua bô phân lơp là O T , khi đó đô phức tap cua giai
đoan wrapper là *O B T . Vì vây, đô phức tap cua thuât toán IFW_FDAR_AA là
2 2
*O B U O B T . Nếu thực hiên thuât toan không gia tăng filter-wrapper
FW_FDAR trong mục 2.4 cua Chương 2 trực tiếp trên bang quyết định có số thuôc
tính C B , đô phức tap là 2 2* *O C B U O C B T . Do đó, thuât toan gia tăng
IFW_FDAR_AA giam thiểu đang kể đô phức tap thơi gian thực hiên, đặc biêt trong
trương hơp B nho.
4.2.3. Thực nghiệm và đánh giá thuật toán
4.2.3.1. Mục tiêu thực nghiệm
Trong phân này, chúng tôi trình bày kết qua thử nghiêm nhằm đanh gia tính
hiêu qua cua thuât toan gia tăng filter-wrapper đề xuât IFW_FDAR_AA vơi thuât toán
gia tăng filter FRSA-IFS-HIS(AA) trong công trình [58] về số lương thuôc tính tâp rút
gon va đô chính xác cua mô hình phân lơp. FRSA-IFS-HIS(AA) là thuât toan gia tăng
filter tìm tâp rút gon sử dụng đô phụ thuôc mơ trong tâp thô mơ trong trương hơp bổ
sung tâp thuôc tính.
4.2.3.2. Dữ liệu thực nghiệm
98
Viêc thử nghiêm đươc thực hiên trên 06 bô dữ liêu mẫu lây từ kho dữ liêu UCI
[59] đươc mô ta ở Bang 3.14. Trên mỗi tâp dữ liêu, vơi các thuôc tính có miền giá trị
thực, chúng tôi chuẩn hóa miền dữ liêu về đoan [0, 1] sử dụng công thức [9,54]
' min
max min
i
i
a x aa x
a a
vơi max(a), min(a) là giá trị lơn nhât, nho nhât trên miền giá trị thuôc tính a. Chúng tôi
sử dụng quan hê tương đương mơ aR trong [9,54] trên thuôc tính a như sau
, 1a i j i jx x a x a xR
vơi ,i jx x U
Vơi các thuôc tính a C có miền giá trị định danh hoặc nhị phân (nominal hoặc
binary), chúng tôi sử dụng quan hê tương đương aR , vơi ,i jx x U
1,
0,
i j
a
a x a x
otherwiseR
Trên thuôc tính quyết định D d chúng tôi sử dụng quan hê tương đương
dR . Phân hoach
/
d dU R x x U
vơi
( , ) 1dd
x y U R x y là môt lơp
tương đương. Khi đó, lơp tương đương d
x đươc xem là lơp đương đương mơ, ký
hiêu là d
x , vơi hàm thuôc 1d
xy nếu
dy x và 0
dx
y nếu d
y x .
Mỗi tâp thuôc tính đươc chia ngẫu nhiên thành hai phân: tâp thuôc tính ban đâu
(côt 5 Bang 4.1) ký hiêu là C0, và tâp thuôc tính gia tăng (côt 6 Bang 4.1). Tâp thuôc
tính gia tăng đươc chia ngẫu nhiên thành 5 phân bằng nhau, ký hiêu tương ứng là C1,
C2, C3, C4, C5.
Bảng 4.1 Bộ dữ liệu thử nghiệm
STT Tập dữ liệu Số đối
tượng
Số thuộc
tính điều
kiện
Số thuộc
tính ban
đầu
Số thuộc
tính gia
tăng
Số lớp
quyết định
(1) (2) (3) (4) (5) (6) (7)
1 Libras movement
(Libra) 360 90 45 45 15
2
Wisconsin diagnostic
breast cancer
(WDBC)
569 30 15 15 2
99
3 Horse colic (Horse) 368 22 12 10 2
4 Credit approval
(Credit) 690 15 5 10 2
5 German credit data
(German) 1000 20 10 10 2
6 Waveform (Wave) 5000 21 11 10 3
4.2.3.3. Phương pháp, công cụ và môi trường thử nghiệm
Để tiến hành thử nghiêm hai thuât toán IFW_FDAR_AA và FRSA-IFS-
HIS(AA), trươc hết chúng tôi thực hiên hai thuât toán trên tâp dữ liêu vơi tâp thuôc
tính ban đâu (coi tâp thuôc tính ban đâu là tâp gia tăng). Tiếp theo, thực hiên hai thuât
toán khi lân lươt bổ sung từ phân thứ nhât đến phân thứ năm cua tâp thuôc tính gia
tăng. Vơi thuât toan đề xuât theo tiếp cân lai filter-wrapper IFW_FDAR_AA, chúng
tôi sử dụng bô phân lơp CART (cây phân lơp, hồi quy) để tính đô chính xác phân lơp
trong bươc tìm tâp rút gon có đô chính xác tốt nhât. Chúng tôi sử dụng phương phap
kiểm tra chéo 10-fold, nghĩa la bô dữ liêu đươc chia thành 10 phân xâp xỉ bằng nhau,
lây ngẫu nhiên 1 phân làm bô dữ liêu kiểm tra, 9 phân còn lai làm dữ liêu huân luyên.
Qua trình đươc lặp lai 10 lân. Công cụ thực hiên thử nghiêm là Matlab R2016a. Môi
trương thử nghiêm là máy tính PC vơi câu hình Intel(R) Core(TM) i7-3770CPU
@3.40 GHz, sử dụng hê điều hành Windows 7, 32 bit.
4.2.3.4. Kết quả so sánh số lượng thuộc tính của tập rút gọn và độ chính xác phân lớp
của hai thuật toán IFW_FDAR_AA và thuật toán FRSA-IFS-HIS(AA)
Bang 4.2 và Hình 4.1 trình bày kết qua so sánh về số lương thuôc tính tâp rút
gon (ký hiêu là R ) va đô chính xác phân lơp cua hai thuât toán IFW_FDAR_AA và
FRSA-IFS-HIS(AA). Kết qua Bang 4.2 cho thây, vơi mỗi bươc lặp khi bổ sung tâp
thuôc tính gia tăng va trên toan bô thuôc tính, đô chính xác phân lơp cua
IFW_FDAR_AA cao hơn FRSA-IFS-HIS(AA) môt chút trên tât ca các tâp dữ liêu.
Hơn nữa, số thuôc tính tâp rút gon cua IFW_FDAR_AA nho hơn kha nhiều FRSA-
IFS-HIS(AA), đặc biêt trên tâp rút gon có số thuôc tính lơn như Libra. Do đó, thơi
gian thực hiên và tính khái quát hóa cua tâp luât phân lơp trên tâp rút gon cua
IFW_FDAR_AA hiêu qua hơn so vơi FRSA-IFS-HIS(AA).
Bảng 4.2 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của
IFW_FDAR_AA và FRSA-IFS-HIS(AA)
STT Tập dữ liệu
Tập
thuộc
tính
Số
thuộc
tính
Tổng số
thuộc
tính
IFW_FDAR_AA FRSA-IFS-
HIS(AA)
R Độ chính
xác R Độ chính
xác
100
1 Libra
0C 45 45 6 58.45 16 56.94
1C 9 54 7 59.02 21 58.72
2C 9 63 7 59.95 26 59.24
3C 9 72 8 61.48 32 60.98
4C 9 81 9 61.87 38 61.26
5C 9 90 10 62.16 46 61.48
2 WDBC
0C 15 15 3 76.14 5 75.96
1C 3 18 4 79.02 8 78.25
2C 3 21 4 79.02 9 79.82
3C 3 24 5 85.98 12 84.85
4C 3 27 6 93.18 15 89.36
5C 3 30 6 93.18 16 92.86
3 Horse
0C 12 12 6 80.26 8 78.47
1C 2 14 7 82.49 9 81.06
2C 2 16 7 82.49 9 81.06
3C 2 18 8 84.78 10 83.92
4C 2 20 9 85.02 11 84.45
5C 2 22 9 86.75 12 86.26
4 Credit
0C 5 5 3 78.64 4 77.92
1C 2 7 4 81.92 5 80.15
2C 2 9 5 84.26 6 82.39
3C 2 11 5 84.26 6 82.39
4C 2 13 6 86.05 7 84.72
5C 2 15 6 86.05 8 85.96
5 German
0C 10 10 5 72.16 6 70.46
1C 2 12 5 72.16 7 72.02
2C 2 14 6 73.08 8 73.08
3C 2 16 6 73.08 8 73.08
4C 2 18 7 74.28 10 73.92
5C 2 20 7 74.28 11 74.16
101
6 Wave
0C 11 11 4 65.96 9 65.02
1C 2 13 5 68.72 11 67.78
2C 2 15 6 69.08 13 68.25
3C 2 17 6 69.08 14 68.97
4C 2 19 7 70.88 16 70.02
5C 2 21 8 71.49 17 70.85
Hình 4.1.a. Tập dữ liệu Libra
Hình 4.1.b. Tập dữ liệu WDBC
102
Hình 4.1.c. Tập dữ liệu Horse
Hình 4.1.e. Tập dữ liệu Credit
Hình 4.1.f. Tập dữ liệu German
103
Hình 4.1.g. Tập dữ liệu Wave
Hình 4. 1 Độ chính xác phân lớp của các thuật toán IFW_FDAR_AA
và FRSA-IFS-HIS(AA)
4.2.3.5. Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-wrapper
IFW_FDAR_AA và thuật toán FRSA-IFS-HIS(AA)
Bang 4.3 và Hình 4.2 trình bày kết qua so sánh thơi gian thực hiên hai thuât
toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) (tính bằng giây s). Kết qua Bang 4.3
cho thây, thơi gian thực hiên cua IFW_FDAR_AA cao hơn FRSA-IFS-HIS(AA) trên
tât ca các tâp dữ liêu, nguyên nhân là IFW_FDAR_AA mât thêm chi phí thơi gian thực
hiên bô phân lơp trong giai đoan wrapper, đây cũng la nhươc điểm chung cua các thuât
toán theo tiếp cân filter-wrapper. Tuy nhiên, vơi mục tiêu giam thiểu đô phức tap và
tăng đô chính xác cua tâp luât phân lơp thì chi phí về thơi gian tìm tâp rút gon cua
thuât toan đề xuât là châp nhân đươc.
Bảng 4.3 Thời gian thực hiện của IFW_FDAR_AA và FRSA-IFS-HIS(AA)
(Tính bằng s)
STT Tập dữ liệu
Tập
thuộc
tính
Số
thuộc
tính
Tổng
số
thuộ
c
tính
IFW_FDAR_AA FRSA-IFS-
HIS(AA)
Thời
gian
Tổng thời
gian
Thời
gian
Tổng thời
gian
1 Libra
0C 45 45 4.26 4.26 3.68 3.68
1C 9 54 0.42 4.68 0.24 3.92
2C 9 63 0.46 5.14 0.35 4.27
3C 9 72 0.61 5.75 0.27 4.54
4C 9 81 0.57 6.32 0.22 4.76
60
62
64
66
68
70
72
C0 C1 C2 C3 C4 C5
Đô
chín
h x
ac p
hân
lơ
p
Cac tâp thuôc tính cua dữ liêu Wave
IFW_FDAR_AA
104
5C 9 90 0.52 6.84 0.16 4.92
2 WDBC
0C 15 15 2.92 2.92 2.16 2.16
1C 3 18 0.33 3.25 0.28 2.44
2C 3 21 0.34 3.59 0.32 2.76
3C 3 24 0.22 3.81 0.20 2.96
4C 3 27 0.21 4.02 0.18 3.14
5C 3 30 0.24 4.26 0.16 3.30
3 Horse
0C 12 12 1.86 1.86 1.45 1.45
1C 2 14 0.29 2.15 0.17 1.62
2C 2 16 0.19 2.34 0.18 1.80
3C 2 18 0.24 2.59 0.18 1.98
4C 2 20 0.13 2.72 0.17 2.15
5C 2 22 0.22 2.94 0.20 2.35
4 Credit
0C 5 5 2.05 2.05 1.74 1.74
1C 2 7 0.24 2.29 0.18 1.92
2C 2 9 0.29 2.58 0.22 2.14
3C 2 11 0.26 2.84 0.21 2.35
4C 2 13 0.28 3.12 0.20 2.55
5C 2 15 0.22 3.34 0.18 2.73
5 German
0C 10 10 3.08 3.08 2.64 2.64
1C 2 12 0.21 3.29 0.17 2.81
2C 2 14 0.30 3.59 0.17 2.98
3C 2 16 0.32 3.91 0.21 3.19
4C 2 18 0.38 4.29 0.24 3.43
5C 2 20 0.35 4.64 0.26 3.69
6 Wave
0C 11 11 64.56 64.56 56.02 56.02
1C 2 13 8.00 72.56 6.8 62.82
2C 2 15 6.52 79.08 5.62 68.44
3C 2 17 7.17 86.25 6.08 74.52
4C 2 19 5.79 92.04 4.94 79.46
5C 2 21 6.68 98.72 5.18 84.64
105
Hình 4.2 Thời gian thực hiện của thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA)
Tiếp theo, chúng tôi trình bày thuât toán filter-wrapper tìm tâp rút gon sử dụng
khoang cách mơ khi loai bo tâp thuôc tính theo hương tiếp cân tính toan gia tăng.
Trươc hết, chúng tôi xây dựng các công thức câp nhât khoang cách khi loai bo tâp
thuôc tính.
106
4.3. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi loại bỏ tập thuộc tính
4.3.1. Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính
Mệnh đề 4.3. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU u u u . Giá sử tập
thuộc tính điều kiện B được loại bỏ khỏi C với B C và A C B là tập thuộc tính
còn lại. Đặt ij( )B n nM bR
,
ij( )C n n
M cR
, ij( )A n nM aR
, ij( )D n n
M dR
tương ứng là ma trận tương đương mờ của các quan hệ tương đương mờ , , ,B C A DR R R R .
Khi đó ta có:
21 1
1, , min , min ,
n n
ij ij ij ij ij ij
i j
FPD A A d FPD C C d a c c d a dn
Chứng minh: Ta có:
21
1, .
n
i i iA A Di
FPD A A D u u un
2 2 2 21 1 1 1
1 1 1 1. . . .
n n n n
i i i i i i i i iC C D A C C D A Di i i i
u u u u u u u u un n n n
2 2 21 1 1
1 1 1, . . min , . min ,
n n n
ij ij ij ij ij ij
i i i
FPD C C d a c c d a dn n n
21 1
1, min , min ,
n n
ij ij ij ij ij ij
i j
FPD C C d a c c d a dn
4.3.2. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập
thuộc tính
Dựa trên Mênh đề 4.3, thuât toan gia tăng filter-wrapper tìm tâp rut gon trong
bang quyết định sử dụng khoang cach mơ khi loai bo tâp thuôc tính B như sau:
Thuật toán IFW_FDAR_DA (Incremental Filter-Wrapper Fuzzy
Distance-based Attribute Reduction Algorithm when Deleting
Attributes).
Đầu vào:
1) Bảng quyết định ,DS U C D với 1 2, ,..., nU u u u , tập
rút gọn , các ma trận tương đương mờ ij( )C n nM cR
,
ij( )D n nM dR
, khoảng cách mờ ,FPD C C D ;
2) Tập thuộc tính B loại bỏ khỏi C với B C ;
R C
107
Đầu ra: Tập rút gọn 1R của 1 ,DS U C B D ;
1) Trường hợp 1: If B C R then Retturn (R);
2) Trường hợp 2: If R B then thực hiện thuật toán
không gia tăng filter-wrapper tìm tập rút gọn sử
dụng khoảng cách FW_FDBAR trong mục 2.4 của Chương
2.
3) Trường hợp 3: If R B then thực hiện các bước
của thuật toán tìm tập rút gọn.
Bước 1: Khởi tạo
1. Đặt
; :A C B ; // Chứa các ứng viên tập rút
gọn
2.Tính ma trận tương đương mờ ij( )B n nM bR
,
ij( )A n nM aR
3.Đặt :R R B //Xét các thuộc tính trong tập rút gọn
Bước 2: Thực hiện thuật toán tìm tập rút gọn
// Giai đoạn filter, tìm các ứng viên cho tập rút gọn
xuất phát từ tập R.
4. While , ,FPD R R D FPD A A D do
5. Begin
6. For each a R tính
, ,RSIG a D R a R a D D R R D với
,FPD R a R a D được tính bởi công thức trong
3.9;
7. Chọn ma R sao cho R m Ra R
SIG a Min SIG a
;
8. : mR R a ;
9.
;
10. End;
// Giai đoạn Wrapper, tìm tập rút gọn có độ chính xác
phân lớp cao nhất
11. Đặt //t là số phần tử của T, T chứa các
chuỗi thuộc tính được chọn, nghĩa là
1 1 2 1
, , ,..., ,...,ti i i i iT R a R a a R a a ;
12. Đặt 1 1 2 11 2, , ,..., ,...,
ti i i t i iT R a T R a a T R a a
13. For j = 1 to t tính độ chính xác phân lớp
trên bằng một bộ phân lớp;
14. với có độ chính xác phân lớp lớn
nhất.
:T
:T T R
:t T
jT
1 : joR TjoT
108
15. Return ;
Tiếp theo, chung tôi đanh gia đô phức tap cua thuât toán IFW_FDAR_DA. Ký
hiêu tương ứng là số thuôc tính điều kiên, số đối tương và số thuôc tính điều
kiên xóa khoi C.
Trường hợp tốt nhất, thuât toan rơi vao Trường hợp 1, nghĩa la tâp rút gon không
thay đổi.
Trường hợp xấu nhất, thuât toan rơi vao Trường hợp 2, thực hiên lai thuât toán
FW_FDAR tìm tâp rút gon trên bang quyết định sau khi xóa tâp thuôc tính B vơi đô
phức tap là: 2 2* *O C B U O C B T .
Tiếp theo, ta xét đô phức tap trong Trường hợp 3. Xét vòng lặp While từ câu
lênh 4 đến 10, để tính RSIG a ta phai tính ,FPD R a R a D . Đô phức tap tính
,FPD R a R a D là . Do đó, đô phức tap cua vòng lặp While là
2 2*O R B U va đô phức tap cua giai đoan filter là 2 2
*O R B U . Gia sử đô
phức tap cua bô phân lơp là , khi đó đô phức tap cua giai đoan wrapper là
*O R B T . Vì vây, đô phức tap cua thuât toán IFW_FDAR_DA là
2 2* *O R B U O R B T . Nếu thực hiên thuât toan không gia tăng filter-
wrapper FW_FDBAR trực tiếp trên bang quyết định có số thuôc tính C B , đô phức
tap là 2 2* *O C B U O C B T . Do đó, vơi Trường hợp 3 thì thuât toán
IFW_FDAR_DA hiêu qua. Nếu R càng nho thì thuât toán IFW_FDAR_DA càng hiêu
qua. Nếu thuât toan rơi vao Trường hợp 2 (tính lai tâp rút gon) thì đô phức tap thuât
toán IFW_FDAR_DA tương đương thuât toán FW_FDBAR .
4.4. Kết luận Chương 4
Trong Chương 4, luân án trình bày kết qua xây dựng các công thức gia tăng tính
khoang cách mơ đề xuât ở Chương 2 trong trương hơp bổ sung, loai bo tâp thuôc tính.
Dựa vào các công thức gia tăng đươc xây dựng, luân án trình bày kết qua đề xuât hai
thuât toan gia tăng tìm tâp rút gon cua bang quyết định theo tiếp cân filter-wrapper:
1R
, ,C U B
2O U
O T
109
1)Thuât toan gia tăng filter-wrapper IFW_FDAR_AA tìm tâp rút gon trong
trương hơp bổ sung tâp thuôc tính.
2)Thuât toan gia tăng filter-wrapper IFW_FDAR_DA tìm tâp rút gon trong
trương hơp loai bo tâp thuôc tính.
Các thuât toan gia tăng đề xuât sử dụng đô đo khoang cách mơ nên hiêu qua hơn
các thuât toan gia tăng khac sử dụng quan hê phân biêt giữa các cặp đối tương trong
tâp thô mơ. Kết qua thử nghiêm trên các tâp dữ liêu mẫu từ kho dữ liêu UCI cho
những kết luân quan trong:
Đô chính xác phân lơp cua thuât toán IFW_FDAR_AA cao hơn thuât toán
FRSA-IFS-HIS(AA) trên tât ca các tâp dữ liêu. Hơn nữa, số thuôc tính tâp rút gon cua
IFW_FDAR_AA nho hơn kha nhiều FRSA-IFS-HIS(AA), đặc biêt trên tâp rút gon có
số thuôc tính lơn như Libra.
Về thơi gian thực hiên cua các thuât toan gia tăng filter-wrapper đề xuât đều cao
hơn so vơi các thuât toan gia tăng filter truyền trống trên tât ca các tâp dữ liêu, nguyên
nhân là các thuât toán gia tăng kết hơp filter-wrapper đều mât thêm chi phí thơi gian
thực hiên bô phân lơp trong giai đoan wrapper, đây cũng la nhươc điểm chung cua các
thuât toán theo tiếp cân filter-wrapper. Tuy nhiên, vơi mục tiêu giam thiểu đô phức tap
va tăng đô chính xác cua tâp luât phân lơp thì chi phí về thơi gian tìm tâp rút gon cua
thuât toan đề xuât là châp nhân đươc.
110
KẾT LUẬN
1. Các kết quả đạt được của luận án
Luân án nghiên cứu hương tiếp cân kết hơp filter-wrapper tìm tâp rút gon cua bang
quyết định nhằm giam thiểu số lương thuôc tính tâp rút gon, từ đó giam thiểu đô phức tap
cua mô hình phân lơp va nâng cao đô chính xác cua mô hình phân lơp. Kết qua chính cua
luân án bao gồm:
(1) Đề xuât hai thuât toan gia tăng filter-wrapper tìm tâp rút gon cua bang quyết
định thay đổi trong trương hơp bổ sung, loai bo tâp đối tương. Đóng góp nay đươc
trình bày ở Chương 3 cua luân án.
(2) Đề xuât hai thuât toan gia tăng filter-wrapper tìm tâp rút gon cua bang quyết
định thay đổi trong trương hơp bổ sung, loai bo tâp thuôc tính. Đóng góp nay đươc
trình bày ở Chương 4 cua luân án.
2. Định hướng phát triển
(1) Triển khai các thuât toan đề xuât vào viêc giai quyết các lơp bài toán trong
thực tiễn, đặc biêt các bài toán có dữ liêu vơi số thuôc tính lơn (high dimention data)
trong cac lĩnh vực khac nhau như dữ liêu gen trong tin sinh hoc…
(2) Tiếp tục nghiên cứu, đề xuât các thuât toan gia tăng filter-wrapper hiêu qua
nhằm giam thiểu thơi gian thực hiên dựa trên các mô hình tâp thô mở rông khác phù
hơp vơi các lơp bài toán trong thực tiễn.
111
DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ
STT TÊN BÀI BÁO
1 Nguyen Long Giang, Le Hoang Son, Tran Thi Ngan, Tran Manh Tuan, Ho
Thi Phuong, Mohamed Abdel-Basset, Antônio Roberto L. de Macêdo,
VictorHugo C. de Albuquerque, “Novel Incremental Algorithms for
Attribute Reduction from DynamicDecision Tables using Hybrid Filter–
Wrapper with Fuzzy Partition Distance”, IEEE Transactions on Fuzzy
Systems, Volume 28, Issue 5, pp. 858-873, 2020 (SCIE, Q1, IF = 9.518).
2 Hồ Thị Phương, Cao Chính Nghĩa, Nguyễn Long Giang, Nguyễn Ngoc
Cương, “Về môt thuât toán filter-wrapper tìm tâp rút gon cua bang quyết
định sử dụng khoang cách mơ”, Kỷ yếu Hội thảo Quốc gia lần thứ XXII -
Một số vấn đề chọn lọc của CNTT và TT, Thái Bình, 28-29/6/2019, Tr. 333-
339.
3 Hồ Thị Phương, Cao Chính Nghĩa, Nguyễn Long Giang, “Về thuât toán gia
tăng filter-wrapper tìm tâp rút gon cua bang quyết định sử dụng khoang cách
mơ”, Kỷ yếu Hội thảo Quốc gia lần thứ XXII - Một số vấn đề chọn lọc của
CNTT và TT, Quảng Ninh, 5-6/11/2020, Tr. 483-490.
4 Ho Thi Phuong, Nguyen Long Giang, “fuzzy distance-based filter-wrapper
incremental algorithms for attribute reduction when adding or deleting
attribute set”, Vietnam Journal of Science and Technology - Vietnam
Academy of Science and Technology. Accepted (06/01/2021)
112
TÀI LIỆU THAM KHẢO
[1] D. Dübois, H. Prade, “Rough fuzzy sets and fuzzy rough sets”, International
Journal of General Systems 17, pp.191-209, 1990.
[2] Anoop Kumar Tiwari, Shivam Shreevastava, Tanmoy Som, K.K. Shukla,
“Tolerance-based intuitionistic fuzzy-rough set approach for attribute
reduction”, Expert Systems With Applications 101, pp. 205–212, 2018.
[3] Z. Wang, Y.L. Qi, M.W. Shao, Q.H. Hu, D.G. Chen, Y.H. Qian, Y.J. Lin, “A
Fitting Model for Feature Selection with Fuzzy Rough Sets”, IEEE
Transactions on Fuzzy Systems, Volume: 25, Issue: 4, pp. 741-753, 2017.
[4] Zhang, C.L. Mei, D.G. Chen, Y.Y. Yang, “A fuzzy rough set-based feature
selection method using representative instances”, Knowledge-Based Systems,
Vol. 151, pp. 216-229, 2018.
[5] T.K. Sheeja, A. Sunny Kuriakose, “A novel feature selection method using
fuzzy rough sets”, Computers in Industry 97, pp. 111- 116, 2018.
[6] Y. Lin, Y. Li, C. Wang, J. Chen, “Attribute reduction for multi-label learning
with fuzzy rough set”, Knowl.-Based Syst. 152, pp. 51-61, 2018.
[7] J.H. Dai, Y.J. Yan, Z.W. Li, B.S. Liao, “Dominance-based fuzzy rough set
approach for incomplete interval-valued data”, Journal of Intelligent & Fuzzy
Systems 34, pp. 423-436, 2018.
[8] Q.H. Hu, D.R. Yu, Z.X. Xie, “Information-preserving hybrid data reduction
based on fuzzy-rough techniques”, Pattern Recognit. Lett. 27(5), pp. 414-423,
2016.
[9] X. Zhang, C.L. Mei, D. G. Chen, J. Li, “Feature selection in mixed data: A
method using a novel fuzzy rough set-based information entropy”, Pattern
Recognition 56, pp. 1-15, 2016.
[10] C.Z. Wang, Y.Huang, M.W. Shao, X.D.Fan, “Fuzzy rough setbased attribute
reduction using distance measures”, Knowledge-Based Systems, Vol. 164,
2019, pp. 205-212.
113
[11] C.Z. Wang, Y. Qi, Q. He, “Attribute reduction using distancebased fuzzy rough
sets”, International Conference on Machine Learning and Cybernetics, IEEE,
2015.
[12] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi,
“About a fuzzy distance between two fuzzy partitions and attribute reduction
problem”, Cybernetics and Information Technologies, Vol 16, No 4, pp. 13-28,
2016
[13] J.H. Dai, H. Hu, W.Z. Wu,Y.H. Qian, D.B. Huang, “Maximal Discernibility
Pairs Based Approach to Attribute Reduction in Fuzzy Rough Sets”, IEEE
Transactions on Fuzzy Systems, Vol. 26, Issue 4, pp. 2174-2187, 2018.
[14] J.H. Dai, Q.H. Hu, H. Hu, D.B.Huang, “Neighbor inconsistent pair selection for
attribute reduction by rough set approach”. IEEE Transactions on Fuzzy
Systems, Vol. 26, Issue 2, pp. 937-950, 2017.
[15] L.J.Ping, Z. W. Xia, T.Z. Hui, X.Y. Fang, M. T. Yu, Z.J. Jing, Z. G. Yong, J. P.
Niyoyita, “learning with fuzzy rough set-based attribute selection”, Expert
Systems with Applications, Vol. 139, pp. 1- 17, 2020.
[16] W.P. Ding, C.T. Lin, Z.H. Cao, “Deep neuro-cognitive coevolution for fuzzy
attribute reduction by quantum leaping PSO with nearest-neighbor
memeplexes”, IEEE Transactions on Cybernetics, 49(7):2744-2757, 2019
[17] X.M. Liu, C. Shen, W. Wang, X.H. Guan, “CoEvil: A Coevolutionary Model
for Crime Inference Based on Fuzzy Rough Feature Selection”, IEEE
Transactions on Fuzzy Systems, Early Access, 2019.
[18] Y.J. Lin, Q.H. Hu, J.H. Liu, J.J. Li, X.D. Wu, “Streaming feature selection for
multi-label learning based on fuzzy mutual information”, IEEE Transactions on
Fuzzy Systems, Vol. 25, Issue 6, pp. 1491-1507, 2017.
[19] Z. Pawlak, Rough sets: Theoretical Aspects of Reasoning about Data, Kluwer
Academic Publisher, London, 1991.
[20] Demetrovics, J., Thi, V.D., & Giang, N.L. (2014). Metric Based Attribute
Reduction in Dynamic Decision systems. Annales Univ. Sci. Budapest., Sect.
Comp, Vol. 42, 157-172.
114
[21] Huong, N. T. L., &Giang, N. L. (2016). Incremental algorithms based on metric
for finding reduct in dynamic decision systems. Journal on Research and
Development on Information & Communications Technology, Vol.E-3, No.9,
26-39.
[22] Y.G. Jing, T.R. Li, J.F. Huang, H.M. Chen, S.J. Horng, “A Group Incremental
Reduction Algorithm with Varying Data Values”, International Journal of
Intelligent Systems 32(9), pp. 900-925, 2017.
[23] Y.G. Jing, T.R. Li, H. Fujita, Z. Yu, B. Wang, “An incremental attribute
reduction approach based on knowledge granularity with a multi-granulation
view”, Information Sciences 411, pp. 23-38, 2017.
[24] Zhang, C., Dai, J. & Chen, J. (2020). Knowledge granularity based incremental
attribute reduction for incomplete decision systems. International Journal of
Machine Learning and Cybernetics. https://doi.org/10.1007/s13042-020-01089-4.
[25] Cai, M.J., Lang, G.M., Hamido, F., Li, Z.Y., &Yang, T. (2019). Incremental
approaches to updating reducts under dynamic covering granularity.
Knowledge-Based Systems 172, 130-140.
[26] Zhang, C., &Dai, J. (2019). An incremental attribute reduction approach based
on knowledge granularity for incomplete decision systems. Granular
Computing, 1-15.
[27] Zhang, C., Dai, J. &Chen, J. (2020). Knowledge granularity based incremental
attribute reduction for incomplete decision systems. International Journal of
Machine Learning and Cybernetics. https://doi.org/10.1007/s13042-020-01089-4.
[28] W. Wei, X.Y. Wu, J.Y. Liang, J.B. Cui, Y.J. Sun, “Discernibility matrix based
incremental attribute reduction for dynamic data”, Knowledge-Based Systems,
Vol. 140, pp. 142-157, 2018.
[29] G. Lang, Q. Li, M. Cai, T. Yang, Q. Xiao, “Incremental approaches to
knowledg reduction based on characteristic matrices”, Int. J. Mach. Learn.
Cybern. 8 (1) pp. 203-222, 2017.
115
[30] Ma, F.M., Ding, M.W., Zhang, T.F., &Cao, J. (2019). Compressed binary
discernibility matrix based incremental attribute reduction algorithm for group
dynamic data. Neurocomputing, Vol. 344, No. 7, 20-27.
[31] Yang, C.J., Ge, H., Li, L.S., &Ding, J. (2019). A unified incremental reduction
with the variations of the object for decision tables. Soft Computing 23, 6407-
6427.
[32] Liu, Y., Zheng, L.D., Xiu, Y.L., Yin, H., Zhao, S.Y., Wang, X.H., Chen, H., &Li,
C.P. (2020). Discernibility matrix based incremental feature selection on fused
decision tables. International Journal of Approximate Reasoning 118, 1-26.
[33] Das, A. K., Sengupta, S., & Bhattacharyya, S. (2018). A group incremental
feature selection for classification using rough set theory based genetic
algorithm. Applied Soft Computing, 65, 400-411.
[34] Lang, G., Cai, M., Fujita, H., &Xiao, Q. (2018). Related families-based
attribute reduction of dynamic covering decision information
systems. Knowledge-Based Systems, 162, 161-173.
[35] Hao, G., Longshu, L., Chuanjian, Y., &Jian, D. (2019). Incremental reduction
algorithm with acceleration strategy based on conflict region. Artificial
Intelligence Review, 51(4), 507-536.
[36] Shua, W.H., Qian, W.B., &Xie, Y.H. (2019). Incremental approaches for
feature selection from dynamic data with the variation of multiple objects.
Knowledge-Based Systems, Vol. 163, 320-331.
[37] Nandhini, N., &Thangadurai, K. (2019). An incremental rough set approach for
faster attribute reduction, International Journal of Information Technology.
https://doi.org/10.1007/s41870-019-00326-6.
[38] Shu, W.H., Qian, W., &Xie, Y. (2020). Incremental feature selection for
dynamic hybrid data using neighborhood rough set. Knowledge-Based Systems
194, 105516.
[39] Xie, X., &Qin, X. (2018). A novel incremental attribute reduction approach for
dynamic incomplete decision systems. International Journal of Approximate
Reasoning, 93, 443-462.
116
[40] Y.Y. Yang, D.G. Chen, H. Wang, “Active Sample Selection Based Incremental
Algorithm for Attribute Reduction With Rough Sets”, IEEE Transactions on
Fuzzy Systems, Vol. 25, Issue 4, pp. 825- 838, 2017.
[41] W.H. Shu, H. Shen, “Updating attribute reduction in incomplete decision
systems with the variation of attribute set”, International Journal of
Approximate Reasoning, vol. 55, no.3, pp. 867-884, 2014.
[42] F. Wang, J.Y. Liang, Y.H. Qian, “Attribute reduction: A dimension incremental
strategy”, Knowledge-Based Systems, Volume 39, pp. 95-108, 2013.
[43] M.J. Cai, Q.G. Li, J.M. Ma, “Knowledge reduction of dynamic covering
decision information systems caused by variations of attribute values”,
International Journal of Machine Learning and Cybernetics 8(4), pp. 1131-
1144, 2017.
[44] Ma, F.M., Ding, M.W., Zhang, T.F., &Cao, J. (2019). Compressed binary
discernibility matrix based incremental attribute reduction algorithm for group
dynamic data. Neurocomputing, Vol. 344, No. 7, 20-27.
[45] Wei, W., Song, P., Liang, J.Y., &Wu, X.Y. (2019). Accelerating incremental
attribute reduction algorithm by compacting a decision system. International
Journal of Machine Learning and Cybernetics 10, 2355-2373.
[46] Nandhini, N., &Thangadurai, K. (2019). An incremental rough set approach for
faster attribute reduction, International Journal of Information Technology.
https://doi.org/10.1007/s41870-019-00326-6.
[47] Chen, D.G., Dong, L.J., &Mi, J.H. (2020). Incremental mechanism of attribute
reduction based on discernible relations for dynamically increasing attribute.
Soft Computing 24, 321-332.
[48] Demetrovics Janos, Nguyen Thi Lan Huong, Vu Duc Thi, Nguyen Long Giang,
“Metric Based Attribute Reduction Method in Dynamic Decision Tables”,
Cybernetics and Information Technologies, Vol.16, No.2, pp. 3-15, 2016.
[49] M.S. Raza,U. Qamar, “An incremental dependency calculation technique for
feature selection using rough sets”, Information Sciences 343–344, pp. 41–65,
2016.
117
[50] Y. Jing, T. Li, J. Huang, et al., “An incremental attribute reduction approach
based on knowledge granularity under the attribute generalization”, Int. J.
Approx. Reason. 76, pp.80-95, 2016.
[51] Y.G. Jing, T.R. Li, H. Fujita, B.L. Wang, N. Cheng, “An incremental attribute
reduction method for dynamic data mining”, Information Sciences 465, pp. 202-
218, 2018.
[52] Y.M. Liu, S.Y. Zhao, H. Chen, C.P. Li, Y.M. Lu, “Fuzzy Rough Incremental
Attribute Reduction Applying Dependency Measures”, APWeb-WAIM 2017:
Web and Big Data, pp 484-492, 2017.
[53] Y.Y. Yang, D.G. Chen, H. Wang, Eric C.C.Tsang, D.L. Zhang, “Fuzzy rough
set based incremental attribute reduction from dynamic data with sample
arriving”, Fuzzy Sets and Systems, Volume 312, pp. 66-86, 2017
[54] Y.Y. Yang, D.G. Chen, H. Wang, X.H. Wang, “Incremental perspective for
feature selection based on fuzzy rough sets”, IEEE Transactions on Fuzzy
Systems, Vol. 26, Issue 3, pp. 1257-1273, 2017.
[55] Vu Van Dinh, Vu Duc Thi, Ngo Quoc Tao, Nguyen Long Giang, “Partition
Distance Based Attribute Reduction in Incomplete Decision Tables”, Journal on
Information Communications Technology, Research and Development on
Information & Communications Technology, Vol. V-2, No. 14(34), pp. 23-32,
12-2015.
[56] Zhang, X., Mei, C.L., Chen, D.G., Yang, Y.Y., &Li, J.H. (2020). Active
Incremental Feature Selection Using a Fuzzy-Rough-Set-Based Information
Entropy. IEEE Transactions on Fuzzy Systems, Volume 28, Issue 5, 901-915.
[57] Ni, P., Zhao, S.Y., Wang, X.H., Chen, H., Li, C.P., Tsang, E.C.C (2020).
Incremental Feature Selection Based on Fuzzy Rough Sets. Information
Sciences.
[58] A.P. Zeng, T.R. Li, D. Liu, J.B. Zhang, H.M. Chen, “A fuzzy rough set
approach for incremental feature selection on hybrid information systems”,
Fuzzy Sets and Systems, Vol. 258, pp. 39-60, 2015.
118
[59] The UCI machine learning repository, http://archive.ics.uci.edu/ml/
datasets.html. https://sourceforge.net/projects/weka/
[60] Jensen, R., and Q. Shen, Q.(2008), Computational Intelligence and Feature
Selection, Rough and Fuzzy Approaches, Aberystwyth University, IEEE
Computational Intelligence Society, Sponsor.
[61] N. Long, D. Gianola, K.A. Weigel, “Dimension reduction and variable selection
for genomic selection : application to predicting milk yield in Holsteins”, Journal
of Animal Breeding and Genetics. 128 (4), pp. 247–257, 2011.
[62] J. Zhang, T. Li, D. Ruan, “Rough sets based matrix approaches with dynamic
attribute variation in set-valued information systems”, Int. J. Approx. Reason,
Vol.53, pp. 620-635, 2012
[63] Q.H. Hu, Z.X. Xie, D.R. Yu, “Hybrid attribute reduction based on a novel
fuzzy-rough model and information granulation”, Pattern Recognition 40, pp.
3509-3521, 2007.
[64] Y.H. Qian., J.Y. Liang, W.Z. Wu, C.Y. Dang, “Information Granularity in
Fuzzy Binary GrC Model”, IEEE Trans. Fuzzy Syst. 19, No 2, pp. 253-264,
2011.
[65] J.Y. Liang, R. Li, Y. H. Qian, “Distance: A more comprehensible perspective
for measures in rough set theory”, Knowledge-Based Systems, Volume 27, pp.
126-136, 2012.
[66] Nguyễn Long Giang, Nguyễn Thanh Tung, Vũ Đức Thi, Môt phương phap mơi
rút gon thuôc tính trong bang quyết định không đây đu sử dụng metric, Tạp chí
Tin học và Điều khiển học, T.28, S.2, 2012, tr. 129-140.
[67] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”,
Federated Conference on Computer Science and Information System
(FEDCSIS), Wroclaw, Poland, IEEE, pp. 311-316, 2012.
[68] Nguyen Thi Lan Huong, Nguyen Long Giang, “Incremental algorithms based
on metric for finding reduct in dynamic decision tables”, Journal on Research
and Development on Information & Communications Technology, Vol.E-3,
No.9 (13), pp. 26-39, 2016.
119
[69] Nguyen Long Giang, Nguyen Thi Lan Huong, Metric Based Attribute
Reduction in Incomplete Information Systems, Kỷ yếu Hội thảo Quốc gia lần
thứ XV “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”, Hà
Nôi 11/2012, 2013, Tr. 185-190.
[70] Vũ Văn Định, Vũ Đức Thi, Ngô Quốc Tao, Nguyễn Long Giang, Phương pháp
rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách
phân hoạch, Các công trình nghiên cứu, phát triển và ứng dụng CNTT&TT,
Tap chí CNTT&TT, Tâp V-2, số 14(34), 12-2015, Trang 23-32.
[71] Demetrovics Janos, Vu Duc Thi, Nguyen Long Giang, “A Distance-based
Method for Attribute Reduction in Incomplete Decision Systems”, Serdica
Journal of Computing 7, No 4, pp. 355-374, 2013.
[72] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in
Incomplete Decision Tables”, Proceedings of 14th International Conference,
Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC
2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink,
Vol. 8170, pp. 99-110, 2013.
[73] Nguyễn Long Giang, Cao Chính Nghĩa, Nguyễn Quang Huy, Nguyễn Thị Lan
Hương, Nguyễn Ngoc Cương, Trân Anh Tú, Về một độ đo khoảng cách mờ và
ứng dụng rút gọn thuộc tính trong bảng quyết định, Kỷ yếu Hôi thao Quốc gia
lân thứ XX - Môt số vân đề chon loc cua CNTT va TT, Quy Nhơn, 23-
24/11/2017, Tr. 404-409.
[74] Cao Chinh Nghia, Vu Duc Thi, Nguyen Long Giang, Tan Hanh, “Fuzzy distance
based attribute reduction in decision tables”, Journal on Information
Communications Technology, Research and Development on Information &
Communications Technology, Vietnam, Vol. V-2, No. 16 (36), pp. 104-111, 2016.
[75] Qian, Y., Li, Y., Liang, J., Lin, G., and Dang, C. (2015), Fuzzy granular
structure distance, IEEE Transactions on Fuzzy Systems, 23(6), pp. 2245-2259.
[76] Nguyễn Long Giang (2012), Nghiên cứu môt số phương phap khai pha dữ liêu
theo tiếp cân lý thuyết tâp thô, Luân án Tiến sĩ Toan hoc, Viên Công nghê
thông tin.
120
[77] Qian, Y., Wang, Q., Cheng, H., Liang, J., and Dang, C. (2015), Fuzzy-rough
feature selection accelerator, Fuzzy Sets and Systems, 258, pp. 61-78.
[78] J.H. Dai, Q. Xu, “Attribute selection based on information gain ratio in fuzzy
rough set theory with application to tumor classification”, Applied Soft
Computing 13, pp. 211-221, 2013.
[79] Q.H. Hu, D.R. Yu, Z.X. Xie, J. F. Liu, “Fuzzy probabilistic approximation
spaces and their information measures”, IEEE Transaction on Fuzzy Systems,
vol. 14, no. 2, pp. 191-201, 2006.
[80] Pradipta Maji, Partha Garai, “On fuzzy-rough attribute selection: Criteria of
Max-Dependency, Max-Relevance, Min-Redundancy, and Max-Significance”,
Applied Soft Computing 13, pp. 3968-3980, 2013.
[81] Q. Shen, R. Jensen, “Selecting informative features with fuzzy-rough sets and
its application for complex systems monitoring”, Pattern Recognition 37, pp.
1351 – 1363, 2004.
[82] Nguyễn Thị Lan Hương, “Rut gon thuôc tính trong bang quyết định đông theo
tiếp cân tâp thô”, Luân án Tiến sĩ Toan hoc, Viên Công nghê thông tin, 2017.
[83] Vũ Văn Định, “Rut gon thuôc tính trong bang quyết định không đây đu theo tiếp
cân tâp thô dung sai”, Luân án Tiến sĩ Toan hoc, Viên Công nghê thông tin, 2016.
[84] A.P. Zeng , T.R. Li, J. Hu, H.M. Chen, Chuan Luo, “Dynamical updating fuzzy
rough approximations for hybrid data under the variation of attribute values”,
Information Sciences 000, pp. 1-26, 2016.
[85] Nguyễn Văn Thiên, “Môt số phương phap kết hơp trong rút gon thuôc tính theo
tiếp cân tâp thô mơ”, Luân án Tiến sĩ May tính, Hoc viên Khoa hoc và Công
nghê, 2018
[86] C. Luo, T. R. Li and H. M. Chen, “Dynamic maintenance of approximations in
setvalued ordered decision systems under the attribute generalization”,
Information Sciences 257, pp. 210 - 228, 2014.
[87] C. Luo, T.R. Li, H.M. Chen, H. Fujita, Z. Yi, “Efficient updating of
probabilistic approximations with incremental objects”, Knowledge-Based
Systems 109, pp. 71-83, 2017.
121
[88] C. Luo, T.R. Li, Y. Yao, “Dynamic probabilistic rough sets with incomplete
data”, Information Sciences 417, pp. 39–54, 2017.
[89] C. Luo, T.R. Li, Y.Y. Huang, H. Fujita, “Updating three-way decisions in
incomplete multi-scale information systems”, Information Sciences 476, pp.
274-289, 2019.
[90] C.X. Hu, S.X. Liu, G.X. Liu, “Matrix-based approaches for dynamic updating
approximations in multigranulation rough sets”, Knowl Based Syst 122, pp. 51-
63, 2017.
[91] C.Z. Wang, Y. Qi, Q. He, Attribute reduction using distance-based fuzzy rough
sets, 2015 International Conference on Machine Learning and Cybernetics ,
IEEE, 2015.
[92] C.Z. Wang, Y.Huang, M.W. Shao, X.D.Fan, Fuzzy rough set-based attribute
reduction using distance measures, Knowledge-Based Systems, Volume 164, 15
January 2019, pp. 205-212.
[93] D.G. Chen, Y. Yang, Z. Dong, “An incremental algorithm for attribute
reduction with variable precision rough sets”, Appl. Soft Comput., vol. 45, pp.
129-149, 2016.
[94] DF.M. Ma, J.W. Chen, W. Han, “A Positive Region Based Incremental
Attribute Reduction Algorithm for Incomplete System”, International
Conference on Electronic Information Technology and Intellectualization
(ICEITI 2016), pp. 153-158, 2016.
[95] F.M. Ma, T.F. Zhang, “Generalized binary discernibility matrix
for attribute reduction in incomplete information systems”, The Journal of
China Universities of Posts and Telecommunications, Volume 24, Issue 4, pp.
57-75, 2017.
[96] G.M. Lang, Q. Li, M.J. Cai, T. Yang, Q.M. Xiao, Incremental approaches to
knowledge reduction based on characteristic matrices, Int. J. Mach. Learn.
Cybern. 8 (1) pp. 203-222, 2017.
[97] G.M. Lang, D.Q. Miao , M.J. Cai, Z.F. Zhang, “ Incremental approaches for
updating reducts in dynamic covering information systems, Knowledge Based
Systems 134, pp. 85..104, 2017.
122
[98] G. Q. Wang, “ Valid Incremental Attribute Reduction Algorithm Based on
Attribute Generalization for an Incomplete Information System”, Chinese
Journal of Electronics, Vol.28, No.4, 2019.
[99] Huyen Tran, Thinh Cao, Koichi Yamada, Do Van Nguyen, “Incremental
Updating Methods with Three-way Decision Models in Incomplete Information
Systems”, IEEE Joint 10th International Conference on Soft Computing and
Intelligent Systems, pp. 27-32, 2018.
[100] J. Hu, K. Wang, H. Yu, “Attribute Reduction on Distributed Incomplete
Decision Information System”, IJCRS 2017, pp 289-305, 2017.
[101] J. Qian, C.Y. Dang, X.D. Yue, N. Zhang, “Attribute reduction for sequential
three-way decisions under dynamic granulation”, International Journal of
Approximate Reasoning 85(2017) 196-216.
[102] J. Yu, L. Sang, H. Dong, “Based on Attribute Order for Dynamic Attribute
Reduction in the Incomplete Information System”, IEEE IMCEC 2018, pp.
2475-2478, 2018.
[103] L.N. Wang , X. Yang , Y. Chen , L. Liu , S.Y. An , P. Zhuo , “ Dynamic
composite decision-theoretic rough set under the change of attributes”, Int. J.
Comput. Intell.Syst. 11 (2018) 355–370 .
[104] Long Giang Nguyen, Thien Nguyen, Nhu Son Nguyen , “Fuzzy Partition
Distance based Attribute Reduction in Decision Tables”, IJCRS 2018:
International Joint Conference on Rough Sets 2018, LNCS, Vol. 11103,
Springer Link, 2018, pp. 614-627.
[105] M. Kryszkiewicz (1998), “Rough set approach to incomplete information
systems”, Information Science, Vol. 112, pp. 39-49.
[106] Nguyen Long Giang, Vu Van Dinh, Relationships Among the Concepts of
Reduct in Incomplete Decision Tables, Frontiers in Artificial Intelligence and
Applications (FAIA), Volume 252: Advanced Methods and Technologies for
Agent and Multi-Agent Systems, IOS Press, 2013, pp. 417-426.
123
[107] S. Li, T. Li, “Incremental update of approximations in dominance-based rough
sets approach under the variation of attribute values”, Inf. Sci. 294, pp.348-361,
2015
[108] S. Wang , T. Li , C. Luo , H. Fujita , Efficient updating rough approximations
with multi-dimensional variation of ordered data, Inf. Sci. 372, pp. 690-708,
2016.
[109] Y.Y. Huang , T.R. Li , C. Luo , H. Fujita , S.J. Horng , Matrix-based dynamic
updating rough fuzzy approximations for data mining, Knowl. Based Syst. 119,
pp. 273-283, 2017.
[110] W.B. Qian, W.H. Shu, “Mutual information criterion for feature selection
from incomplete data”, Neurocomputing, Volume 168, pp. 210-220, 2015.