Upload
independent
View
2
Download
0
Embed Size (px)
Citation preview
DDẪẪNN NHNHẬẬPPDDẪẪNN NHNHẬẬPPXét CSDL khảo sát tiện nghi sử dụng ở các hộ
gia đình như sau:gia đình như sau:
Hộ Tiện nghi sở hữu1 Ti i Má Vití h1 Tivi, MáyVitính2 Tủlạnh, Máylạnh3 Tivi, Máygiặt, Máylạnh3 Tivi, Máygiặt, Máylạnh4 Tivi, Tủlạnh, Máylạnh5 Tivi, Máygiặt, MáyVitính6 Tivi, Tủlạnh, Máygiặt7 Tivi, Tủlạnh, MáyVitính8 Tivi, Tủlạnh, Máygiặt, Máylạnh, MáyVitính 2
LLUUẬẬTT KKẾẾTT HHỢỢPPLLUUẬẬTT KKẾẾTT HHỢỢPP
LuLuậậtt kkếếtt hhợợpp làlà phépphép kéokéo theotheo cócó ddạạngng:: Tivi Máyvitính [50%, 57%] hay
sử dụng:Tivi sử dụng:Máyvitính [50%, 57%]
Nghĩa là: “57% hộ gia đình sử dụng Tivi thì cũng sử dụngMáyvitính. Tivi và Máyvitính xuất hiện chung trong 50% dòng dữ liệu "dòng dữ liệu.
3
KKHAIHAI THÁCTHÁC LULUẬẬTT KKẾẾTT HHỢỢPP
ếKhai thác luật kết hợp được chia làm hai giai đoạn:
1. Khai thác tập phổ biến(FIs – Frequent Itemsets).ập p ( q )
2. Khai thác luật từ các tập phổ biến(ARs –Association Rules)Association Rules).
4
KKHAIHAI THÁCTHÁC LULUẬẬTT KKẾẾTT HHỢỢPP
ế
CSDL giao tácKhai thác luật kết hợp được chia làm hai giai đoạn:
1. Khai thác tập phổ biến(FIs – Frequent Itemsets).
giao tác
ập p ( q )
2. Khai thác luật từ các tập phổ biến(ARs –Association Rules)Tìm tập phổ
CSDL luậtAssociation Rules).Tìm tập phổ
biến
Khai thác luật FIs5
TTÌMÌM TTẬẬPP PHPHỔỔ BIBIẾẾNN
Được đề xuất bởi Agrawal năm 1993. ốMục đích: tìm mối liên hệ giữa các mặt hàng
(danh mục) được bán trong siêu thị.Đế ó hiề h há đ háĐến nay, có nhiều phương pháp được pháttriển như:
Ph há A i i (A l) Phương pháp Apriori (Agrawal) Phương pháp IT-tree (M. Zaki) Phương pháp FP-tree (J Han) Phương pháp FP tree (J. Han) …
7
MMỘỘT ST SỐỐ THUTHUẬẬT TOÁN T TOÁN TÌM TTÌM TẬẬP PHP PHỔỔ BIBIẾẾNN
1 Phương pháp Apriori1. Phương pháp Apriori.2. Phương pháp FP-tree (Frequent Patterns
Tree)Tree).3. Phương pháp IT-tree (Itemset-Tidset Tree).
8
ĐĐỊỊNHNH NGHĨANGHĨA
1. Định nghĩa độ phổ biến:Cho CSDL giao dịch D và tập dữ liệu XI.Độ phổ biến của X trong D, kí hiệu (X),được định nghĩa là số giao dịch mà X xuấtđược định nghĩa là số giao dịch mà X xuấthiện trong D.
2. Định nghĩa tập phổ biến:Tập X I được gọi là phổ biến nếup g p(X)minSup ( với minSup là giá trị dongười dùng chỉ định).
9
2121--DecDec--1010
TTÍNHÍNH CHCHẤẤTT AAPRIORIPRIORI
1. Mọi tập con của tập phổ biến đều phổ biến, nghĩa là XY, nếu (Y) minSup thì (X) minSup
2. Mọi tập cha của tập không phổ biến đều không phổbiến nghĩa là Y X nếu (X) < minSup thì (Y) biến, nghĩa là Y X, nếu (X) < minSup thì (Y) < minSup
10
TTHUHUẬẬTT TOÁNTOÁN AAPRIORIPRIORI
Đầu vào:CSDL giao dịch D và ngưỡng phổ biến minSupp
Đầu ra: FIs chứa tất cả các tập phổ biến của D Mã giả:
Gọi Ck: Tập các ứng viên có kích thước kọ k ập gLk: Các tập phổ biến có kích thước k
L1 = { i I: (i) minSup}for (k = 2; Lk-1 !=; k++) do
Ck = {các ứng viên được tạo từ Lk 1 }Ck {các ứ g v ê được tạo từ k-1 }for each t D do
if Ck t then Ck.count++Lk = {Ck | Ck.count minSup}
FIs = L ;FIs = kLk;
11
CCÁCHÁCH TTẠẠOO ỨỨNGNG VIÊNVIÊN CCỦỦAA AAPRIORIPRIORI
Nguyên tắc Apriori:Nhớ lại tính chất: mọi tập con của tập phổ biến Nhớ lại tính chất: mọi tập con của tập phổ biến cũng phổ biến
Giả sử ta có L3 = {abc, abd, acd, ace, bcd} Xét việc kết để tao ra các ứng viên C4: L3*L3
abcd được tạo từ abc và abdd đ t từ d à acde được tạo từ acd và ace
Rút gọn:acde bị loại vì ade không có trong L3acde bị loại vì ade không có trong L3
C4 = {abcd}
12
VVÍÍ DDỤỤ MINHMINH HHỌỌAAVVÍÍ DDỤỤ MINHMINH HHỌỌAA
Bảng 1: Xét CSDL mẫu
MãMã giaogiaodịchdịch
Nội dung giao Nội dung giao dịchdịch
11 AA, , CC, , TT, , WW22 CC, , DD, , WW
(A) = 4
(C) = 633 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW55 AA CC DD T WT W
(D) = 4
(T) = 455 AA, , CC, , DD, , T, WT, W66 CC, , DD, , TT
(T) 4
(W) = 5
13Với minSup = 50% (50*6/100 = 3), ta có:
VVÍÍ DDỤỤ ((TTTT))
Database (D) L1( )TID Nội dung Danh
mụcĐộ
phổ biến1 AA, , CC, , TT, , WW A 42 CC, , DD, , WW C 6
AA CC TT WW3 AA, , CC, , TT, , WW D 44 AA, , CC, , DD, , WW T 45 AA CC DD T WT W W 55 AA, , CC, , DD, , T, WT, W W 56 CC, , DD, , TT
14
TIDTID ItemsItems
11 AA, , CC, , TT, , WW22 CC, , DD, , WW
VVÍÍ DDỤỤ ((TTTT))C2 L2
33 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW55 AA, , CC, , DD, , T, WT, W
C2 L2Danh mục
Độ phổ biến
Danh mục
Độ phổ biến ,, ,, ,, ,,
66 CC, , DD, , TT
ụ ụAC 4 AC 4AD 2 AT 3AT 3 AW 4AW 4 CD 4CD 4 CT 4CT 4 CW 5CW 5 DW 3DT 2 TW 3DW 3 15DW 3TW 3
TIDTID ItemsItems11 AA, , CC, , TT, , WW
VVÍÍ DDỤỤ ((TTTT))22 CC, , DD, , WW33 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW
C3 L3 Danh Độ phổ Danh Độ phổ
55 AA, , CC, , DD, , T, WT, W66 CC, , DD, , TT
mụcộ pbiến mục
ộ pbiến
ACT 3 ACT 3ACW 4 ACW 4ATW 3 ATW 3CDW 3 CDW 3CTW 3 CTW 3
Lưu ý: CDT không có trong C3 vì DT không có trong L2!
16
TIDTID ItemsItems11 AA, , CC, , TT, , WW22 CC DD WW
VVÍÍ DDỤỤ ((TTTT))
C4 L4
22 CC, , DD, , WW33 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW55 AA CC DD T WT W
Danh mục
Độ phổ biến
Danh mục
Độ phổ biến
55 AA, , CC, , DD, , T, WT, W66 CC, , DD, , TT
ACTW 3 ACTW 3
C5 = L5 =
ổ ổDanh mục
Độ phổ biến
Danh mục
Độ phổ biến
17
PHPHƯƠƯƠNG PHÁP FPNG PHÁP FP-- TREETREEPHPHƯƠƯƠNG PHÁP FPNG PHÁP FP TREETREE
Quét DB lần thứ nhất để tìm tất cả cácitem đơn phổ biến (single item pattern)
Sắp xếp các item theo thứ tự giảm của độphổ biến f-listQ ét DB lầ 2 Xâ d FP t Quét DB lần 2, Xây dựng FP-tree
2121--DecDec--1010
18
FPFP-- TREETREE ––XÂYXÂY DDỰỰNGNG CÂYCÂY
TIDTID ItemsItems
11 AA, , CC, , TT, , WW22 CC DD WWFPFP-- TREETREE XÂYXÂY DDỰỰNGNG CÂYCÂY 22 CC, , DD, , WW33 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW55 AA CC DD T WT W55 AA, , CC, , DD, , T, WT, W66 CC, , DD, , TT
It A C D T WItem A C D T W 4 6 4 4 5
It C W A D T
Sắp xếp theo
Item C W A D T 6 5 4 4 4
19
2121--DecDec--1010
FPFP-- TREETREE ––XÂYXÂY DDỰỰNGNG CÂYCÂY
TIDTID ItemsItems
11 AA, , CC, , TT, , WW22 CC DD WW
AA, , CC, , TT, , WWCC DD WWFPFP TREETREE XÂYXÂY DDỰỰNGNG CÂYCÂY 22 CC, , DD, , WW
33 AA, , CC, , TT, , WW44 AA, , CC, , DD, , WW55 AA CC DD T WT WItem Link {}
CC, , DD, , WWAA, , CC, , TT, , WWAA, , CC, , DD, , WW
AA CC D TD T WW55 AA, , CC, , DD, , T, WT, W66 CC, , DD, , TTC 6
W 5C:1C:2C:3C:4
AA, , CC, , D, T,D, T, WW
C:5CC, , D, TD, T
C:6W 5
A 4
D 4
W:1CC, , W, A, TW, A, T
CC, , W, DW, D
W:1W:2W:3W:4W:5 D:1
D 4
T 4A:1 D:1 CC, , W, A, TW, A, TA:2
CC, , W, A, DW, A, D
A:3A:4 T:1
Item C W A D T 6 5 4 4 4
T:1T:2 D:1 CC, , W, A, D, TW, A, D, TD:2
20
2121--DecDec--1010
6 5 4 4 4T:1
FP-tree trên CSDL ở bảng 1 với minSup = 50%
CCHIHIẾẾUU TRÊNTRÊN FPFP--TREETREE –– TT FPTT FP--GGROWTHROWTH
Item Link{} Chiếu trên nút T: ta có CSDL
cục bộ như sau:C 6
W 5C:1C:2C:3C:4C:5C:6
cục bộ như sau:
{CWA:2, CWAD:1, CD:1}
A 4
D 4
W:1W:1W:2W:3W:4W:5 D:1
T 4 A:1
T:1
D:1A:2
T:2
A:3
D:1
A:4
D:2
T:1
T:2
T:1T
T:1T:2 D:1D:2
T:1T:1
T:2
21
2121--DecDec--1010
T:1T:1
CCHIHIẾẾUU TRÊNTRÊN T:4T:4
{CWA:2, CWAD:1, CD:1} Cây cục bộ cho CSDL chiếu trên T như Đây là đường đi đơn nên việc tìm
á tậ hổ biế hỉ đ iả làsau:
Item Link{}
các tập phổ biến chỉ đơn giản làtìm các tập con của tập {C, W,A}. Ta có các tập con:Item Link
C 4
W 3
C:2C:3C:4 {,A:3,W:3,C:4,AW:3,AC:3,WC:3, AWC:3}W 3
A 3 W:2W:3 Vì vậy: chiếu trên T sinh ra cáctập phổ biến là: {T:4, TA:3,TW 3 TC 4 TAW 3 TAC 3A:2A:3
CWA:2
TW:3, TC:4, TAW:3, TAC:3,TWC:3, TAWC:3}.
22
2121--DecDec--1010
CWAD:1 CWA:1
CD:1 C:1
CCHIHIẾẾUU TRÊNTRÊN D:4D:4
D
{CWA:2, CW:1, C:1} Cây cục bộ như sau:{}
Item Link
C 4
{}
C:2C:3C:4
Đường đi đơn Các tập con:
{, W:3,C:4, WC:3}
W 3W:2W:3
Chiếu trên D sinh ra các tập phổbiến là:{D:4, DW:3, DC:4,DWC:3} 23
2121--DecDec--1010
DWC:3}.
CCHIHIẾẾUU TRÊNTRÊN A:4A:4A
{CW:4} Cây cục bộ như sau:{} Đ ờ đi đ Cá tậ
Item Link
C 4
{}
C:4
Đường đi đơn Các tập con:
{, W:4,C:4, WC:4}
W 4W:4
Chiếu trên A sinh ra các tập phổ biếnlà:{A:4, AW:4, AC:4, AWC:4}.
24
2121--DecDec--1010
CCHIHIẾẾUU TRÊNTRÊN W,CW,C C
W
W:5 {C:5} Cây cục bộ như sau:{} Đường đi đơn Các tập con:
Item Link
C 5 C:5{, C:5}
Chiếu trên W sinh ra các tập phổập pbiến là:{W:5, WC:5}.
Cuối cùng, chiếu trên C: 6 ta được {} tập phổ biến:{C:6}25
2121--DecDec--1010
Cuối cùng, chiếu trên C: 6 ta được {} tập phổ biến:{C:6}.
FPFP-- TREETREE –– NNHHẬẬNN XÉTXÉT
FP-tree duyệt CSDL 2 lần, sau đó dùng phépyệ , g p pchiếu để tạo ra CSDL cục bộ của từng item đơn,sau đó tạo cây FP cục bộ và khai thác trên câyc c bộ một cách đệ quicục bộ một cách đệ qui.
Sử dụng phương pháp chia để trị để khai tháctập phổ biến.tập phổ biến.
Là phương pháp không sinh ứng viên.Thường rất hiệu quả trên các CSDL có mật độg ệ q ậ ộ
trùng lắp dữ liệu cao.
26
2121--DecDec--1010
PHPHƯƠƯƠNG PHÁP ITNG PHÁP IT-- TREETREE
Kết nối Galois:Kết nối Galois:Cho quan hệ hai ngôi I T chứaCSDL cần khai thác. Với: X I và Y T. Định nghĩa hai ánh xạ giữa P(I) (Tập tấtcả các tập con của I) và P(T) như sau:) ( )
t: P(I ) P(T ), t(X) = {yT | xX, x y} i: P(T) P(I ), i(Y) = {xI | yY, x y}
27
PHPHƯƠƯƠNG PHÁP ITNG PHÁP IT-- TREETREE ((TTTT))PHPHƯƠƯƠNG PHÁP ITNG PHÁP IT TREETREE ((TTTT))Cấu trúc IT-tree và các lớp tương đương:
Cho XI ta định nghĩa hàm p(X k)=X[1:k]Cho XI, ta định nghĩa hàm p(X,k)=X[1:k]gồm k phần tử đầu của X và quan hệ tươngđương dựa vào tiền tố như sau:
Mỗi út t ê IT t ồ 2 thà h hầMỗi nút trên IT-tree gồm 2 thành phầnItemset-Tidset: Xt(X) được gọi là IT-pair,thực chất là một lớp tiền tố. Các nút con củaự ộ pX thuộc về lớp tương đương của X vì chúngchia sẻ chung tiền tố X (t(X) là tập các giaodịch có chứa X)dịch có chứa X) 28
NNHHẬẬNN XÉTXÉT VVỀỀ ITIT-- TREETREENNHHẬẬNN XÉTXÉT VVỀỀ ITIT TREETREE
1. (X) =|t(X)|2 Chỉ cần kết hợp các phần tử trên cùng một2. Chỉ cần kết hợp các phần tử trên cùng một
mức của lớp tương đương là đủ để sinh ra cáctập phổ biến.
29
THUTHUẬẬT TOÁN TÌM TT TOÁN TÌM TẬẬP PHP PHỔỔ BIBIẾẾN N
ECLAT()[] = {iI| (i) minSup}[] = {iI| (i) minSup}ENUMERATE_FREQUENT([])
ENUMERATE_FREQUENT([P])for all li [P] do
[Pi] = for all lj [P] with j > i doj [ ] j
X = li ljT = t(li) t(lj)if |T| minSup thenif |T| minSup then
[Pi] = [Pi] {XT}ENUMERATE_FREQUENT([Pi])
30Trong đó t(X) = {yT | X xuất hiện trong giao dịch y} được gọi là Tidset của X.
VÍ DVÍ DỤỤ MINH HMINH HỌỌAAỤỤ ỌỌ
Xét CSDL mẫu của bảng 1 định dạng dữ liệu dọc
Mã danh mục Các giao dịchchứa danh mục
Mã giao dịch Nội dung giao dịch
1 C A 1, 3, 4, 5
C 1, 2, 3, 4, 5, 6
1 A, C, T, W2 C, D, W3 A C T W , , , , ,
D 2, 4, 5, 6T 1, 3, 5, 6
3 A, C, T, W4 A, C, D, W5 A, C, D, T, W
t(A) 1345 t(AD) t(A) t(D) 1345 2456 45
W 1, 2, 3, 4, 5, , , ,
6 C, D, T
t(A) = 1345; t(AD) = t(A) t(D) = 1345 2456 = 45 31
3131
IT-tree với minSup=50% ItemItem TIDTID
AA 1, 3, 4, 51, 3, 4, 5CC 1, 2, 3, 4, 5, 61, 2, 3, 4, 5, 6
{}x123456, , , , ,, , , , ,
DD 2, 4, 5, 62, 4, 5, 6TT 1, 3, 5, 61, 3, 5, 6WW 1, 2, 3, 4, 51, 2, 3, 4, 5
Cx123456 Dx2456 Tx1356 Wx12345Ax1345A C1234561345 1345
WW 1, 2, 3, 4, 51, 2, 3, 4, 5
ADx45 AWx1345 CWx12345 DTx56 DWx245 TWx135ACx1345 ATx135 CDx2456 CTx1356AC
ACTx135 ACWx1345 ATWx135 CDTx56 CDWx245 CTWx135
32
ACTWx135Có 19 tập phổ biến thỏa minSup = 50%
NHNHẬẬN XÉTN XÉTNHNHẬẬN XÉTN XÉTThuật toán dựa vào phần giao giữa các
ể ổ ếậ ự p g g
Tidset để tính nhanh độ phổ biến nên chỉquét CSDL 1 lần.
Có thể sử dụng Diffset để tính nhanh độCó thể sử dụng Diffset để tính nhanh độphổ biến nhằm làm giảm không gian lưutrữ Tidset.D th ật t á khô i h ứ iê êDo thuật toán không sinh ứng viên nênhiệu quả khai thác thường cao hơn so vớicác họ thuật toán sinh ứng viên.
ố ổ ếKhi số tập phổ biến lớn, thời gian khaithác luật lớn Cần phương pháp khaithác hiệu quả hơnthác hiệu quả hơn
33
DDIFFSETIFFSET ĐĐỂỂ TÍNHTÍNH NHANHNHANH ĐĐỘỘ PHPHỔỔ BIBIẾẾNN
Diffset của X so với Y, kí hiệu d(PX) được định, ệ ( ) ợ ịnghĩa như sau:d(PX) = t(P) – t(X)
(PXY) (PX) |d(PXY)| (1) (PXY) = (PX) - |d(PXY)| (1) Ta có d(PXY) = d(PY) – d(PX) (2) Diffset thường khá nhỏ so với Tidset (3) Diffset thường khá nhỏ so với Tidset (3) Từ (1), (2) và (3), chúng ta có thể sử dụng Diffsetđể thay thế Tidset.
34
DDIFFSETIFFSET ((TTTT)){}x12345
Mức 1 dùng Tidset
Bx12345 Cx245 Dx135 Ex234Ax1345A B123451345 - B
Mức 2: d(PX) = t(P) t(X)
ACx13 AEx15 BEx15 CDx24 CEx5 DEx15ABx ADx4 BCx13 BDx24AB
d(PX) = t(P) – t(X)
ABDx4 BCDx24 BCEx5 BDEx15
35Từ mức 3: d(PXY) = d(PY) – d(PX)
NNHHẬẬNN XÉTXÉT
Kích thước Diffset thường khá nhỏ so với Tidsetnên tiết kiệm được không gian bộ nhớ và thờinên tiết kiệm được không gian bộ nhớ và thờigian tính phần “khác nhau”.So sánh độ dài trung bình giữa Tidset và Diffset trên các CSDL chuẩn[4]
CSDL MinSup(%)
Độ dài trung bình Diffset
Độ dài trung bình Tidset
Tỉ lệ Tidset/Diffset
h 0 5 26 1820 70
ộ g g [ ]
chess 0.5 26 1820 70connect 90 143 62204 434.99
mushroom 5 60 622 10.37pumsb_star 35 301 18977 63.04
pumsb 90 330 45036 136.47T10I4D100K 0.1 31 230 7.42
Tỉ lệ = 1820/26
T40I10D100K 0.5 96 755 7.8636
TÌM TTÌM TẬẬP PHP PHỔỔ BIBIẾẾN ĐÓNG N ĐÓNG ((FFREQUENTREQUENT CCLOSEDLOSED IITEMSETSTEMSETS FCI)FCI)((FFREQUENTREQUENT CCLOSEDLOSED IITEMSETSTEMSETS -- FCI)FCI)
Toán tử đóng:ÁCho X I. cit: P(I) P(I): cit(X) = i(t(X)). Ánh xạ cit được gọi là toán tử
đóng.Ví dụ: cit(AW) = i(t(AW)) = i(1345) = ACW
Tập đóng:Cho X I. X gọi là tập đóng cit(X) = X.
37
TÌM TTÌM TẬẬP PHP PHỔỔ BIBIẾẾN ĐÓNG N ĐÓNG ((FFREQUENTREQUENT CCLOSEDLOSED IITEMSETSTEMSETS FCI)FCI)((FFREQUENTREQUENT CCLOSEDLOSED IITEMSETSTEMSETS -- FCI)FCI)
ItemItem TIDTID TidTid ItemsItems
AA 1, 3, 4, 51, 3, 4, 5CC 1, 2, 3, 4, 5, 61, 2, 3, 4, 5, 6DD 2, 4, 5, 62, 4, 5, 6
11 AA, , CC, , TT, , WW22 CC, , DD, , WW33 AA, , CC, , TT, , WW
t(AW) = t(A) t(W) = 1345
Tập đóng:Ch X I X i là tậ đó (X) X
TT 1, 3, 5, 61, 3, 5, 6WW 1,1, 2, 2, 3, 4, 53, 4, 5
44 AA, , CC, , DD, , WW55 AA, , CC, , DD, , T, T, WW66 CC, , DD, , TTCho X I. X gọi là tập đóng cit(X) = X.
Ví dụ: xét CSDL ở bảng 1 ta có
Do cit(AW) = i(t(AW)) = i(1345)
,, ,,
= ACWit( ) ( ( )) ( ) AW không phải là tập đóng.
Do cit(ACW) = i(t(ACW)) = i(1345) = ACW ACW là tập đóng. 38
CÁC TÍNH CHCÁC TÍNH CHẤẤT CT CỦỦA ITA IT PAIRPAIRCÁC TÍNH CHCÁC TÍNH CHẤẤT CT CỦỦA ITA IT--PAIRPAIR
Định lý 1:ầCho Xit(Xi) và Xjt(Xj) là hai phần tử tùy ý của lớp
tương đương [P]. Ta có 4 tính chất sau (c là cit):1 Nế t(X ) t(X ) thì (X ) (X ) (X X )1. Nếu t(Xi) = t(Xj) thì c(Xi) = c(Xj) = c(XiXj)2. Nếu t(Xi) t(Xj) thì c(Xi) c(Xj)
nhưng c(Xi) = c(XiXj)i i j3. Nếu t(Xi) t(Xj) thì c(Xi) c(Xj)
nhưng c(Xj) = c(XiXj)4 Ngược lại của 1 2 và 3: c(X ) c(X ) c(X X )4. Ngược lại của 1, 2 và 3: c(Xi) c(Xj) c(XiXj)
39
NHNHẬẬN XÉT VN XÉT VỀỀ ITIT--PAIRPAIRẬẬ
1. Tính chất 1 nói rằng, nếu phần giao củag, p ghai Tidset bằng nhau thì|t(Xi)|=|t(Xj)|=|t(XiXj)| mà XiXiXjvà X X X nên X X không là tập đóngvà XjXiXj nên Xi, Xj không là tập đóng.
2. Theo tính chất 2, ta có c(Xi) = c(XiXj) Xi không là tập đóng. Bên cạnh đó, doXi không là tập đóng. Bên cạnh đó, dot(Xi)t(Xj) nên Xi và Xj thuộc về 2 tập đóngkhác nhau.
ấ3. Tương tự tính chất 2.4. Theo tính chất 4, Xi, Xj và XiXj sẽ thuộc
về 3 tập đóng khác nhauvề 3 tập đóng khác nhau. 40
THUTHUẬẬT TOÁN TÌM T TOÁN TÌM TTẬẬP PHP PHỔỔ BIBIẾẾN ĐÓNG(CHARM)N ĐÓNG(CHARM)TTẬẬP PHP PHỔỔ BIBIẾẾN ĐÓNG(CHARM)N ĐÓNG(CHARM)
CHARM(D,minSup) CHARM-PROPERTY(X Y,li,lj,[Pi],[P])( , p)[]={lit(li):liI Sup(li)minSup}CHARM-EXTEND([], C = )return C
( , i, j,[ i],[ ])
if Sup(X) minSup then
if t(li)=t(lj) then
Remove lj from [P]
P = P l
CHARM-EXTEND([P], C)
for each lit(li) in [P] do
Pi = Pi lj and [Pi] =
Pi = Pi ljelseif t(li) t(lj) then
Pi = Pi ljelseif t(li) t(lj) then
R l f [P]for each ljt(lj) with j > i do
Y =t(li) t(lj) CHARM-PROPERTY(XY,li,lj,[Pi],[P])
SUBSUMPTION-CHECK(C, Pi)
Remove lj from [P]
Add X Y to [Pi] else
Add X Y to [Pi] CHARM-EXTEND([Pi], C)
delete ([Pi]SUBSUMPTION-CHECK(C, P)
for allY HASHTABLE[|t(P)|] doif PY thSử dụng bảng băm để kiểm tra tập P
41if PY thenC = C P
Sử dụng bảng băm để kiểm tra tập P có phải là tập đóng hay không?
MINH HỌA CHARM MINH HỌA CHARM ((minSupminSup=50%)=50%)
ItemItem TIDTID
AA 1, 3, 4, 51, 3, 4, 5
{}x123456
((minSupminSup=50%)=50%) CC 1, 2, 3, 4, 5, 61, 2, 3, 4, 5, 6DD 2, 4, 5, 62, 4, 5, 6TT 1 3 5 61 3 5 6TT 1, 3, 5, 61, 3, 5, 6WW 1, 2, 3, 4, 51, 2, 3, 4, 5SX tăng theo
|t(X)|Thay D bởi DC
Cx123456Dx2456 Tx1356 Wx12345Ax1345DCx2456 CCTCx1356 Wx12345AWx1345 Cx123456AWCx1345 Cx123456WCx12345t(D) t(C) Thỏa tính chất 2 nên D không là tập đóng
Thay D bởi DC
Do t(TCA) = t(TCW) nên thayDTx56 DAx45 DWx245DCWx245 TAx135 TWx135TCAx135 TCWx135TCAWx135
Có tất cả 7 tập phổ biến đóng thỏa minSup = 50% ồ
Và thay DW bởi DCW
Do t(TCA) t(TCW) nên thay TCA bởi TCAW và xóa TCW
42gồm: DC, TC, AWC, WC, C, DWC, TAWC
NHNHẬẬN XÉTN XÉTẬẬ
Số lượng tập phổ biến đóng thường nhỏSố lượng tập phổ biến đóng thường nhỏhơn nhiều so với số tập phổ biến. Như vậy,việc khai thác luật từ chúng sẽ hiệu quảhơn.
Mức tìm kiếm trên IT-tree để tìm FCI thấphơn so với tìm FI không gian bộ nhớê ầ h á ì h i đệ i ẽ hỏyêu cầu cho quá trình gọi đệ qui sẽ nhỏ
hơn.43
KHAI THÁC LUKHAI THÁC LUẬẬT TRUYT TRUYỀỀN THN THỐỐNGNG(M(MININGINING TTRADITIONALRADITIONAL AASSOCIATIONSSOCIATION RRULESULES))(M(MININGINING TTRADITIONALRADITIONAL AASSOCIATIONSSOCIATION RRULESULES))
Định nghĩa:Luật kết hợp là biểu thức có dạng XY – X (q,
p) (X Y là các tập phổ biến) trong đó X Yp) (X, Y là các tập phổ biến) trong đó X,Y,XY và p = (Y)/ (X) minConf gọi là độ tincậy của luật còn q = (Y) ≥ minSup được gọi làậy ậ q ( ) p ợ gọđộ phổ biến của luật.
ếNhư vậy: luật kết hợp là luật sinh ra giữa cáctập phổ biến X, YFI trong đó X Y.
45
LULUẬẬT TRUYT TRUYỀỀN THN THỐỐNG: NG: THUTHUẬẬTT TOÁNTOÁN
EXTRACT_AR( FI, minConf )( , f )SORT (FI) // Sắp xếp tập FI tăng theo k-itemsetAR = f h Y FI dfor each YFI do
for each X FI with Y after X doif XY then if XY then
conf = Sup(Y)/Sup(X)if conf minConf thenfAR = AR {X Y\X (Sup(Y), conf)}
return AR46