Upload
others
View
6
Download
0
Embed Size (px)
Citation preview
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ HỒNG HẠNH
TÌM HIỂU MỘT SỐ GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG
TRONG MẠNG XÃ HỘI VÀ ÁP DỤNG VÀO BÀI TOÁN
KHAI PHÁ QUY TRÌNH
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2016
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ HỒNG HẠNH
TÌM HIỂU MỘT SỐ GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG
TRONG MẠNG XÃ HỘI VÀ ÁP DỤNG VÀO BÀI TOÁN
KHAI PHÁ QUY TRÌNH
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Trí Thành
Hà Nội - 2016
i
LỜI CAM ĐOAN
Tác giả xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của
riêng cá nhân Tác giả và đƣợc sự hƣớng dẫn khoa học của PGS.TS Nguyễn Trí
Thành, không sao chép lại của ngƣời khác. Trong toàn bộ nội dung của luận văn,
những điều trình bày của cá nhân hoặc đƣợc tổng hợp của nhiều nguồn tài liệu.
Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và đƣợc trích dẫn hợp pháp.
Tác giả xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan của mình.
Hà Nội, ngày tháng năm 2016
HỌC VIÊN
Nguyễn Thị Hồng Hạnh
ii
LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới thầy
PGS.TS Nguyễn Trí Thành, ngƣời thầy đã trực tiếp hƣớng dẫn tận tình và đóng
góp những ý kiến quý báu cho em trong suốt quá trình thực hiện luận văn tốt
nghiệp này.
Em xin gửi lời cảm ơn đến các thầy cô giáo Trƣờng Đại học Công nghệ -
- Đại học Quốc gia Hà Nội, đã tận tâm truyền đạt những kiến thức quý báu làm
nền tảng cho em trong công việc và cuộc sống. Qua đây, em cũng xin cảm ơn
sinh viên Nguyễn Duy Kiên – Trƣờng Đại học Công nghệ Hà Nội đã hỗ trợ và
giúp đỡ em về mặt kỹ thuật.
Cuối cùng, em xin đƣợc cảm ơn cha mẹ, ngƣời thân, ban bè và đồng
nghiệp của em tại Sở Nông nghiệp và PTNT tỉnh Hƣng Yên, những ngƣời đã
luôn bên em, khuyến khích và động viên em trong cuộc sống và học tập.
HỌC VIÊN
Nguyễn Thị Hồng Hạnh
iii
MỤC LỤC
DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT ....................................................... v
DANH MỤC CÁC BẢNG ................................................................................... vi
MỞ ĐẦU ............................................................................................................... 7
CHƢƠNG 1.TỔNG QUAN VỀ KHAI PHÁ QUY TRÌNH ................................ 9
1.1 Khai phá quy trình ........................................................................................ 9
1.1.1 Sự cần thiết của KPQT ........................................................................ 10
1.1.2 Mục tiêu của KPQT ............................................................................. 11
1.1.3 Mô hình quy trình và nhật ký sự kiện .................................................. 11
1.1.4 Các bài toán KPQT .............................................................................. 12
1.1.5 Các khía cạnh của KPQT ..................................................................... 13
1.1.6 Các ứng dụng của KPQT ..................................................................... 14
1.1.7 Một số thách thức đối với lĩnh vực KPQT .......................................... 14
1.2 Khía cạnh tổ chức trong KPQT.................................................................. 15
1.3 Bài toán toán khai phá khía cạnh tổ chức .................................................. 18
1.3.1 Trong thực tế ........................................................................................ 18
1.3.2 Trong luận văn ..................................................................................... 18
1.4 Ý nghĩa của luận văn .................................................................................. 20
1.4.1 Về mặt khoa học .................................................................................. 20
1.4.2 Về mặt thực tiễn ................................................................................... 21
CHƢƠNG 2. CÁC GIẢI THUẬT TÌM KIẾM CỘNG TRONG MXH ............. 22
2.1 Cộng đồng mạng xã hội ............................................................................. 22
2.1.1 Nguyên nhân hình thành cộng đồng MXH .......................................... 22
2.1.2 Các loại cộng đồng trong MXH ........................................................... 23
2.1.3 Các loại cấu trúc cộng đồng ................................................................. 23
2.2 Các phƣơng pháp phát hiện cộng đồng ...................................................... 24
2.2.1 Ứng dụng.............................................................................................. 24
2.2.2 Các loại giải thuật ................................................................................ 25
2.3 Các giải thuật tìm kiếm cộng đồng chồng chéo ......................................... 28
2.4 Lựa chọn giải thuật tìm kiếm ..................................................................... 30
iv
CHƢƠNG 3. ÁP DỤNG GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG CHỒNG
CHÉO VÀO BÀI TOÁN KPQT ......................................................................... 34
3.1. Phƣơng pháp nghiên cứu........................................................................... 34
3.1.1 Tính hiệu quả của đề xuất .................................................................... 34
3.1.2 Định dạng dữ liệu đầu vào các độ đo: ................................................. 35
3.2 Giải pháp thực hiện ................................................................................... 37
3.2.1 Đề xuất mô hình giải quyết .................................................................. 37
3.2.2 Các bƣớc thực hiện .............................................................................. 38
CHƢƠNG 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................ 46
4.1 Công cụ, môi trƣờng thực nghiệm ............................................................. 46
4.1.1 Phần cứng ............................................................................................. 46
4.1.2 Phần mềm và tập dữ liệu đầu vào ........................................................ 46
4.2 Chƣơng trình thực nghiệm ......................................................................... 47
4.3 Kết quả thực nghiệm và đánh giá .............................................................. 48
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TƢƠNG LAI ................................... 51
TÀI LIỆU THAM KHẢO ................................................................................... 52
v
DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT
STT Chữ viết tắt Chú giải
I Tiếng việt
1 CNTT Công nghệ thông tin
2 HTTT Hệ thống thông tin
3 KCTC Khía cạnh tổ chức
4 KPQT Khai phá quy trình
5 MHQT Mô hình quy trình
6 MXH Mạng xã hội
II Tiếng anh
1 B2B Busines - to - Business
2 BPNN Back - propagation neural network
3 CRM Customer Relationship Management
4 EPC Event - driven Process Chain
5 ERP Systems for Enterprise Resource Planning
6 NMI Normalized mutual information
7 SCM Supply Chain Management
8 UPGMA Unweighter Pair - Group Method using Arithmetic averages
9 WFM Workflow Management
10 XES eXtensible Event Stream
11 XML EXtensible Markup Language
vi
DANH MỤC CÁC BẢNG
Bảng 2.1 So sánh các loại cấu trúc cộng đồng .................................................... 24
Bảng 2.2 Các phƣơng pháp tính khoảng cách hai cụm ....................................... 26
Bảng 3.1 Bảng mô tả các thuộc tính của một phần dữ liệu sự kiện .................... 36
Bảng 3.2 Thứ tự thực hiện nhiệm vụ của từng ngƣời trong mỗi trƣờng hợp ..... 40
Bảng 3.3 Ma trận 𝑀 mối quan hệ ..................................................................... 40
Bảng 3.4 Ma trận đỉnh kề 𝑀𝑎 ............................................................................. 41
Bảng 3.5 Danh sách đỉnh kề ................................................................................ 42
Bảng 3.6 Ma trận 𝑀𝑠 độ tƣơng tự ....................................................................... 43
Bảng 3.7 Tính mật độ các phân vùng tại ngƣỡng cắt t=1 ................................... 43
Bảng 3.8 Tính mật độ các phân vùng tại ngƣỡng cắt t=0.7(KN1) ...................... 44
Bảng 3.9 Tính mật độ các phân vùng tại ngƣỡng cắt t=0.7(KN2) ...................... 44
Bảng 3.10 Danh sách các cộng đồng đƣợc tìm thấy ........................................... 45
Bảng 4.1 Chi tiết chỉ số phần cứng và hệ điều hành ........................................... 46
Bảng 4.2 Thông tin phần mềm và tập dữ liệu đầu vào ....................................... 46
Bảng 4.3 Đánh giá kết quả chƣơng trình thực nghiệm ....................................... 48
Bảng 4.4 Đánh giá chất lƣợng các cộng đồng .................................................... 50
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Tổng quan về KPQT ............................................................................ 10
Hình 1.2 Quá trình phát hiện mô hình quy trình từ nhật ký sự kiện ................... 11
Hình 1.3 Các bài toán KPQT .............................................................................. 13
Hình 1.4 Các ứng dụng KPQT trong các lĩnh vực .............................................. 14
Hình 1.5 Mô hình tổ chức đƣợc phát hiện từ các nhật ký sự kiện ...................... 19
Hình 2.1 Các loại cấu trúc cộng đồng ................................................................. 24
Hình 2.2 Các phƣơng pháp phân cụm thứ bậc .................................................... 26
Hình 3.1 Một phần mã nguồn dữ liệu nhật ký sự kiện ........................................ 35
Hình 3.2 Mô hình áp dụng giải tìm kiếm cộng đồng vào KPQT ........................ 37
Hình 3.3 Thông tin quá trình xử lý sự cố đƣợc lƣu trong tệp BPI2013.xes ....... 39
Hình 3.5 Định dạng dữ liệu .txt lƣu đồ thị .......................................................... 40
Hình 3.4 Đồ thị đƣợc xây dựng từ ma trận kề .................................................... 41
Hình 3.6 Quá trình phân cụm thứ bậc từ dƣới - lên ............................................ 43
Hình 3.8 Các cộng đồng đỉnh chồng chéo .......................................................... 44
Hình 4.1 Kết quả chƣơng trình thực nghiệm ...................................................... 47
7
MỞ ĐẦU
Trong môi trƣờng cạnh tranh hiện nay, yếu tố cốt lõi của các tổ chức,
doanh nghiệp là truy cập thông tin, nghiệp vụ một cách nhanh chóng, hiệu quả
và đạt chi phí tối ƣu. Kinh doanh thông minh bao gồm các công nghệ và công cụ
để chuyển đổi những dữ liệu thô thành những thông tin có nghĩa và có ích cho
mục đích phân tích kinh doanh, là các ứng dụng và công nghệ để chuyển dữ liệu
doanh nghiệp thành hành động. Với sự gia tăng các hệ thống tích hợp thông tin
từ quá trình kinh doanh nhƣ WFM, ERP, CRM, SCM và B2B, … đã tạo ra cách
thức tiếp cận mới trong việc phân tích dữ liệu lớn (big data). Khai phá quy trình
(KPQT) kinh doanh hay KPQT là cầu nối quan trọng giữa khai phá dữ liệu với
quản lý quá trình kinh doanh [12]. Các kỹ thuật này giúp trích lọc các thông tin
có giá trị hay các thông tin mà các doanh nghiệp cần từ tập nhật ký sự kiện đƣợc
lƣu trong các hệ thống tích hợp thông tin, giúp bổ sung vào các tiếp cận hiện có
để quản lý quy trình kinh doanh. Bài toán KPQT gồm ba bài toán nhằm cải thiện
quy trình kinh doanh và để mở rộng mô hình quy trình (MHQT) cần bổ sung ba
khía cạnh: tổ chức, thời gian và trƣờng hợp[1].
Khía cạnh tổ chức bao gồm nhiều kỹ thuật có giá trị nhƣ khai phá mạng
xã hội, khai phá luật phân phối nguồn tài nguyên, …[8]. Trong đó, khai phá
mạng xã hội bao gồm những kỹ thuật khai phá đƣợc sử dụng rộng rãi, cho phép
phát hiện ra mạng xã hội (MXH) giữa những phòng, đơn vị, cá nhân tham gia
vào quy trình kinh doanh từ nhật ký sự kiện. Việc phân tích và đánh giá những
mối quan hệ này giúp nhà quản lý có cái nhìn chính xác về các quy trình hiện có
trong tổ chức của họ. Trong mô hình MXH, các đỉnh đại diện cho phòng, đơn vị
hay con ngƣời, mối quan hệ giữa các đỉnh đƣợc biểu diễn dƣới dạng cạnh. Vấn
đề chồng chéo nhiệm vụ giữa những ngƣời tham gia vào quy trình là một thách
thức mang tính thời sự đối với các doanh nghiệp. Hậu quả của vấn đề này mang
lại thiệt hại về kinh tế và quy trình kinh doanh hoạt động kém thông suốt. Với
một doanh nghiệp quy mô lớn, mô hình MXH sẽ kích thƣớc lớn bao gồm nhiều
đỉnh và mật độ kết nối giữa các đỉnh dày đặc. Để tìm ra đƣợc những ngƣời có sự
chồng chéo về nhiệm vụ trong MXH có kích thƣớc lớn vẫn là một bài toán khó,
đã và đang đƣợc khoa học quan tâm, nghiên cứu.
Để giải quyết những thách thức trên, tác giả đề xuất phƣơng pháp áp dụng
giải thuật tìm kiếm cộng đồng vào bài toán khái phá quy trình. Ý tƣởng của đề
xuất là sử dụng các kỹ thuật của KCTC để phát hiện mô hình MXH từ tập nhật
ký sự kiện. Sau đó, sử dụng giải thuật tìm kiếm cộng đồng chồng chéo để tìm ra
các cộng đồng có cấu trúc chồng chéo. Hiệu quả của đề xuất này là giúp đơn
giản hóa cấu trúc mạng tức là chia một mạng có kích thƣớc lớn thành các mạng
8
có kích thƣớc nhỏ và sự kết nối chặt chẽ hơn [7]. Do mục tiêu của luận văn tìm
ra các cộng đồng chồng chéo nên Tác giả chỉ tập trung vào các giải thuật tìm
kiếm cộng đồng chồng chéo, là loại cấu trúc cộng đồng xuất hiện phổ biến
trong thực tế.
Các nhiệm vụ chính của Luận văn sẽ thực hiện:
1. Nghiên cứu tổng quan về lĩnh vực KPQT và giải thuật tìm kiếm cộng
đồng trong MXH những năm gần đây.
2. Phát biểu bài toán KCTC và đề xuất mô hình giải quyết bài toán.
3. Xây dựng chƣơng trình thực nghiệm dựa trên mô hình đề xuất trong
luận văn và đánh giá kết quả thu đƣợc.
Bố cục của luận văn bao gồm phần mở đầu, bốn chƣơng nội dung, phần
kết luận và phƣơng phát triển tƣơng lai, danh mục tài liệu tham khảo.
Chương 1. Tổng quan về KPQT: Giới thiệu tổng quan về KPQT, trong
đó trình bày chi tiết các vấn đề liên quan đến khía cạnh tổ chức và phân tích
phƣơng pháp phát hiện MXH từ nhật ký sự kiện. Phần chính của Chƣơng này là
phát biểu bài toán cần xử lý và đƣa ra phƣơng pháp giải quyết. Từ đó, có những
nhận định về ý nghĩa thực tiễn, ý nghĩa khoa học của luận văn.
Chương 2. Các giải thuật tìm kiếm cộng đồng trong MXH: Giới thiệu
các loại giải thuật tìm kiếm và đặc biệt là các giải thuật tìm kiếm cộng đồng
chồng chéo. Sau đó, Tác giả sẽ lựa chọn giải thuật tìm kiếm cộng đồng chồng
chéo sẽ áp dụng vào bài toán KPQT. Phân tích chi tiết giải thuật Phân vùng theo
cạnh của nhóm tác giả Ahn et al. đƣa ra vào năm 2010 [4].
Chương 3. Áp dụng các giải thuật tìm kiếm cộng đồng vào bài toán
KPQT: Đề xuất mô hình giải quyết bài toán và đƣa ra định dạng dữ liệu đầu vào
các độ đo đƣợc sử dụng trong mô hình. Phân tích chi tiết các bƣớc thực hiện
trong mô hình. Kết quả của quá trình này tìm ra các cộng đồng cạnh có cấu trúc
phân cấp, tƣơng ứng là cộng đồng đỉnh có cấu trúc chồng chéo.
Chương 4. Kết quả thực nghiệm và đánh giá: Đƣa ra các yêu cầu về dữ
liệu, phần cứng, phần mềm và mã nguồn cần thiết để xây dựng chƣơng trình
thực nghiệm theo mô hình đề xuất. Dựa trên bảng số liệu thu đƣợc sau khi chạy
chƣơng trình với các tệp dữ liệu dùng làm mẫu thử nghiệm, tác giả sẽ sử dụng
các tiêu chuẩn và độ đo để phân tích chi tiết các thông số trong bảng. Từ đó,
đánh giá các kết quả thu đƣợc dựa vào sự phân tích này.
9
CHƢƠNG 1.TỔNG QUAN VỀ KHAI PHÁ QUY TRÌNH
1.1 Khai phá quy trình
Ngày nay, câu nói “khách hàng là thượng đế” đã trở nên quen thuộc đối
với các doanh nghiệp, bởi khách hàng là ngƣời trả tiền cho các sản phẩm, dịch
vụ của họ. Hầu hết, doanh nhân của mọi quốc gia trên thế giới đều nhận thức
đầy đủ về tầm quan trọng của khách hàng và họ luôn cố gắng phục vụ khách
hàng chu đáo nhất. Thực tế cho thấy, nhu cầu và mong muốn của khách hàng
thƣờng xuyên thay đổi. Điều này đã tác động rất lớn đến các doanh nghiệp, tạo
ra một thị trƣờng cạnh tranh, tất cả họ đều có chung một mục đích là đáp ứng tốt
nhất những yêu cầu thay đổi thƣờng xuyên này. Đây là là một thách thức lớn
nhất mà mỗi doanh nghiệp hàng ngày phải đối mặt. Do đó, để có thể cạnh tranh
thuận lợi, các doanh nghiệp cần phải nghiên cứu, thay đổi và cải tiến quy trình
kinh doanh phù hợp với thực tế.
Kinh doanh thông minh (Business intelligence) là một hƣớng nghiên cứu
quan trọng, trong đó có sử dụng dữ liệu đƣợc lƣu trữ trong các hệ thống thông
tin (HTTT). Sự xuất hiện “nền kinh tế số” đã làm thay đổi hai vấn đề là quá
trình điều hành kinh doanh và đánh giá hiệu suất công việc. Hầu hết, các doanh
nghiệp có quy mô lớn đều sử dụng các HTTT để hỗ trợ toàn hộ hay một phần
của quy trình kinh doanh. Dữ liệu sinh ra từ quá trình này đƣợc lƣu lại gọi là
nhật ký sự kiện. Các hệ thống ERP, WFM, CRM, SCM, B2B đều là kết quả của
sự cải tiến công nghệ và quá trình kinh doanh trong thực tế. Ngày nay, các
HTTT trở lên liên quan mật thiết hơn với các quy trình kinh doanh mà chúng hỗ
trợ. Một quy trình kinh doanh giúp điều hành hiệu quả các lĩnh vực quản lý hậu
cần, quản lý bán hàng, quản lý nhân lực, ... Sự gia tăng các hệ thống lƣu trữ
thông tin giúp quy trình kinh doanh đạt hiệu quả, hỗ trợ khả năng truy nhập và
phân tích dữ liệu. Việc trích lọc ra các thông tin có giá trị nhằm cải thiện khả
năng ra quyết định và mô hình quy trình vẫn là một vấn đề đƣợc các doanh
nghiệp quan tâm. Thực tế, việc tràn ngập các thông tin đã gây ra áp lực, thách
thức lớn trong việc trích lọc ra những thông tin có giá trị. KPQT giúp trích lọc
và phân tích dữ liệu để tìm ra mối liên quan giữa những đối tƣợng dữ liệu.
Ý tƣởng KPQT đƣợc các nhà khoa học Cook và Wolf đã nghiên cứu các
từ năm 1998. Sau đó, Herbst và Karagianis cũng đƣa các vấn đề KPQT trong nội
dung liên quan quản lý luồng công việc. Trong hội thảo về kinh doanh thông
minh, KPQT cũng đƣợc các nhà khoa học đề cập trong các nội dung quản lý
kinh doanh. Những đóng góp lớn tới lĩnh vực này đã đƣợc thêm vào sau bởi Wil
M.P. Van der Aalst và các cộng sự. Nhóm nghiên cứu đã đƣa ra các thuật toán
khai phá đỉnh cao và sự thêm đa dạng các chủ đề liên quan tới các thách thức
10
trong các quy trình kinh doanh. Do vậy, các nhà khoa học và ngƣời nghiên cứu
lĩnh vực này có thể dễ sử dụng nhiều phƣơng pháp và công cụ có sẵn.
Quản lý quy trình kinh doanh là một lĩnh vực kết nối giữa tri thức công
nghệ thông tin và khoa học quản lý, áp dụng những tri thức này vào quá trình
điều hành kinh doanh [1]. Những năm gần đây, KPQT đã nổi lên và trở thành
lĩnh vực nghiên cứu đầy tiềm năng, là lĩnh vực “một mặt nằm giữa thông minh
điện toán và khai phá dữ liệu, mặt khác nằm giữa mô hình và phân tích quy trình
[…] Giúp phát hiện, giám sát và cải thiện các quy trình thực bằng cách trích lọc
tri thức từ các nhật ký sự kiện” [1] đƣợc lƣu trong các HTTT. KPQT là một khái
niệm bao gồm tất cả các phƣơng pháp trích xuất các mô hình quy trình có cấu
trúc từ một tập các công việc trong thực tế [8]. Cụ thể, các kỹ thuật này giúp
trích lọc các thông tin có giá trị và liên quan đến quy trình từ các tập nhật ký sự
kiện. Tuy nhiên, các tổ chức gặp phải các vấn đề về giá trị trích lọc từ những dữ
liệu này [28].
Hình 1.1 Tổng quan về KPQT
1.1.1 Sự cần thiết của KPQT:
- Trực quan hóa quy trình kinh doanh bằng mô hình: Tất cả những hoạt
động trong công ty nếu nhìn bằng mắt thƣờng chỉ là cái nhìn chủ quan, nó không
phản ánh đƣợc bản chất sâu bên trong của từng hoạt động. Vì vậy, KPQT sẽ
giúp các doanh nghiệp thấy rõ các hoạt động, sự tƣơng tác, thời điểm xảy ra các
hoạt động trong nội bộ của họ.
- Hỗ trợ ra quyết định: Những mô tả hoạt động của doanh nghiệp trên
giấy có thể khác xa so với thực tế, tùy theo từng nhà quản lý có thể nhìn thấy
hoặc không nhìn thấy vấn đề này. Kết quả là một loạt các đơn vị chức năng hoạt
động yếu kém do không đáp ứng đƣợc yêu cầu, đòi hỏi từ thực tế. KPQT tìm ra
những tồn tại, hạn chế trong hoạt động kinh doanh một cách nhanh chóng, giúp
nhà quản lý có thể ra quyết định chính xác trong các công việc.
11
Hình 1.2 Quá trình phát hiện mô hình quy trình từ nhật ký sự kiện
Hình 1.2 cho thấy dữ liệu hoạt động của doanh nghiệp sẽ đƣợc lƣu lại
trong các HTTT, áp dụng các kỹ thuật KPQT để trích xuất ra các thông tin có
giá trị hay mô hình quy trình.
- Tạo ra sự khách quan, giảm thiểu rủi ro: Nhà quản lý có thể có những ý
kiến chủ quan cũng nhƣ có sự thiên vị hay kỳ vọng quá mức về một vấn đề nào
đó. Những sai lệch này dẫn đến một loạt các cuộc họp gây lãng phí thời gian,
tiền bạc và tạo ra sự mâu thuẫn nội bộ. Kết quả của những phƣơng án giải quyết
có thể không phù hợp với thực tế. KPQT giúp các doanh nghiệp có cơ sở tin
tƣởng những giải pháp cho những vấn đề phức tạp của doanh nghiệp.
1.1.2 Mục tiêu của KPQT: Mục tiêu chính của KPQT là phát hiện, phân
tích và hiểu các quy trình kinh doanh dựa trên các bản ghi các hoạt động tại thời
một thời điểm xác định, thông tin này đƣợc lƣu trong các tập nhật ký sự kiện.
KPQT giúp trích lọc các thông tin liên quan, phát hiện ra mô hình quy trình mới
từ các dữ liệu sự kiện, đƣợc lƣu trong các HTTT lớn [1]. Quá trình này bao gồm
các kỹ thuật, công cụ và phƣơng thức để phát hiện, giám sát, cải thiện các quy
trình trong thực tế [36].
1.1.3 Mô hình quy trình và nhật ký sự kiện:
a) Mô hình quy trình (MHQT): Trong bối cảnh khoa học HTTT, một mô
hình là đại diện phi vật chất của thế giới thực, đƣợc sử dụng cho một mục đích
cụ thể [31]. Các mô hình đƣợc sử dụng để làm giảm độ phức tạp bằng cách biểu
diễn những đặc trƣng đƣợc quan tâm, bỏ qua những đặc trƣng khác. Một MHQT
là sự biểu diễn hình học của một quy trình kinh doanh, mô tả sự ràng buộc giữa
các công việc cần đƣợc thực hiện trong những kế hoạch kinh doanh. MHQT là
12
một tập các mô hình biểu diễn các hoạt động của công ty và sự ràng buộc giữa
các mô hình [29]. Các mô hình này có thể đƣợc biểu diễn dƣới dạng BPNN,
EPC hoặc lƣới Petri. Nếu các mô hình đƣợc xây dựng theo phƣơng pháp thủ
công, độ tin cậy không cao do những yếu tố chủ quan. Để đảm bảo đƣợc sự tin
cậy của MHQT, phƣơng pháp khai phá dữ liệu lƣu trong các HTTT đƣợc đƣa ra.
Những dữ liệu này là các dữ liệu đƣợc tạo ra từ các giao dịch kinh doanh, các
mô hình sinh ra phản ánh đúng thực tế quá trình kinh doanh của doanh nghiệp
và tạo ra độ tin cậy cao.
b) Nhật ký sự kiện: Là nguồn thông tin đƣợc lấy từ nhiều nguồn khác
nhau nhƣ phỏng vấn, khảo sát, giám sát công việc, ….sẽ đƣợc lƣu trong các
HTTT. Sau đó, chúng đƣợc trích lọc các thông tin liên quan đến cấu trúc mô
hình, việc phân tích sẽ đƣợc thực hiện. Những công việc này có thể đƣợc thực
hiện thủ công hay bằng một số ứng dụng KPQT. Các thông tin đƣợc trích lọc từ
tập các nhật ký sự kiện sẽ đƣợc trích xuất và lƣu dƣới dạng XML [18], các bản
ghi trong cơ sở dữ liệu liệu [33] hoặc kho dữ liệu [32]. Dựa vào các nguồn dữ
liệu này, các ứng dụng KPQT sẽ xây dựng lên các MHQT và những dự đoán
hiệu quả kinh doanh. Tập dữ liệu đƣợc lấy từ nhiều nguồn đƣợc lƣu trữ trong
cùng một hệ thống nhƣ kho dữ liệu, cung cấp nền tảng khai phá tri thức chƣa
đƣợc biết đến và mối quan hệ giữa các thực thể trong quy trình. Các tri thức mới
đƣợc phát hiện có liên quan nhƣ các bộ phận kinh doanh, danh mục sản phẩm,
nhà cung cấp, lộ trình và thời gian thực hiện quy trình.
1.1.4 Các bài toán KPQT: Có 03 bài toán chính:
Phát hiện mô hình quy trình:Kỹ thuật này phát hiện ra các mô hình chƣa
đƣợc biết đến trƣớc đó, các mô hình này sẽ đƣợc dùng vào mục đích phân tích
hoặc tối ƣu hóa [36]. Trong đó:
Đầu vào: Nhật ký sự kiện.
Đầu ra: Mô hình quy trình.
Kiểm tra sự phù hợp của mô hình quy trình: Kỹ thuật này sử dụng mô
hình quy trình đang tồn tại và so sánh với dữ liệu lƣu trong nhật ký sự kiện,
nhằm kiểm tra sự phù hợp của mô hình quy trình với thực tế. Trong đó:
Đầu vào: Nhật ký sự kiện, Mô hình quy trình.
Đầu ra: Các độ đo phù hợp.
Tăng cường mô hình quy trình: Đây là kỹ thuật mở rộng hay cải tiến mô
hình quy trình đang tồn tại sử dụng thông tin về quy trình thực đƣợc ghi lại
trong các nhật ký sự kiện.
Đầu vào: Mô hình quy trình hiện có, Nhật ký sự kiện.
13
Đầu ra:Mô hình quy trình đƣợc bổ sung.
Hình 1.3 Các bài toán KPQT
Hình 1.3 biểu diễn sự tƣơng tác giữa KPQT, dữ liệu nhật ký sự kiện và
nền tảng phân tích. Khai phá nhật ký sự kiện hay sự các quy trình kinh doanh
thực để phát hiện ra sự tắc nghẽn, đứt đoạn của quy trình. Trong KPQT, sự
tƣơng tác giữa những thực thể theo một quy luật logic, do đó những kết quả của
lĩnh vực này mang lại là rất lớn đối với lĩnh vực kinh doanh thông minh.
1.1.5 Các khía cạnh của KPQT: Mở rộng MHQT khi bổ sung các khía
cạnh, bao gồm:
Khía cạnh tổ chức: tập trung vào các thông tin về các nguồn tài nguyên ẩn
dƣới các nhật ký. Các nguồn tài nguyên này bao gồm con ngƣời, hệ thống hay
vai trò hay bộ phận liên quan và sự liên hệ giữa các yếu tố đó. Mục tiêu của khía
cạnh này là để xây dựng cấu trúc tổ chức bằng cách phân lớp ngƣời tham gia
quy trình theo vai trò, đơn vị, đồng thời biểu diễn MXH.
Khía cạnh trường hợp: Tập trung vào các thuộc tính riêng của các trƣờng
hợp nhƣ số ngƣời tham gia, thứ tự thực hiện các hoạt động, những ngƣời tham
gia, … Từ đó thiết lập mối quan hệ giữa những thuộc tính này, tạo đầu vào cho
các giải thuật phân cụm.
Khía cạnh thời gian: Liên quan đến thời gian và tần suất xuất hiện của các
sự kiện. Từ lịch biểu thời gian xảy ra các sự kiện giúp phát hiện các đoạn “nút
thắt cổ chai” hay bị trì hoãn, tắc nghẽn luồng công việc, ƣớc tính các mức độ dịch
vụ, giám sát các nguồn tài nguyên hay dự đoán thời gian trống trong các trƣờng
hợp.
14
1.1.6 Các ứng dụng của KPQT
Các ứng dụng KPQT có thể đƣợc sử dụng nhƣ là một công cụ kiểm soát
trực tiếp hiệu suất quy trình kinh doanh. Một số ứng dụng KPQT hiện nay nhƣ:
- EmiT là công cụ sử dụng nhật ký sự kiện định dạng XML làm dữ liệu
đầu vào. Giúp phát hiện mô hình quy trình và biểu diễn quy trình dƣới dạng lƣới
Petri.
- ARIS PPM là công cụ để đánh giá quy trình kinh doanh. Kỹ thuật này
giúp phân tích lịch sử của các quy trình để tìm ra điểm yếu trong quy trình hiện
tại, tối ƣu hóa cấu trúc tổ chức, …
- PISA là công cụ dùng để xác định hiệu suất quy trình từ nhật ký sự kiện.
- ProM là phần mềm mã nguồn mở, dùng cho những ngƣời nghiên cứu
lĩnh vực KPQT. Công cụ này cung cấp nhiều plug-in cho nhiều giải thuật khai
phá khác nhau.
- Disco là một ứng dụng thƣơng mại, giúp trích lọc và tải các nhật ký sự
kiện.
Hình 1.4 Các ứng dụng KPQT trong các lĩnh vực
Hình 1.4 cho thấy sự phổ biến các ứng dụng KPQT trong rất nhiều các
lĩnh vực kinh doanh.
1.1.7 Một số thách thức đối với lĩnh vực KPQT
- Mục đích sử dụng: KPQT là một công nghệ cần phải đƣợc đặt trong bối
cảnh cụ thể thì mới làm nổi bật lên giá trị của lĩnh vực này. Các lợi ích của
KPQT mang lại nhƣ tăng hiệu quả hoạt động của doanh nghiệp, quản lý rủi ro và
bảo đảm quá trình, giảm thiểu sai sót, kiểm soát chất lƣợng dịch vụ.
15
- Các bản ghi sự kiện bị lỗi và thiếu: Đối với các bản ghi không chính xác
của nhật ký sự kiện có thể đƣợc sinh ra do sự cố phần mềm, đột biến ngƣời
dùng, lỗi phần cứng hoặc bị cắt xén các trƣờng hợp của quy trình trong lúc trích
lọc dữ liệu. Các bản ghi bị sai trong nhật ký sự kiện đƣợc coi là một biểu hiện lạ
trong một hiện tƣợng đƣợc gọi là bản ghi bị lỗi. Các bản ghi bị lỗi đƣợc lƣu lại
chính xác và thƣờng hiếm khi xảy ra [1]. Các bản ghi sự kiện lỗi này sẽ làm tăng
độ phức tạp của mô hình quy trình. Các đề xuất KPQT vì thế mà đƣa ra những
sự phân tích và mô hình không đúng.
- Chất lượng nhật ký sự kiện: Việc thu thập dữ liệu và tiền xử lý dữ liệu là
một thách thức trƣớc khi bắt đầu KPQT, vì chất lƣợng của dữ liệu ảnh hƣởng
lớn đến kết quả của KPQT. Chất lƣợng của các nhật ký sự kiện sẽ ảnh hƣởng
chủ yếu tới chất lƣợng khai phá và tái cấu trúc các mô hình quy trình. Các hệ
thống quy trình kinh doanh và quản lý luồng công việc tạo ra các nhật ký sự kiện
với chất lƣợng cao nhất [36].
- Mô hình quy trình phức tạp: Các quy trình trong thực tế thƣờng rất
phức tạp. Việc biểu diễn chúng bằng hình học có thể dẫn các mô hình có độ
phức tạp cao và rất khó hiểu. Hai mô hình quy trình phức tạp điển hình đƣợc gọi
là quy trình Lasagna và Spaghetti [1]. Giảm độ phức tạp của mô hình là một
thách thức lớn và đang là đối tƣợng nghiên cứu ngày nay [23].
- Các loại hình quy trình: KPQT chỉ có thể đƣợc áp dụng đối với các quy
trình đƣợc kiểm soát hoàn toàn bằng HTTT. Trong thực tế, các quy trình chỉ cần
đƣợc quan sát dƣới một số hình thức. Đối với một số hệ thống quản lý quy trình
kinh doanh theo mô hình và cấu hình định sẵn thƣờng ít có giá trị đối với việc
phát hiện lại các luồng tiến trình. Thông thƣờng, các bộ phận trong một quy
trình là tự động, một số bộ phận đƣợc điều khiển bởi con ngƣời. Do vậy, rất khó
kiểm soát đƣợc những việc mà họ đã làm gì trong bộ phận đó. KPQT đƣợc áp
dụng cho một lƣợng lớn các loại dữ liệu bao gồm cơ sở dữ liệu, các nhật ký giao
dịch, các bảng excel.
1.2 Khía cạnh tổ chức trong KPQT
Trong một tổ chức, dù có trang thiết bị hiện đại, tối tân thì yếu tố con
ngƣời vẫn đóng vai trò quan trong nhất. Sự chồng chéo chức năng, nhiệm vụ
giữa các cá nhân, phòng, ban, đơn vị làm cho cơ cấu tổ chức trở nên cồng kềnh,
giảm hiệu suất công việc và tốn kém chi phí. Những giải pháp cải tiến về khía
cạnh tổ chức đã và đang đƣợc các nhà khoa học, nhà quản lý quan tâm và nghiên
cứu.
16
Khía cạnh tổ chức là một trong ba khía cạnh quan trọng nhất của bài toán
KPQT, các kỹ thuật bao gồm: khai phá tổ chức, khai phá MXH, khai phá luật
phân phối nguồn tài nguyên, …[8]. Đây là những kỹ thuật giá trị cho phép phát
hiện mô hình MXH của một tổ chức. Đồng thời giúp đƣa ra cách thức đánh giá
các mạng lƣới này bằng cách ánh xạ và phân tích các mối quan hệ giữa những cá
nhân, đơn vị trong công ty. Tuy nhiên, khi phân tích MXH với kích thƣớc lớn,
các kỹ thuật của KPQT sinh ra các mô hình với sự phức tạp cao, điều này làm
cho ngƣời dùng bối dối và khó khăn để hiểu đƣợc chúng. Phân tích dựa vào cấu
trúc hình học bao gồm chiến lƣợc “chia để trị” nhằm trực quan hóa và phân tích
mô hình mạng trong các mức độ tổng quát khác nhau.
- Mục tiêu của KCTC: Khía cạnh tổ chức tập trung vào các nguồn tài
nguyên, nhƣ những ngƣời thực hiện có liên quan đến mô hình quy trình và sự
liên quan và mối quan hệ của họ với quy trình. Mục tiêu chính của khía cạnh
này là tìm ra cấu trúc tổ chức bằng cách phân lớp ngƣời tham gia vào quy trình
trong các giới hạn của các đơn vị, vai trò của từng ngƣời, mối quan hệ của
những ngƣời tham gia vào quy trình.
- Vai trò KCTC: Các kỹ thuật này giúp phát hiện cấu trúc tổ chức, phân
tích MXH, cấp phát tài nguyên và khai phá vai trò từng cá thể, nhóm hay tổ
chức trong MXH. Khai phá khía cạnh tổ chức là phân tích những thông tin đƣợc
tiết lộ từ khía cạnh tổ chức. Kỹ thuật này bao gồm việc phát hiện các MXH, cấu
trúc tổ chức và hành vi của tổ chức [2]. Các kỹ thuật khai phá này tạo nên nền
tảng đối với các nhiệm vụ sau:
+ Chứng thực: tập trung vào kiểm soát truy nhập giúp đảm bảo chỉ những
cá nhân, đơn vị nào đƣợc chứng thực có vai trò mới đƣợc phép thực hiện các
hoạt động trong quy trình.
+ Kiểm soát tài nguyên: tập trung vào những ràng buộc sau khi truy nhập
dữ liệu nhƣ ngƣời hay nhóm ngƣời sẽ nắm giữ và sử dụng dữ liệu.
+ Tái cơ cấu tổ chức:
Phân tách: ràng buộc liên quan tới quy trình giới hạn các khả năng của
các đơn vị khi thực hiện các hoạt động, giúp giảm rủi ro khi gặp lỗi.
Sát nhập: đây là sự ràng buộc hai chiều, sắp xếp các chủ thể, tác vụ vào
cùng một nhóm các hoạt động cụ thể.
+ Kiểm soát xung đột: ngăn các luồng thông tin mang tính nhạy cảm giữa
những đối thủ cạnh tranh hay các phòng, ban là những đơn vị tham gia vào quy
trình kinh doanh.
17
- Phân tích MXH: Jacob Levy Moreno đã đƣa ra khái niệm mô hình
MXH vào năm 1932-1938, ông đã nghiên cứu mô hình MXH các trƣờng học
dành cho nhóm học sinh nữ tại Hudson, NewYork [30]. MXH là một mô hình
đƣợc biểu diễn dƣới dạng đồ thị, là phƣơng pháp biểu diễn dữ liệu và các mối
quan hệ của các dữ liệu này dƣới dạng đồ thị. Phát hiện MXH từ nhật ký sự kiện
là phát hiện mối quan hệ giữa những ngƣời, nhóm ngƣời tham gia vào quy trình.
Nhật ký sự kiện chứa thông tin những ngƣời tham gia vào quy trình hoặc việc
khởi tạo sự kiện. Sử dụng một số kỹ thuật phân tích MXH và các kết quả
nghiên cứu có sẵn, các MXH này cho phép phân tích mối quan hệ giữa các chủ
thể bao gồm các tiến trình thực thi quy trình. Các kết quả phân tích đƣợc sử
dụng để xác định những ngƣời thƣờng xuyên giao tiếp với nhau trong quy trình,
ngƣời có kết giao tiếp nhiều nhất (tầm ảnh hƣởng nhất) với ngƣời khác, vai trò
ngƣời và nhóm ngƣời trong quy trình hay hiện tƣợng tắc nghẽn hoạt động bởi
ngƣời nào trong quy trình.
Phân tích MXH (Social Network Analysis) bao gồm tập các phƣơng pháp,
kỹ thuật, công cụ giúp trực quan hóa và phân tích các MXH. Kỹ thuật này đóng
vai trò quan trọng, giúp đánh giá mối quan hệ giữa những cá nhân, các phòng,
đơn vị hay tổ chức tham gia vào quy trình kinh doanh [24] và có thể thu đƣợc
những thông tin quan trọng giúp cải thiện quá trình quản lý luồng công việc
trong một tổ chức và cho phép ngƣời quản lý tìm ra phƣơng pháp cải thiện
chúng [25]. Mục tiêu của các kỹ thuật phân tích MXH là trả về quy trình thực sự
minh bạch và cung cấp các kỹ thuật giúp các quy trình kinh doanh trở nên tốt và
liền mạch hơn.
Để phát hiện ra MXH, các kỹ thuật sẽ sử dụng các độ đo để định lƣợng
mức độ thƣờng xuyên và sự chuyển giao công việc giữa những ngƣời thực hiện.
Wil M.P. van der Aalst et al. đã đề xuất các loại độ đo xây dựng mô hình MXH
từ nhật ký sự kiện [8], bao gồm:
- Độ đo dựa trên quá trình thực hiện nhiệm vụ: đánh giá mức độ các công
việc đƣợc chuyển giữa những ngƣời tham gia vào quy trình. Độ đo Handover of
work tính số lần mà ngƣời i thực hiện một nhiệm vụ trƣớc một ngƣời j trong một
trƣờng hợp. Giá trị độ đo Subcontracting là số lần ngƣời j thực hiện nhiệm vụ
giữa hai nhiệm vụ khác mà ngƣời i thực hiện.
- Độ đo dựa trên những người tham gia cùng một trường hợp: tính mức
độ thƣờng xuyên hai ngƣời thực hiện nhiệm vụ trong cùng một trƣờng hợp. Hai
cá nhân thƣờng xuyên làm việc cùng một trƣờng hợp có mối quan hệ mật thiết
với nhau hơn những ngƣời khác. Giá trị độ đo Working together là số lần hai
ngƣời thực hiện nhiệm vụ trong cùng một trƣờng hợp.
18
- Độ đo dựa trên loại nhiệm vụ: tập trung vào tính chất công việc cần phải
thực hiện. Hai ngƣời thực hiện các nhiệm vụ tƣơng tự nhau sẽ có mối quan hệ
mật thiết hơn. Độ đo Similar task sử dụng hàm tính khoảng cách Hamming, …
để tính khoảng cách giữa các nhiệm vụ.
- Độ đo dựa trên loại sự kiện: Các sự kiện tƣơng ứng với sự thực hiện các
nhiệm vụ. Tuy nhiên, có những sự kiện tƣơng ứng với hoạt động chỉ đƣợc giao
giữa ngƣời i sang ngƣời j và không có chiều ngƣợc lại. Mối quan hệ này thể hiện
sự phân cấp quyền lực.
1.3 Bài toán toán khai phá khía cạnh tổ chức
1.3.1 Trong thực tế: Hầu hết, các doanh nghiệp và tổ chức đều đang gặp
phải vấn đề liên quan đến sự chồng chéo, trùng lắp, phân công chƣa rõ ràng,
chƣa hợp lý về chức năng, nhiệm vụ giữa các cá nhân, bộ phận. Đây là những
vấn đề đƣợc coi là những thách thức vì nhà quản lý đã nhìn thấy, nhƣng chƣa
tìm đƣợc cách giải quyết tối ƣu. Những thách thức này là nguyên nhân dẫn đến
giảm doanh thu và hiệu suất công việc, tăng chi phí cho các nhiệm vụ thống kê,
phân tích viết báo cáo lập kế hoạch, quy hoạch liên quan đến những vấn đề tổ
chức.
Nguyên nhân: Chƣa thống nhất về phân công nhiệm vụ giữa các phòng,
ban, đơn vị; cách nhìn chủ quan của nhà quản lý đối với việc phân công nhiệm
vụ; thiếu tiêu chuẩn để phân định rõ ràng; tính chất phức tạp, đa dạng của công
việc; việc đáp ứng những mong muốn thay đổi theo ngày của khách hàng cũng
là nguyên nhân làm cho những cơ cấu tổ chức trƣớc đó trở lên lạc hậu.
Giải pháp trong thực tế: Rà soát, nghiên cứu, phân tích, đánh giá và làm
rõ chức năng, nhiệm vụ của từng bộ phận để tìm ra sự chồng chéo.
1.3.2 Trong luận văn: Dựa trên những thách thức của bài toán trong thực
tế, luận văn tập trung vào giải quyết những thách thức này trong bài toán KPQT.
- Giới hạn luận văn: Phát hiện sự chồng chéo nhiệm vụ giữa những ngƣời
tham gia vào quy trình từ tập dữ liệu sự kiện có sẵn.
Phát biểu bài toán:
Đầu vào: Tập dữ liệu sự kiện định dạng XES 1.0.
Đầu ra: Các cộng đồng chồng chồng chéo.
- Phân tích bài toán: Có 04 danh từ, cụm danh từ trong bài toán trên cần
quan tâm: “người”, “mối quan hệ”, “nhóm người” và “mật thiết”. Ta giả định
19
một phƣơng thức kết hợp giữa 04 khái niệm này: (1) “ngƣời” + “mối quan hệ” =
“nhóm ngƣời”; (2) “nhóm ngƣời” + “mật thiết” = “cộng đồng”. Trong đó:
(1) Những ngƣời có mối quan hệ với nhau sẽ tạo thành một nhóm ngƣời,
nhóm ngƣời này có thể cùng thực hiện một nhiệm vụ, một mục đích, … tùy theo
từng trƣờng hợp thực tế công việc mà họ đang liên quan.
(2) Nhóm ngƣời có mối quan hệ mật thiết đƣợc gọi là một cộng đồng. Sự
mật thiết ở đây có thể đƣợc đánh giá dựa trên nhiều tiêu chuẩn nhƣ cùng thực
hiện một nhiệm vụ, thƣờng xuyên tƣơng tác với nhau, …
Để giải quyết một vấn đề trong thực tế, cần phải tổng quát hóa vấn đề đó
thành các khái niệm toán học. Trong bài toán trên, ta giả định “ngƣời”, “nhóm
ngƣời”, “mối quan hệ” tƣơng ứng với “đỉnh”, “cụm các đỉnh”, “cạnh” trong lý
thuyết đồ thị. Nhóm các đỉnh có các cạnh kết nối giữa chúng ta gọi là một MXH
hay đồ thị. Nhà quản lý muốn tìm kết quả của phƣơng trình (2), hay tìm các
cộng đồng của MXH. Để tìm đƣợc kết quả mong muốn, cần áp dụng một thuật
toán tìm kiếm, giúp tìm kiếm nhanh chóng, tạo sự tin cậy đối với các cộng đồng
đƣợc tìm ra.
Hình 1.5 biểu diễn ví dụ với ba vai trò dựa trên độ tƣơng tự của tiểu sử
của 06 ngƣời thực hiện. Ba vai trò gồm trợ lý, chuyên gia, ngƣời quản lý đƣợc
coi là ba phân vùng của 06 ngƣời tham gia vào quy trình. Một ngƣời có thể có
nhiều vai trò khác nhau trong quy trình, mỗi hoạt động chỉ đƣợc thực hiện bởi
duy nhất một ngƣời.
Hình 1.5 Mô hình tổ chức được phát hiện từ các nhật ký sự kiện
20
- Nền tảng khoa học:
Wil M.P. van der Aalst et al. đã áp dụng các kỹ thuật phân tích MXH vào
việc phân tích mối quan hệ giữa những ngƣời tham gia vào quy trình từ nhật ký
sự kiện [8]. Bài nghiên cứu đã đề xuất ra các loại độ đo có thể sử dụng để xây
dựng mô hình MXH và giới thiệu công cụ MiSoN (Mining Social Network).
Năm 2012, hai tác giả Diago R. Ferreira và Cláudia Alves đã đề xuất đơn giản
hóa mô hình quy trình bằng cách sử dụng độ đo Modularity để phát hiện ra các
cộng đồng trong MXH. Nhóm tác giả đã sử dụng công cụ ProM để thực hiện ý
tƣởng này [20].
- Phương pháp giải quyết:
Phƣơng pháp để giải quyết bài toán trong luận văn dựa trên những kết quả
nghiên cứu của các nhà khoa học Wil M.P van der Aalst et al. và Diago R.
Ferreira et al.. Điểm mới trong đề xuất của Tác giả là áp dụng giải thuật tìm
kiếm cộng đồng chồng chéo trong MXH. Đề xuất này xuất phát từ hiện tƣợng
chồng chéo nhiệm vụ giữa những ngƣời thuộc cùng một tổ chức trong thực tế.
Tuy nhiên, để không làm mất tính tổng quát cấu trúc tổ chức phân cấp nhƣng
vẫn phản ánh đƣợc sự chồng chéo của các cộng đồng trong thực tế, Tác giả sử
dụng giải thuật Phân vùng theo cạnh của Ahn et al., 2010.
Tổng quát các bƣớc giải quyết:
(1) Tiền xử lý dữ liệu: Loại bỏ các thông tin bị lỗi, nhiễu, những thông tin
không có giá trị khai phá, chuyển về định dạng chuẩn XES 1.0.
(2) Xây dựng MXH: Sử dụng các độ đo để xây dựng MXH từ tập nhật ký
sự kiện.
(3) Phân tích MXH: Sử dụng chiến lƣợc “Chia để trị” hay áp dụng giải
thuật tìm kiếm cộng đồng để tìm ra các cộng đồng chồng chéo trong MXH.
(4) Kết quả: Từ các cộng đồng đỉnh chồng chéo, tìm ra các cộng đồng
ngƣời có sự chồng chéo nhiệm vụ.
(Chi tiết đề xuất giải quyết bài toán trong Chương 4 luận văn này)
1.4 Ý nghĩa của luận văn:
1.4.1 Về mặt khoa học:
- Luận văn đã tổng quát các phƣơng pháp khoa học để giải quyết những
thách thức trong bài toán KCTC.
21
- Trong luận văn, Tác giả tập trung đƣa ra các cơ sở khoa học, định hƣớng
nghiên cứu để tìm ra sự chồng chéo nhiệm vụ giữa những ngƣời tham gia vào
quy trình từ tập nhật ký sự kiện, từ đó đề xuất hƣớng giải quyết bài toán.
- Từ các kết quả nghiên cứu, luận văn đã góp phần làm cơ sở thực tiễn
cho các nghiên cứu khoa học sau này.
1.4.2 Về mặt thực tiễn:
- Những thách thức trong thực tế của doanh nghiệp là động lực Tác giả
thực hiện nghiên cứu này và định hƣớng tìm phƣơng pháp giải quyết. Do đó, đề
xuất trong luận văn có thể là một hƣớng giải quyết mà các doanh nghiệp có thể
áp dụng.
- Nền tảng của phƣơng pháp giải quyết dựa trên nền tảng khoa học, do đó
các nhà quản lý, ngƣời nghiên cứu có thể tin tƣởng, nghiên cứu và phát triển mô
hình giải quyết đƣợc đề xuất trong luận văn.
- Do vấn đề đƣợc đặt ra trong luận văn có tính thời sự, các kết quả nghiên
cứu có thể đƣợc áp dụng vào thực tiễn hiện thời, không bị lạc hậu và có thể đánh
giá đƣợc hiệu quả của đề xuất.
22
CHƢƠNG 2. CÁC GIẢI THUẬT TÌM KIẾM CỘNG TRONG MXH
2.1 Cộng đồng mạng xã hội
Hơn một thập kỷ trƣớc, các mạng phức tạp (hay cộng đồng MXH) đã trở
thành chủ đề đƣợc quan tâm và nghiên cứu trong một số hệ thống lớn. Cộng
đồng là một nhóm các đỉnh mà có cùng một số thuộc tính và vai trò trong tổ
chức. Nhóm gồm các đỉnh có nhiều kết nối với nhau nếu chúng thuộc cùng một
cộng đồng và ít kết nối đến các đỉnh khác nếu chúng không thuộc cùng một
cộng đồng [5]. Sự tƣơng tác giữa các phần tử trong MXH hay mạng lƣới sinh
học đƣợc biểu diễn bằng các liên kết và đỉnh. Một cộng đồng hay còn gọi là một
cụm là một nhóm các đỉnh có nhiều kết nối với nhau hơn các đỉnh khác trong
mạng [22]. Các mạng lƣới thƣờng đƣợc biểu diễn theo cấu trúc mô-đun (hay
cộng đồng). Một số cộng đồng thƣờng liên quan mật thiết tới các đơn vị chức
năng của hệ thống. Nhiều hệ thống trong thực tế có thể đƣợc biểu diễn dƣới
dạng mô hình MXH nhƣ nhƣ mạng điện thoại, các trang MXH, sự di chuyển của
động vật, sự tƣơng tác của các phân tử, … . Một hiện tƣợng thƣờng đƣợc quan
sát thông qua các loại mạng khác nhau là sự hiện diện của các cấu trúc cộng
đồng tiềm ẩn. Các đỉnh có thể đƣợc tập hợp lại thành nhóm sao cho những đỉnh
trong nhóm có sự tƣơng tác lẫn nhau và các nhóm khác nhau thƣờng ít khi tƣơng
tác.
2.1.1 Nguyên nhân hình thành cộng đồng MXH:
Theo nghiên cứu của Pew Internet & American Life Project, hơn 93% cả
thiếu niên (12-17 tuổi) và thanh niên (18-29 tuổi) ở Mỹ sử dụng Internet hàng
ngày, trong đó có hơn 70% số ngƣời dùng các MXH. Một trang web tạo ra một
cộng đồng xã hội, nơi gồm những ngƣời quan tâm đến cùng một chủ đề hay chỉ
là sự quan tâm đến nhau. Các thành viên sẽ tạo các tiểu sử cá nhân trực tuyến và
một số loại dữ liệu khác. Họ giao tiếp với ngƣời khác bằng âm thanh, văn bản,
tin nhắn, video trực tuyến và các loại dịch vụ khác nhƣ MXH. Ngày nay, có
nhiều chuyên trang về MXH nhƣ Facebook, Orkut, Twitter, Bebo, Myspace,
Friendster, hi5, Linkedin và Bharatstudent, …. Những website này đƣợc biết
đến nhƣ là những mạng lƣới cộng đồng. Một số nguyên nhân hình thành cộng
đồng:
- Đặc điểm: Cộng đồng thƣờng hình thành giữa những ngƣời cùng chia sẻ
những đặc điểm giống nhau, ví dụ nhƣ một nhóm ngƣời cùng thuộc một trƣờng
đại học.
- Mục đích: Đây là nhóm ngƣời làm việc để đạt đƣợc một mục đích chung
nhƣ cùng chống lại đói nghèo, tăng trƣởng nền kinh tế, …
23
- Mục tiêu: Đa số ngƣời một cộng đồng cùng phấn đấu tới một mục tiêu
cụ thể, hữu hình, không nhất thiết tất tả những ngƣời thuộc cộng đồng phải có
mục tiêu này nhƣ mạng lƣới doanh nghiệp toàn cầu đều có mục tiêu là đạt thắng
lợi doanh thu.
- Sở thích: Các thành viên trong một cộng đồng cùng sở thích hoặc cùng
tham gia vào một hoạt động cụ thể nhƣ thể thảo, khiêu vũ, …
- Thói quen: Đây là một cách xác định hành vi của con ngƣời hay tổ chức
diễn ra hàng ngày nhƣ một ngƣời thƣờng xuyên làm một loại công việc vào thời
điểm xác định trong ngày, một công ty thƣờng tổ chức ăn mừng khi doanh thu
đạt cao và ngƣợc lại, ….
2.1.2 Các loại cộng đồng trong MXH [16]:
- Cộng đồng tường minh: Đƣợc hình do những đặc trƣng chung của nhóm
đã đƣợc thiết lập trƣớc nhƣ Google+ có chức năng “Circles”, Facebook có chức
năng “Smart list” giúp phân loại các nhóm ngƣời thực hiện bởi chủ tài khoản.
- Cộng đồng không tường minh: Đƣợc hình thành do sự tƣơng tác giữa
những ngƣời trong cộng đồng, không thấy rõ bằng mắt thƣờng. Những ngƣời
thuộc cùng một cộng đồng sẽ tƣơng tác nhiều hơn với những ngƣời thuộc cộng
đồng khác. Trong luận văn, Tác giả thực hiện tìm kiếm loại cộng đồng này.
2.1.3 Các loại cấu trúc cộng đồng:
Cấu trúc cộng đồng đƣợc Girvan và New-man nghiên cứu vào năm 2002,
ngoài ra chủ đề này còn đƣợc đề cập trong các bài nghiên cứu của Danon et al.,
2007; Fortunato và Castellano, 2009; Newman, 2004a; Porter et al., 2009;
Schaeffer, 2007. Để xác định cấu trúc cộng đồng, phải phân tích các mối quan
hệ dƣới dạng cấu trúc hình học giữa các cộng đồng. Loại cấu trúc cộng đồng
đƣợc phân loại theo sự bao phủ các phần tử của các cộng đồng, một số loại cấu
trúc điển hình:
Cấu trúc cộng đồng không chồng chéo: Một đỉnh chỉ thuộc vào duy nhất
một cộng đồng [6]. Các cộng đồng đỉnh này không có sự liên hệ, tách rời nhau
và chỉ có hoặc không có các cạnh trung gian giữa chúng.
Cấu trúc cộng đồng chồng chéo: các cộng đồng trong thực tế có khuynh
hƣớng chồng chéo các đỉnh, tức là một đỉnh có thể thể thuộc nhiều cộng đồng.
Đỉnh đƣợc gọi là đỉnh chồng chéo nếu thuộc sở hữu nhiều hơn một cộng đồng
[7]. Phát hiện các cộng đồng nối chồng chéo đang là một thách thức đối với
những nhà nghiên cứu bởi sự không có sự phân chia rõ ràng giữa các đỉnh và
cộng đồng.
24
Năm 2013, Yang và Leskovec đã quan sát và tổng kết lại sự tƣơng tác
giữa các cá nhân trong cộng đồng: “Các đỉnh chồng chéo có khả năng kết nối
với các đỉnh khác cao hơn bởi chúng thuộc nhiều cộng đồng. […] Các cộng
đồng chồng chéo có mật độ kết nối dày hơn các cộng đồng không chồng chéo”
[22].
Hình 2.1 Các loại cấu trúc cộng đồng
T
T Sự mâu thuẫn
Loại cấu trúc
Chồng chéo Không chồng chéo
1 Đặc điểm
Một số đỉnh trong mạng
có thể thuộc nhiều hơn 1
cộng đồng
Mỗi đỉnh chỉ thuộc 1
cộng đồng duy nhất
2 Tần suất xuất hiện
trong thực tế Nhiều Ít
Bảng 2.1 So sánh các loại cấu trúc cộng đồng
Bảng 2.1 là sự so sánh giữa hai loại cấu trúc này, sự mâu thuẫn giữa các
cộng đồng chủ yếu trong việc sở hữu các đỉnh. Để giải quyết mâu thuẫn cần phải
có phƣơng pháp “hòa giải” phù hợp, tránh mất tổng quát của hai loại cấu trúc
này.
2.2 Các phƣơng pháp phát hiện cộng đồng
2.2.1 Ứng dụng: Phát hiện cộng đồng là một nhiệm vụ quan trọng trong
nghiên cứu và cung cấp các thông tin tổng quát về cấu trúc mạng. Áp dụng các
giải thuật tìm kiếm cộng đồng trong MXH đã và đang đƣợc áp dụng trong một
số lĩnh vực khoa học và đời sống [19]:
25
- Nghiên cứu tìm kiếm cộng đồng để phát hiện sự lan truyền các dịch
bệnh trong các cộng đồng, từ đó có phƣơng pháp kiểm soát các loại dịch bệnh
vào năm 2010.
- Sử dụng giải thuật tìm kiếm tìm ra nhóm khách hàng có cùng sự quan
tâm tới một sản phẩm để đƣa ra các đánh giá, nâng cao hiệu quả kinh doanh.
- Nghiên cứu quá trình trao đổi chất trong cộng đồng mạng lƣới sinh học
để hiểu cơ chế kiểm soát của tế bào.
- Phát hiện các cộng đồng giúp nghiên cứu cấu trúc hình học, phân tích
chức năng và hành vi của các mạng phức tạp.
2.2.2 Các loại giải thuật: Cho đồ thị G(E,V) với E là số cạnh, V là số
đỉnh của đồ thị.
a) Phân vùng đồ thị (Graph Partitioning): là cách thức phân chia đồ thị G
thành các đồ thị nhỏ hơn với các đặc trƣng riêng. Một phân vùng đƣợc gọi là tốt
nếu số cạnh trung gian giữa phân vùng đó với phân vùng khác là ít. Bài toán
phân vùng đƣợc coi là bài toán NP - khó và đã có nhiều giải thuật đƣợc phát
triển những năm gần đây. Các ứng dụng của giải thuật phân vùng đồ thị trong
các lĩnh vực: khoa học tính toán, lập lịch trong các hệ thống đa xử lý, phân cụm
và phát hiện các đồ thị Clique – là đồ thị đầy đủ trong các mạng có quy mô.
Giải thuật phân cụm là giải thuật tìm ra các cụm đỉnh bằng cách sử dụng
các độ đo giữa các cặp đỉnh. Số lƣợng các cụm đƣợc cho trƣớc và làm dữ liệu
đầu vào của các kỹ thuật phân vùng. Tuy nhiên, số lƣợng các cộng đồng trong
một mạng và kích thƣớc của chúng là không đƣợc biết trƣớc, nhƣng có thể đƣợc
tự động tìm kiếm Flake et al., 2002; Radichii et al., 2004.
b) Phân cụm thứ bậc (Hierarchical): Đây là kỹ thuật phát hiện cộng đồng
khá nổi bật, giúp xây dựng cấu trúc phân cấp giữa các cộng đồng. Phƣơng pháp
này sẽ giả định các cộng đồng trong mạng có sự phân cấp, mỗi đỉnh thuộc các
nhóm không kết nối sẽ là nhóm con của nhóm lớn hơn. Những giả định này phù
hợp với các mạng nhƣ mạng lƣới tổ chức nhƣ một học sinh thuộc cùng một lớp
sẽ là nhóm nhỏ của một trƣờng, … Loại giải thuật này không yêu cầu biết trƣớc
số cụm và kích thƣớc của các cụm đó nhƣng các đỉnh thuộc một cộng đồng có
thể không đƣợc phân lớp chính xác bởi do ảnh hƣởng lựa chọn độ đo độ tƣơng
tự giữa các cặp đỉnh. Có 02 loại kỹ thuật phân cụm thứ bậc:
- Phân cụm thứ bậc tập hợp (Agglomerative): Hay còn gọi là phân cụm từ
dƣới – lên, độ phức tạp của giải thuật O(n2log(n)). Các bƣớc thực hiện:
+ Mỗi đỉnh trong đồ thị đƣợc coi là một cụm đơn.
26
+ Tìm các cặp cụm có khoảng cách ngắn nhất (độ tƣơng sự lớn nhất) và
tập hợp chúng lại thành một cụm. Tính khoảng cách (độ tƣơng tự) giữa cụm mới
với các cụm còn lại.
+ Lặp lại hai bƣớc trên cho đến khi tất các đỉnh thuộc một cụm duy nhất.
Để tính khoảng cách giữa các cụm có nhiều cách khác nhau, có một số
phƣơng pháp phổ biến:
Kí hiệu: A, B là hai cụm bất kỳ; a, b lần lƣợt là các phần tử thuộc cụm A, B
d(a,b) là khoảng cách từ phần tử a tới phần tử b.
TT Tên phƣơng pháp Cách tính Tiêu chí
Kết nối
1
Phƣơng thức kết nối đơn (Single
Linkage Method)
- Tên gọi khác: Phƣơng pháp láng
giềng gần nhất
Min 𝑑 𝑎, 𝑏 :𝑎 𝜖 𝐴, 𝑏 𝜖 𝐵
Độ tƣơng tự lớn
nhất hay Khoảng
cách ngắn nhất
2
Phƣơng thức kết nối toàn bộ
(Complete Linkage Method)
- Tên gọi khác: Phƣơng pháp láng
giềng xa nhất
Max 𝑑 𝑎, 𝑏 :𝑎 𝜖 𝐴, 𝑏 𝜖 𝐵
Độ tƣơng tự nhỏ
nhất hay Khoảng
cách xa nhất
3
Phƣơng thức kết nối trung bình
(Average Linkage Method)
- Tên gọi khác: UPGMA
1
𝐴 |𝐵| 𝑑(𝑎, 𝑏)
𝑏∈𝐵𝑎∈𝐴
Độ tƣơng tự trung
bình hay khoảng
cách trung bình
Bảng 2.2 Các phương pháp tính khoảng cách hai cụm
Hình 2.2 Các phương pháp phân cụm thứ bậc
27
- Phân cụm thứ bậc phân chia (Divisive): Hay còn gọi là phân cụm từ trên
- xuống, độ phức tạp của giải thuật là O(2n). Giải thuật đƣợc đƣa ra bởi hai nhà
khoa học Girvan và Newman vào năm 2002. Bắt đầu một mạng, tiến hành chia
nhỏ mạng thành mạng nhỏ hơn. Quá trình này sẽ kết thúc mỗi cộng đồng chỉ
chứa một đỉnh duy nhất.
c) Tối ưu hóa độ đo Modularity (Modularity Optimization): Độ đo
modularity là một độ đo đánh giá chất lƣợng các cộng đồng đƣợc phát hiện và
cách cải thiện chất lƣợng các cộng đồng này. Năm 2006, Newman và Girvan đã
đƣa ra một tiêu chí để dừng việc phân tách của các giải thuật tìm kiếm cộng
đồng là độ đo modularity Q. Để xác định độ đo Q, ta so sánh số lƣợng cạnh
trong đồ thị đã cho so với số lƣợng cạnh trong đồ thị ngẫu nhiên. Độ đo này sử
dụng để đánh giá chất lƣợng các phân vùng, đƣợc tìm thấy từ các giải thuật tìm
kiếm khác nhau. Giá trị Q càng lớn, chất lƣợng phân vùng đƣợc đánh giá là tốt.
Tối ƣu hóa độ đo Q là một bài toán khó (Brandes et al., 2008), do rất khó có thể
tìm giá trị Q tối ƣu. Có một số kỹ thuật tìm giá trị Q tối ƣu:
+ Giải thuật tìm kiếm tham lam (Greedy Optimization): Năm 2004,
Newman đã đƣa ra giải thuật cực đại hóa độ đo modularity bằng phƣơng pháp
tìm kiếm tham lam. Cùng năm đó, Clauset et al. đã đề xuất cải tiến các toán tử
trong giải thuật của Newman, nhằm cải thiện thời gian chạy của giải thuật.
Danon et al. đã chuẩn hóa các biến độ đo Modularity bằng cách sát nhập hai
cộng đồng bằng cách sử dụng lát cắt ngẫu nhiên của một trong hai cộng đồng
vào năm 2006. Hai năm sau đó, Blondel et al. đã áp dụng giải thuật tìm kiếm
tham lam đối với đồ thị có trọng số.
+ Giải thuật theo hạt mô phỏng (Simulated Annealing): Đây là phƣơng
pháp chỉ sử dụng với đồ thị có kích thƣớc nhỏ. Giải thuật đƣợc coi nhƣ một hàm
xác suất, tiến hành lựa chọn một phân vùng trong đồ thị, tìm giá trị tối ƣu độ đo
Modularity trong những phân vùng đó. Năm 2004, giải thuật đƣợc đƣa ra bởi
Guimera et al. Ý tƣởng của giải thuật là bắt đầu tại một phân vùng đƣợc lựa
chọn ngẫu nhiên. Sau đó di chuyển các đỉnh vào thành một cụm hoặc các cụm
khác nhau. Tiếp tục việc sát nhập và phân tách các cụm, tính độ đo Modularity.
Nếu cụm nào có độ đo Modularity tăng thì giữ lại, nếu giảm tiếp tục quá trình
phân tách và sát nhập.
+ Tối ƣu hóa mở rộng (External optimization): Là giải thuật tìm kiếm
heuristic đƣợc đƣa ra bởi Boettcher và Pecres vào năm 2001. Kết quả của giải
thuật tìm thấy giá trị độ đo modularity tối ƣu và cải thiện thời gian chay của
chƣơng trình. Năm 2005, Duch và Arenes tìm ra giá trị modularity của một đỉnh
28
dựa trên việc tối ƣu hóa biến cục bộ. Độ phức tạp của giải thuật này là O (n2
logn). Các bƣớc giải thuật:
Bƣớc 1: Bắt đầu một phân vùng ngẫu nhiên nằm giữa hai cụm.
Bƣớc 2: Sử dụng hàm Fitness để đánh giá độ tốt của một đỉnh. Đỉnh có độ
fitness thấp nhất sẽ đƣợc chuyển sang cộng đồng khác.
Bƣớc 3: Giá trị Fitness đƣợc tính lại với phân vùng khác.
Bƣớc 4: Thuật toán sẽ dừng lại nếu độ đo Modularity của các cụm không
đƣợc cải thiện hơn.
d) Phân cụm dựa trên quang phổ (Spectral clustering): là kỹ thuật phân
vùng dựa trên giá trị các phần tử của của ma trận. Sử dụng kỹ thuật phân cụm k-
mean để phân chia đồ thị. Tuy nhiên, phƣơng pháp này có thể phân tách các
đỉnh mà không cần sử dụng giải thuật k-mean.
2.3 Các giải thuật tìm kiếm cộng đồng chồng chéo
Hiện tƣợng các cộng đồng chồng chéo đƣợc nghiên cứu lần đầu tiên bởi
nhóm nghiên cứu Palla et al. vào năm 2005. Ông đã đề xuất phƣơng pháp tìm
kiếm các đồ thị Clique, là một đồ thị đầy đủ. Phát hiện cộng đồng chồng chéo là
một bài toán NP - khó và có nhiều phƣơng pháp cho phép giải quyết những vấn
đề này nhƣng hầu hết không đạt hiệu quả nhƣ mong đợi. Một số giải thuật tìm
kiếm cộng đồng chồng chéo:
- Giải thuật tìm kiếm đồ thị Clique (Clique Percolation Method - CPM):
phƣơng pháp này đƣợc đƣa ra bởi Palla et al. vào năm 2005. Nhóm tác giả đã
mở rộng các vấn đề của Girvan Newman là tìm các cộng đồng chồng chéo,
trong đó một đỉnh có thể thuộc một hoặc nhiều cộng đồng. Ý tƣởng của giải
thuật là mỗi cộng đồng đƣợc hình thành từ các đồ thị Clique và đồ thị ban đầu
chứa một số lƣợng lớn đồ thị Clique. Khái niệm đồ thị k-clique đƣợc sử dụng để
chỉ ra một đồ thị đầy đủ với k đỉnh. Hai đồ thị k-clique kề nhau có chung (k-1)
đỉnh. Palla và các cộng sự đã thiết kế gói phần mềm Cfinder thực thi giải thuật
này. Năm 2007, Palla et al. đã đƣa ra định nghĩa đồ thị k-clique có hƣớng và đề
xuất giải pháp giải quyết những giới hạn của giải thuật CPM, gọi là CPMd
(Clique Percolation Method with directed cliques). Cùng năm đó, Farkas et al.
đã mở rộng giải thuật CPM đối với đồ thị có trọng số, giải thuật CPMw. Năm
2008, Kumpula et al. đã đƣa ra giải thuật phát hiện cộng đồng nhanh đƣợc gọi là
SCP (Sequential Clique Percolation Method) đối với các đồ thị có trọng số và
không trọng số, trong đó kích thƣớc đồ thị clique đƣợc cho trƣớc. Thời gian
chạy của giải thuật SCP nhanh hơn CPM. Giải thuật CPM:
29
Đầu vào: Đồ thị G gồm N đỉnh, đồ thị Clique có k đỉnh.
Đầu ra: Cấu trúc cộng đồng.
Bƣớc 1: Tìm tất cả các đồ thị k-clique trong đồ thị G.
Bƣớc 2: Xây dựng đồ thị Gc là đồ thị mà mỗi đỉnh đại diện cho một k-
clique trong đồ thị ban đầu. Hai k-clique có cạnh kết nối với nhau nếu chúng có
chung (k-1) đỉnh.
Bƣớc 3: Mỗi đồ thị Clique đƣợc coi là một cộng đồng trong mạng.
- Giải thuật phân vùng đồ thị dựa trên thông tin của cạnh (Link based
algorithms): Ý tƣởng của giải thuật này là phân vùng các cạnh mà không phải là
các đỉnh. Năm 2010, Ahn et al. đã đƣa ra khái niệm “cộng đồng cạnh” và giải
quyết thành công mâu thuẫn giữa cấu trúc chồng chéo và phân cấp. Cùng năm
đó, Evan et al. đã mở rộng giải thuật này bằng cách sử dụng các đồ thị Clique.
Phƣơng pháp này coi mỗi đồ thị Clique trong đồ thị ban đầu là một đỉnh trong
đồ thị đƣờng, các cạnh nối giữa các đồ thị clique này đƣợc đánh trọng số. Tuy
nhiên, nhà khoa học Fortunato đã đƣa ra quan điểm rằng không có sự đảm bảo
chính xác rằng đồ thị đƣờng cung cấp các cộng đồng cạnh có chất lƣợng cao hơn
các cộng đồng đỉnh.
- Phân cụm mờ (Fuzzy): Là phƣơng pháp phân cụm mà cho phép mỗi đỉnh
thuộc về hai cụm hoặc nhiều cụm thông qua bậc thành viên. K-mean là thuật
toán phân cụm rõ, c-mean là thuật toán phân cụm mờ. Đối với các cộng đồng
chồng chéo, phƣơng pháp này cho phép mỗi đỉnh có thể thuộc nhiều hơn một
cộng đồng nhƣng tầm ảnh hƣởng của đỉnh này với mỗi cộng đồng mà nó thuộc
vào là khác nhau. Năm 2011, Gregory đã đánh giá tầm ảnh hƣởng của mỗi đỉnh
trong mỗi cộng đồng mà đỉnh đó thuộc vào bằng hệ số sở hữu của mỗi cộng
đồng. Năm 2007, Zhang et al. đã phát triển phƣơng pháp phân cụm dựa trên
quang phổ, phân cụm mờ và tối ƣu hóa hàm đánh giá chất lƣợng. Một năm sau
đó, Nepusz et al. đã đƣa ra phƣơng pháp cho phép mỗi đỉnh có thể thuộc vào
nhiều cộng đồng tại cùng một thời gian. Năm 2009, Wang et al. đã áp dụng
phƣơng pháp phát hiện các cộng đồng không kết nối vào giải thuật tối ƣu hóa
hàm địa phƣơng. Gần đây, Psorakis et al. đã đƣa ra đề xuất phát hiện cộng đồng
dựa vào ma trận với các phần tử giá trị không âm để trích lọc ra các cộng đồng
chồng chéo.
- Tối ưu hóa và mở rộng hàm địa phương (Local Exapansion and
Optimization): Năm 2007, Gregory S đã đề xuất giải thuật CONGA (Cluster-
Overlap Newman Girvan Algorithm), là sự mở rộng của giải thuật GN của
30
Girvan và Newman. Phƣơng pháp chia các đỉnh thành nhiều phần khác nhau, để
một phần trong các đỉnh đã chia đó xuất hiện trong các cộng đồng con. Các
bƣớc của giải thuật CONGA:
Đầu vào: Đồ thị G<N,M> gồm N đỉnh, M cạnh.
Đầu ra: Các cộng đồng đỉnh.
Bƣớc 1: Tính độ trung gian của các cạnh trong mạng.
Bƣớc 2: Hủy bỏ các cạnh có độ trung gian cao nhất.
Bƣớc 3: Tính lại độ trung gian cho tất cả các cạnh bị ảnh hƣởng theo các
cạnh đã loại bỏ.
Bƣớc 4: Lặp lại bƣớc 2 cho đến khi không còn cạnh trung gian nữa.
- Giải thuật tìm kiếm cộng đồng dựa trên các tác tử và miền động (Agent
and Dynamic based Algorithm): Thuật toán lan truyền nhãn là phƣơng pháp dựa
trên các tác tử, trong đó nhãn của các nút sẽ lan truyền tới các nút xung quanh
theo độ gần của chúng. Đây là phƣơng pháp tìm kiếm nhanh, đƣợc sử dụng để
tìm các cộng đồng không kết nối và chồng chéo. Trong quá trình lan truyền, cố
định các nhãn trên các miền dữ liệu đã đƣợc gán nhãn. Năm 2007, giải thuật
LPA (Label Progation Algorithm) đã đƣợc đề xuất bởi Raghavan et al., nhằm
phát hiện các cộng đồng không kết nối trong các mạng có quy mô lớn. Giải thuật
đƣợc mở rộng bởi Gregory vào năm 2010, trong đó tác giả đã đề xuất một đỉnh
có thể sở hữu nhiều nhãn hơn. Giải thuật này gọi là COPRA (Community
Overlap Label Propagation Algorithm). Các bƣớc giải thuật LPA:
Đầu vào: Đồ thị G<N,M> gồm N đỉnh, M cạnh.
Đầu ra: Các cộng đồng đỉnh.
Bƣớc 1: Mỗi đỉnh đƣợc gán một nhãn duy nhất.
Bƣớc 2: Lựa chọn ngẫu nhiên đỉnh kề với đỉnh đang xét, gán nhãn giống
đỉnh đang xét. Quá trình này sẽ đƣợc lặp lại nhiều lần.
Bƣớc 3: Tất cả các đỉnh có nhãn giống nhau thuộc cùng một đỉnh.
2.4 Lựa chọn giải thuật tìm kiếm
Trong luận văn, Tác giả lựa chọn giải thuật Phân vùng theo cạnh (Link
Clustering) của Ahn et al. để áp dụng vào giải quyết bài toán khía cạnh tổ chức
đã nêu tại Chƣơng 1. Năm 2009, hai nhà khoa học Evans và Lambiotte lần đầu
đề xuất sử dụng đồ thị đƣờng – đây là đồ thị mà mỗi đỉnh là đại diện của một
cạnh của đồ thị ban đầu (Wikipedia), phƣơng pháp này giúp phát hiện các cộng
31
đồng chồng chéo bằng cách phân cụm thứ bậc dựa trên các cạnh của đồ thị, mà
không phải là các đỉnh. Một năm sau đó, Ahn et al. đã thực hiện ý tƣởng này
bằng cách sử dụng độ tƣơng tự giữa hai cạnh kề và đƣa ra khái niệm cộng đồng
cạnh. Ahn et al. đã viết: “Trong thực tế, phần lớn các mạng chứa các cộng đồng
chồng chéo nhau, trong đó một hoặc tất cả các đỉnh có thể thuộc sở hữu của
nhiều cộng đồng, dẫn đến cấu trúc phân cấp các đỉnh không thể mô tả đƣợc sự
chồng chéo này” [4].
* Ý tưởng của giải thuật: Tính độ tƣơng tự giữa cặp cạnh trong đồ thị, từ
đó xây dựng ma trận độ tƣơng tự. Tiến hành gom cụm bằng cách sử dụng kỹ
thuật phân cụm thứ bậc từ dƣới – lên và phƣơng thức kết nối đơn đối với ma
trận này. Quá trình gom cụm sẽ đƣợc lƣu lại, hình thành cây lƣợc đồ
(Dendogram). Tìm ngƣỡng cắt cây lƣợc đồ mà tại đó giá trị mật độ phân vùng
trung bình của tất cả các phân vùng đạt kết quả cực đại. Lựa chọn giá trị ngƣỡng
cắt đó và thực hiện cắt cây lƣợc đồ. Kết quả cuối cùng sinh ra một tập các cộng
đồng cạnh và các cộng đồng đỉnh tƣơng ứng. Nhƣ vậy, các cộng đồng cạnh có
cấu trúc phân cấp, cộng đồng đỉnh có cấu trúc chồng chéo. Ý tƣởng này giúp
giải quyết mâu thuẫn giữa hai loại cấu trúc cộng đồng điển hình này.
Đầu vào: Đồ thị vô hƣớng, không trọng số
Đầu ra: Các cộng đồng cạnh, và các cộng đồng đỉnh chồng chéo tƣơng
ứng.
* Các bước thực hiện: Xét đồ thị G 𝑀,𝑁 vô hƣớng, không trọng số.
Trong đó: 𝑀 là tổng số cạnh, 𝑁 là tổng số đỉnh của đồ thị.
Ký hiệu: Đỉnh i, j ∈ đồ thị G;
𝑒𝑖𝑘 cạnh nối giữa đỉnh i và k; 𝑒𝑗𝑙 cạnh nối giữa đỉnh j và l
Bước 1: Tính độ tương tự giữa các cạnh:
𝑛+ 𝑖 = 𝑖,𝑘 𝑣à 𝑡ậ𝑝 đỉ𝑛 𝑘ề 𝑣ớ𝑖 𝑖 ;
𝑛+ 𝑗 = 𝑗, 𝑙 𝑣à 𝑡ậ𝑝 đỉ𝑛 𝑘ề 𝑣ớ𝑖 𝑗 ;
Độ tƣơng tự giữa cạnh 𝑒𝑖𝑘 và 𝑒𝑗𝑙 là: S(𝑒𝑖𝑘 , 𝑒𝑗𝑙 )= |𝑛+ 𝑖 ∩𝑛+ 𝑗 |
|𝑛+ 𝑖 ∪𝑛+ 𝑗 |
0
,𝑘=𝑙 ,𝑘≠𝑙
Bước 2: Xây dựng ma trận độ tương tự:
Gọi 𝑀𝑠 là ma trận độ tƣơng tự, là ma trận vuông có kích thƣớc 𝑀 × 𝑀
Mỗi phần tử của ma tận 𝑀𝑠 sẽ đƣợc tính:
32
𝑀𝑠 (𝑒𝑖𝑘 , 𝑒𝑗𝑙 )= 𝑆(𝑒𝑖𝑘 , 𝑒𝑗𝑙 )
0 𝑘=𝑙𝑘≠𝑙
Bước 3: Thực hiện gom cụm:
Sử dụng kỹ thuật gom cụm từ dƣới – lên (bottom-up) và phƣơng thức kết
nối đơn để kết nối các cụm. Lịch sử của quá trình gom cụm tạo thành một cây
lƣợc đồ (dendogram), trong đó mỗi cạnh là một lá của cây.
Bước 4: Tìm ngưỡng cắt cây lược đồ:
Cho trƣớc một ngƣỡng cắt cây lƣợc đồ, sau khi thực hiện cắt với ngƣỡng
này ta thu đƣợc một tập các phân vùng. Tại mỗi ngƣỡng cho trƣớc, sau khi cắt
sinh ra một tập các cộng đồng cạnh.
Gọi C tập các phân vùng cạnh đƣợc tạo ra từ ngƣỡng cắt cho trƣớc. Tùy
theo phƣơng thức sử dụng phân cụm khác nhau, kết quả tập C sẽ có giá trị khác
nhau. Tổng số cạnh trong mỗi phân vùng ∈ 𝐶 luôn < 𝑀 .
Kí hiệu: 𝐶 ={𝐶1, 𝐶2, …, 𝐶𝑙 , …, 𝐶𝑙}, l ∈ 1,𝑘 ; 𝑚𝑙 = 𝐶𝑙 là số tổng lƣợng
cạnh trong tập con 𝐶𝑙 ; 𝑛𝑙 = |∪𝑒𝑖𝑗 𝜖𝐶𝑙 {𝑖, 𝑗}| là số lƣợng đỉnh đƣợc kết nối các cạnh
∈ Cl.
𝐷𝑙=
𝑚 𝑙−(𝑛 𝑙−1)
𝑛𝑙 𝑛 𝑙−1
2–(𝑛 𝑙−1)
0
𝑛 𝑙>2𝑛 𝑙≤2
Giá trị mật độ phân vùng D là giá trị trung bình của 𝐷𝑙 . Ngƣỡng cắt cây
lƣợc đồ đƣợc tính:
D = 2
|𝑀| 𝑚𝑙
𝑚 𝑙−(𝑛 𝑙−1)
(𝑛 𝑙−1)(𝑛 𝑙−2)
𝑘𝑙=1
Giá trị mật độ phân vùng D là giá trị giúp xác định ngƣỡng cắt tốt nhất để
cắt cây lƣơc đồ. Ngƣỡng cắt tốt nhất là ngƣỡng cắt mà giá trị mật độ phân vùng
trung bình D đạt cực đại. Với ngƣỡng cắt này, kết quả tìm ra các cộng đồng cạnh
có cấu trúc không chồng chéo, tƣơng ứng là các cộng đồng đỉnh có thể có cấu
trúc chồng chéo tùy theo sự kết nối mạnh hay yếu của các cộng đồng cạnh.
* Ưu, nhược điểm của giải thuật:
- Ưu điểm: Tìm ra các cộng đồng cạnh có cấu trúc phân cấp, cộng đồng
đỉnh tƣơng ứng có cấu trúc chồng chéo. Giải quyết đƣợc sự mâu thuẫn giữa hai
loại cấu trúc phân cấp và chồng chéo.
- Nhược điểm: Do việc tìm kiếm cộng đồng chủ yếu dựa trên độ tƣơng tự
giữa các cạnh kề, có chung một đỉnh và bỏ qua độ tƣơng tự các cạnh không kề
nhau. Nhƣ vậy, một lƣợng lớn các thông tin bị mất gây ảnh hƣởng đến kết quả
phân tích cộng đồng.
33
+ Hạn chế của độ tương tự:
Ta có: S 𝑒𝑎𝑏 , 𝑒𝑐𝑑 = 0 => Cạnh eab và ecd không thuộc một cộng đồng. (1)
S 𝑒𝑎𝑏 , 𝑒𝑓 = 0 => Cạnh eab và ehf không thuộc một cộng đồng. (2)
Thực tế, cạnh 𝑒𝑎𝑏 và 𝑒𝑐𝑑 tuy thuộc cùng cộng đồng phải có giá trị độ
tƣơng tự cao hơn cạnh 𝑒𝑎𝑏 và 𝑒𝑓 .
Từ (1) và (2), ta có thể thấy rằng: nếu dựa vào độ tƣơng tự để phân chia
cộng đồng đối với tất cả các loại cấu trúc đồ thị có thể tạo ra những kết quả
không chính xác, gây chia chỏ cộng đồng.
Hình 2.3 Đồ thị minh họa nhược điểm của giải thuật
+ Hạn chế của mật độ phân vùng: Ta có hai ngƣỡng cắt:
TT Các phân vùng Mật độ phân vùng trung bình
1
P1:𝑒𝑎𝑏 , 𝑒𝑏𝑐 , 𝑒𝑎𝑐
P2: 𝑒𝑎𝑑 , 𝑒𝑐𝑑
P3: 𝑒𝑓
D=2
6 3 ∗ 1 + 0 + 0 = 1
2 P1: 𝑒𝑎𝑏 , 𝑒𝑏𝑐 , 𝑒𝑎𝑐 , 𝑒𝑎𝑑 , 𝑒𝑐𝑑
P2: 𝑒𝑓
D=1
6 5 ∗
2
3+ 0 = 0.56
Bảng 3.3 Tính mật độ phân vùng
Nếu chia đồ thị Hình 2.3 thành 3 cộng đồng con, giá trị mật độ phân vùng
trung bình =1, nếu hai cộng đồng thì giá trị mật độ trung bình = 0.56 <1 (Cách
tính như trong Bảng 3.3). Thực tế, hai tam giác này thuộc cùng một cộng đồng.
Do đó, mật độ phân vùng chƣa phản ánh đúng bản chất các cộng đồng trong một
mạng. Nếu dựa trên công thức tính mật độ phân vùng 𝐷𝑙 ở Chƣơng này, ta thấy
tử số 𝑚𝑙 − (𝑛𝑙 − 1) tăng chậm hơn so với mẫu số [𝑛 𝑙 𝑛 𝑙−1
2– (𝑛𝑙 − 1)]→ điều
này làm cho giá trị mật độ phân vùng nhỏ đi, việc phân tách các cộng đồng diễn
ra không hiệu quả.
a
b c
d
f
h
34
CHƢƠNG 3. ÁP DỤNG GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG
CHỒNG CHÉO VÀO BÀI TOÁN KPQT
3.1. Phƣơng pháp nghiên cứu
3.1.1 Tính hiệu quả của đề xuất
Thách thức lớn nhất đối với các kỹ thuật khai phá thuộc khía cạnh tổ chức
liên quan đến khối lƣợng và chất lƣợng dữ liệu lƣu trong nhật ký sự kiện bao
gồm dung lƣợng dữ liệu lớn, lƣợng thông tin không giá trị nhiều, …. Việc trích
lọc những thông tin có giá trị trở lên khó khăn, tiêu tốn thời gian, sức lực và chi
phí. Thậm chí, chi phí trích lọc thông tin có giá trị còn lớn hơn nhiều doanh thu
của các doanh nghiệp có quy mô nhỏ. Từ lâu, chiến lƣợc “chia để trị” đã trở
thành phƣơng pháp đƣợc áp dụng phổ biến trong các bài toán phức tạp. Việc
chia vấn đề lớn thành các vấn đề nhỏ để giải quyết là phƣơng pháp mang lại hiệu
quả cao. Tuy nhiên, việc áp dụng nhƣ thế nào, hiệu quả việc áp dụng này đối với
từng bài toán đã và đang đƣợc các nhà khoa học quan tâm và nghiên cứu.
Trong giới hạn luận văn, tác giả sử dụng chiến lƣợc này bằng cách đề xuất
áp dụng giải thuật tìm kiếm cộng đồng chồng chéo vào bài toán KPQT nhằm tìm
ra sự chồng nhiệm vụ giữa những ngƣời tham gia vào quy trình. Đề xuất trong
luận văn mang lại những hiệu quả, cụ thể nhƣ:
- Giải quyết vấn đề kích thước dữ liệu lớn: Luận văn sử dụng các kỹ
thuật phát hiện MXH từ tập nhật ký sự có kích thƣớc dữ liệu lớn. Mỗi tập dữ
liệu có thể chứa vài trăm trƣờng hợp, hàng nghìn sự kiện với vài trăm ngƣời
tham gia thực hiện nhiệm vụ trong một quy trình lớn. Tuy nhiên, đề xuất này chỉ
tập trung vào những ngƣời tham gia vào các hoạt động của quy trình và sự tƣơng
tác của họ. Mô hình hóa một vấn đề là bƣớc đầu tiên, quan trọng của một bài
toán. MXH biểu diễn ngƣời, mối quan hệ bằng các khái niệm hình học, giúp trực
quan hóa các mối quan hệ này.
- Đưa ra kết quả có độ tin cậy cao: Mô hình MXH đƣợc xây dựng trên dữ
liệu sự kiện đƣợc ghi lại trong quá trình hoạt động của doanh nghiệp. Do đó, mô
hình MXH đƣợc xây dựng phản ánh bản chất sự tƣơng tác giữa những ngƣời
tham gia vào quy trình. Các kết quả phân tích MXH tạo ra độ tin cậy cao nhằm
hỗ trợ các nhà quản lý ra quyết định liên quan đến vấn đề tổ chức.
- Trích lọc thông tin có giá trị: Đề xuất trong luận văn sử dụng giải thuật
tìm kiếm cộng đồng chồng chéo nhằm tìm ra sự chồng chéo trong nhiệm vụ giữa
những ngƣời trong một công ty. Từ đó, nhà quản lý có thể nắm bắt đƣợc thông
tin về sự chồng chéo trong phân công nhiệm vụ giữa những nhân viên của họ, từ
đó đƣa ra các quyết định liên quan đến cấu trúc tổ chức một cách khách quan.
35
3.1.2 Định dạng dữ liệu đầu vào các độ đo:
- Dạng chuẩn dữ liệu đầu vào: Luận văn sử dụng dữ liệu nhật ký sự kiện
định dạng XES. Đây là một định dạng chuẩn đƣợc sử dụng để lƣu trữ nhật ký sự
kiện trong các HTTT, đƣợc phát triển bởi IEEE Task Force Process Mining.
Định dạng mới này có sự linh hoạt và giải quyết đƣợc những hạn chế của định
dạng MXML. Do không có một thuộc tính xác định toàn cục nào trong tệp XES
và các thuộc tính của các phần tử bên trong tệp XES có ngữ nghĩa không rõ
ràng. Chính sự không rõ ràng này giúp lƣu một số định dạng dữ liệu mở rộng.
Thủ tục mở rộng một số thuộc tính tại các mức khác nhau trong kiến trúc XES
đã cung cấp một số tham chiếu để giải thích các thuộc tính. Nhà khoa học
Christian W. Gunther đã định nghĩa một siêu mô hình cho định dạng XES. Các
thuộc tính toàn cục đƣợc xác định nhƣ các phần mở rộng để giải quyết các vấn
đề của vấn đề ngữ nghĩa không rõ ràng, khi mà các HTTT không xác định đƣợc
nội dung của các thuộc tính chuẩn. Trong tệp dữ liệu định dạng XES, mỗi vết
(trace) tƣơng ứng với một trƣờng hợp trong MXML. Một vết có thể có nhiều sự
kiện và một số thuộc tính.
<trace>
<string key="concept:name" value="3"/>
<string key="creator" value="Fluxicon Nitro"/>
<event>
<string key="concept:name" value="register request"/>
<string key="org:resource" value="Pete"/>
<date key="time:timestamp" value="2010-12-30T14:32:00.000+01:00"/>
<string key="Activity" value="register request"/>
<string key="Resource" value="Pete"/>
<string key="Costs" value="50"/>
</event>
…
Hình 3.1 Một phần mã nguồn dữ liệu nhật ký sự kiện
Nhật ký sự kiện lƣu trữ các thông tin liên quan đến sự kiện nhƣ tài nguyên
(bao gồm con ngƣời, thiết bị, …), thời gian xảy ra sự kiện, …Mỗi trƣờng hợp
tƣơng ứng một lần thực hiện một quy trình, gồm nhiều sự kiện. Mỗi sự kiện là
tƣơng ứng với một trƣờng hợp duy nhất, bao gồm các thuộc tính nhƣ thời gian
thực hiện, tên công việc, nguồn tài nguyên, ngƣời thực hiện, …. Các giá trị các
thuộc tính là đặc trƣng riêng của mỗi sự kiện.
Mã
Trƣờng
hợp
Mã sự
kiện
Thuộc tính
Thời gian Hoạt động
Ngƣời
thực
hiện
Chi
phí
1 35654423 30-12-2010:11.02 Đăng ký Pete 50
36
1 35654424 31-12-2010:10.06 Kiểm tra đơn Mike 400
2 35654483 30-12-2010:11.32 Đăng ký Mike 50
2 35654485 30-12-2010:12.12 Kiểm tra thẻ Sean 100
…
Bảng 3.1 Bảng mô tả các thuộc tính của một phần dữ liệu sự kiện
Bảng 3.1 biểu diễn một phần về các đặc điểm của nhật ký sự kiện, mỗi sự
kiện là một loại công việc đƣợc thực hiện bởi con ngƣời.
- Loại độ đo hỗ trợ biểu diễn cấu trúc mạng: Luận văn sử dụng độ đo
Handover of work để xây dựng ma trận mối quan hệ giữa những ngƣời tham gia
vào quy trình. Độ đo này có thể sinh ra một mô hình MXH hay đồ thị có hƣớng
và có trọng số. Tuy nhiên, trong luận văn Tác giả chỉ sử dụng mô hình MXH
đƣợc biểu diễn dƣới dạng đồ thị vô hƣớng, không trọng số làm đầu vào cho giải
thuật Phân vùng theo cạnh. Độ đo đƣợc sử dụng trong Luận văn, do:
+ Độ đo là đo mức độ thƣờng xuyên chuyển giao việc giữa những ngƣời
tham gia vào quy trình. Ý tƣởng của độ đo phù hợp với mục tiêu của luận văn,
tìm ra những cộng đồng ngƣời trong đó có những ngƣời thƣờng xuyên tƣơng tác
với nhau.
+ Kết quả khi áp dụng độ đo phù hợp định hƣớng luận văn sẽ mở rộng
giải thuật phân vùng theo cạnh đối với đồ thị có hƣớng và trọng số.
- Loại giải thuật tìm kiếm: Luận văn sử dụng giải thuật phát hiện cộng
đồng chồng chéo là giải thuật phân vùng theo cạnh của Ahn et al., do:
+ Ý tƣởng giải thuật: Để giải quyết bài toán KCTC, yếu tố quan trọng
nhất là sự tƣơng tác giữa những ngƣời tham gia vào quy trình. Sự tƣơng tác này
đƣợc biểu diễn dƣới dạng cạnh trong mô hình MXH. Giải thuật này phân vùng
mạng dựa trên thông tin của các cạnh kề. Do đó, ý tƣởng của giải thuật phù hợp
với ý tƣởng của luận văn.
+ Kết quả giải thuật: Cấu trúc tổ chức phân cấp không phản ánh đúng bản
chất liên quan giữa các cộng đồng trong thực tế. Mục tiêu của luận văn là tìm ra
sự chồng chéo của các cộng đồng. Giải thuật này tìm ra các cộng đồng chồng
chéo đáp ứng đƣợc mục liêu của luận văn.
+ Giải quyết mâu thuẫn giữa các loại cấu trúc: Có một nghịch lý trong
một số doanh nghiệp hiện nay là chức danh, vị trí, nhiệm vụ trên sổ sách đƣợc
phân theo mô hình phân cấp, nhƣng khi các hoạt động đƣợc thực hiện lại xảy ra
sự chồng chéo về chức nhiệm vụ các cá nhân, phòng. Giải thuật Phân vùng theo
cạnh giải quyết đƣợc nghịch lý này, phá vỡ mâu thuẫn cấu trúc chồng chéo và
phân cấp.
37
3.2 Giải pháp thực hiện
3.2.1 Đề xuất mô hình giải quyết:
Hình 3.2 Mô hình áp dụng giải tìm kiếm cộng đồng vào KPQT
Tệp XES
Thu thập dữ liệu sự kiện
Xử lý và làm sạch dữ liệu
Xây dựng ma trận mối quan hệ
Tệp XES
Ma trận
Áp dụng giải thuật tìm kiếm
cộng đồng
Cộng đồng
chồng chéo
Đánh giá chất lƣợng cộng đồng
Xây dựng ma trận kề
Lƣu đồ thị
(1)
(2)
(4)
(3)
(5)
(6)
(7)
Ma trận
Danh sách cạnh
38
3.2.2 Các bước thực hiện:
Bƣớc 1. Thu thập dữ liệu: Trong luận văn, Tác giả thu thập các tập dữ
liệu sự kiện định dạng XES 1.0, đƣợc công khai trên 02 website. Trong đó:
+ 03 tệp định dạng XES tƣơng ứng với 03 chƣơng của cuốn sách Process
Mining của tác giả Wil M.P. Van der Alast trên http://www.processmining.org.
Những tệp này không chứa những thông tin lỗi, nhiễu, …, bao gồm từ 100-1.500
trƣờng hợp, 50-15.000 sự kiện, 6-10 ngƣời tham gia thực hiện các hoạt động.
+ 01 tệp định dạng XES trên trang http://data.4tu.nl, là một trong những
dữ liệu đƣợc đƣa ra trong bài nghiên cứu về các thách thức của KPQT năm
2013. Trên chuyên trang này, các tập dữ liệu này đƣợc chia ra làm hai loại
chính: nhật ký sự kiện trong thực tế và nhật ký sự kiện đƣợc tổng hợp. Các tệp
dữ liệu có số sự kiện, trƣờng hợp, ngƣời tham gia quy trình lên đến hàng nghìn.
Định dạng các tệp thuộc nhiều dạng nhƣ CSV, XES, MMXL, … Tuy nhiên,
lƣợng thông tin bị nhiễu, lỗi, các thông tin không có giá trị khai phá trong mỗi
tệp dữ liệu rất lớn, đây chính là thách thức đối với nhiệm vụ tiền xử lý dữ liệu.
Tệp dữ liệu đƣợc Tác giả sử dụng trong thực nghiệm chứa 1571 trƣờng
hợp, trong đó 87 trƣờng hợp ghi lại quá trình xử lý sự cố, 1484 trƣờng hợp ghi
lại hoạt động của quy trình bao gồm 6644 sự kiện, có 442 ngƣời tham gia thực
hiện các hoạt động.
Bƣớc 2. Xử lý và làm sạch dữ liệu:
Đặc điểm của dữ liệu thu thập từ quá trình kinh doanh thƣờng chứa lƣợng
thông tin không có giá trị khai thác lớn. Trong một tệp nhật ký sự kiện có những
phần thông tin bị lỗi, không chính xác, thông tin về quá trình xử lý sự cố, … ít
khi dùng trong quá trình khai phá nguồn dữ liệu này. Những dạng thông tin này
đƣợc sinh ra có thể do con ngƣời hoặc phần mềm và có thể nằm rải rác hoặc tập
trung trong một tệp.
Tệp dữ liệu BPI2013.xes là tệp dữ liệu đƣợc sử dụng trong phần thực
nghiệm của Chƣơng 4, chứa các sự kiện đƣợc ghi lại trong khoảng thời gian từ
10/5/2007 đến 31/05/2012. Bên cạnh ghi lại các hoạt động của quy trình, tệp còn
ghi lại thông tin về quá trình xử lý sự cố (Incident handling process). Hệ thống
sẽ có những thông báo nhất định đối với từng loại sự cố, một số thông báo nhƣ:
“Accepted/ In Progress", “Queued/Awaiting Assignment",
“Completed/Resolved”, Completed/ Closed”, “Accepted/Wait-User", …. Việc
nhật ký sự kiện lƣu lại thông tin xử lý sự cố dƣới dạng không cấu trúc gây khó
khăn đối với các công cụ KPQT, kết quả sinh ra mô hình quy trình phức tạp nhƣ
39
mô hình Spaghetty [21]. Trong giới hạn luận văn, những thông tin không chứa
thông tin ngƣời thực hiện hoạt động nên sẽ không đƣợc sử dụng để khai thác.
Do đó, Tác giả đã loại bỏ loại thông tin này bằng phƣơng pháp thủ công.
<int key="Queued+Awaiting Assignment;Accepted+In Progress; Completed+Closed;
Accepted+In Progress; Queued+Awaiting Assignment;Accepted+In Progress
;Queued+Awaiting Assignment; Accepted+In Progress; Accepted+Assigned"
value="1"/><int key="Accepted+In Progress;Queued+Awaiting
Assignment;Accepted+In Progress;Accepted+In Progress" value="1"/>
Hình 3.3 Thông tin quá trình xử lý sự cố được lưu trong tệp BPI2013.xes
Bƣớc 3. Xây dựng ma trận mối quan hệ:
Cách tính dựa trên độ đo Handover of work:
Mỗi tập dữ liệu .XES gồm nhiều trƣờng hợp (case), mỗi trƣờng hợp gồm
nhiều sự kiện, và mỗi sự kiện ghi lại ngƣời thực hiện một nhiệm vụ trong một
chu kỳ quy trình kinh doanh.
- Xét từng trƣờng hợp, tính số lần ngƣời hai ngƣời chuyển giao nhiệm vụ
cho nhau. Ví dụ: Trong trƣờng hợp 1, 3, 7, 8, 9 (Bảng 3.2) có 5 lần Peter và
Mike thực hiện chuyển nhiệm vụ cho nhau.
- Tính tƣơng tự với các trƣờng hợp khác, tính tổng số lần ngƣời i, j
chuyển việc cho nhau. Giá trị này chính là giá trị phần tử của ma trận mối quan
hệ Bảng 3.3.
Bảng 3.2 mô tả thứ tự chuyển giao việc của từng ngƣời trong một trƣờng
hợp. Từ bản mô tả này, ta xây dựng ma trận số lần chuyển tác vụ giữa những
ngƣời tham gia vào quy trình.
Trƣờng hợp
1 2 3 4 5 6 7 8 9 10
Peter Mike Peter Peter Mike Mike Ellen Peter Ellen Mike
Mike Mike Mike Sue Sean Ellen Mike Mike Peter Sean
Ellen Sean Ellen Mike Sara Mike Peter Sean Mike Peter
Sara Sara Sara Sara Ellen Sara Sara Sara Sara Sara
Sara Sara Peter Mike Sara Ellen Sara
Sean Sean Ellen Ellen
Peter Peter Mike Mike
Sara Ellen Sara Sara
Ellen Sara Sara
Sue Sean
40
Peter Peter
Sara Sara
Mike Mike
Bảng 3.2 Thứ tự thực hiện nhiệm vụ của từng người trong mỗi trường hợp
𝑀 là ma trận sinh ra sau khi sử dụng độ đo Handover of work. Trong đó:
i, j là những ngƣời tham gia vào quy trình;
𝑀 𝑖, 𝑗 là một phần tử của ma trận 𝑀 . Ta có:
𝑀 𝑖, 𝑗 = số lần ngƣời i chuyển giao nhiệm vụ j và ngƣợc lại
0 ngƣời 𝑖 và j không có sự chuyển giao nhiệm vụ
(i,j) Ellen Mike Peter Sara Sean Sue
Ellen - 7 1 7 0 0
Mike 7 - 5 8 4 0
Peter 1 5 - 5 4 2
Sara 7 8 5 - 6 1
Sean 0 4 4 6 - 0
Sue 0 0 2 1 0 -
Bảng 3.3 Ma trận 𝑀 mối quan hệ
Bảng 3.3 là ma trận thể hiện mối quan hệ giữa những ngƣời tham gia vào
quy trình. Giá trị các phần tử của ma trận thể hiện số lần chuyển giao công việc
giữa hai ngƣời, nếu giá trị phần tử ma trận = 0, thể hiện hai ngƣời không có sự
chuyển giao công việc. Số lần chuyển giao cũng thể hiện sự tƣơng tác nhiều hay
ít của hai ngƣời trong quá trình thực hiện các hoạt động.
Bƣớc 4. Lƣu đồ thị: Cách thức lƣu trong tệp .txt:
Hình 3.5 Định dạng dữ liệu .txt lưu đồ thị
41
+ Đồ thị đƣợc lƣu trong các tệp .txt, dƣới dạng một danh sách các cạnh.
Mỗi cạnh đƣợc coi là một dòng trong tệp.
+ Các đỉnh phải đƣợc đánh số thứ tự bắt đầu từ số 0 và là số tự nhiên cách
nhau bởi một cách. Đƣợc sắp xếp lần lƣợt theo thứ tự.
Ví dụ: Ký hiệu: Đỉnh 0: [Ellen]; Đỉnh 1: [Mike]; Đỉnh 2: [Pete];
Đỉnh 3: [Sara]; Đỉnh 4: [Sean]; Đỉnh 5: [Sue].
Bƣớc 5. Xây dựng ma trận kề:
Gọi 𝑀𝑎 là ma trận đỉnh kề đƣợc xây dựng danh sách cạnh của bƣớc 4.
Trong đó: 𝑀𝑎 (i,j)= 10 đỉ𝑛 𝑖 𝑘ề 𝑣ớ𝑖 đỉ𝑛 𝑗
𝑛𝑔ượ𝑐 𝑙ạ𝑖
Đỉnh 0 1 2 3 4 5
0 1 1 1 1 0 0
1 1 1 1 1 1 0
2 1 1 1 1 1 1
3 1 1 1 1 1 1
4 0 1 1 1 1 0
5 0 0 1 1 0 1
Bảng 3.4 Ma trận đỉnh kề 𝑀𝑎
Trong bảng 3.4, giá trị các phần trận 𝑀𝑎 chỉ bao gồm hai loại giá trị là 0
và 1 thể hiện mối quan hệ của hai đỉnh trong đồ thị.
+ Mô hình đồ thị vô hƣớng, không trọng số đƣợc xây dựng từ ma trận
đỉnh kề: Nếu đỉnh 𝑀𝑎 𝑖, 𝑗 = 1, có một cạnh kết nối giữa đỉnh i và j, ngƣợc lại
không có cạnh kết nối giữa hai đỉnh.
Hình 3.4 Đồ thị được xây dựng từ ma trận kề
0
1
3
2
5
4
42
Bƣớc 6. Áp dụng giải thuật tìm kiếm cộng đồng: Ma trận đỉnh kề sẽ
đƣợc lƣu dƣới dạng ma trận thƣa hay danh sách liên kết làm đầu vào cho giải
thuật Phân vùng theo cạnh.
Đỉnh Đỉnh kề
0 1,2,3
1 0,2,3,4,5
2 0,1,3,4,5
3 0,1,2,4,5
4 1,2,3
5 1,2,3
Bảng 3.5 Danh sách đỉnh kề
+ Xây dựng ma trận độ tƣơng tự giữa các cạnh: Tính độ tƣơng tự giữa các
cặp cạnh (Công thức trong Chƣơng 2).
Ví dụ: độ tƣơng tự của cạnh 0-1 và cạnh 0-2, đƣợc tính theo công thức:
S 0 − 1, 0 − 2 = |𝑛+ 1 ∩𝑛+ 2 |
|𝑛+ 1 ∪𝑛+ 2 |=
6
6=1
Trong đó: 𝑛+ 1 ,𝑛+ 2 là tập các đỉnh kề tƣơng ứng của đỉnh 1 và 2.
𝑛+ 1 = 0, 1, 2, 3, 4, 5 ; 𝑛+ 2 = 0, 1, 2, 3, 4, 5 ;
+ Tiến hành gom cụm: Sử dụng kỹ thuật gom cụm từ dƣới - lên và
phƣơng thức kết nối đơn để gom hai cụm. Hai cụm có độ tƣơng tự lớn nhất sẽ
đƣợc gom lại thành một cụm. Quá trình đƣợc lặp lại cho đến khi tất cả các cạnh
thuộc vào một cụm duy nhất.
C0 C1 C2 C3
0-1 0-2 0-3 1-2 1-3 2-3 1-4 2-4 3-4 1-5 2-5 3-5
C0
0-1 1 1 1 0.7 0.7 0 0.6 0 0 0.6 0 0
0-2 1 1 1 0.7 0 0.7 0 0.6 0 0 0.6 0
0-3 1 1 1 0 0.7 0.7 0 0 0.6 0 0 0.6
C1
1-2 0.7 0.7 0 1 1 1 0.7 0.7 0 0.7 0.7 0
1-3 0.7 0 0.7 1 1 1 0.7 0 0.7 0.7 0 0.7
2-3 0 0.7 0.7 1 1 1 0 0.7 0.7 0 0.7 0.7
C2
1-4 0.6 0 0 0.7 0.7 0 1 1 1 0.6 0 0
2-4 0 0.6 0 0.7 0 0.7 1 1 1 0 0.6 0
3-4 0 0 0.6 0 0.7 0.7 1 1 1 0 0 0.6
C3 1-5 0.6 0 0 0.7 0.7 0 0.6 0 0 1 1 1
2-5 0 0.6 0 0.7 0 0.7 0 0.6 0 1 1 1
43
3-5 0 0 0.6 0 0.7 0.7 0 0 0.6 1 1 1
Bảng 3.6 Ma trận 𝑀𝑠 độ tương tự
C4 C2 C3
C0 C1 C2 C3
C4 C0 1 0.7 0.6 0.6
C1 0.7 1 0.7 0.7
C2 C2 0.6 0.7 1 0.6
C3 C3 0.6 0.7 0.6 1
C6
C5 C3
C6 C5 1 0.7
C3 0.7 1
Hình 3.6 Quá trình phân cụm thứ bậc từ dưới - lên
+ Tìm ngƣỡng cắt cây lƣợc đồ: Đồ thị gồm 6 đỉnh và 12 cạnh.
Gọi t là ngƣỡng cắt cây lƣợc đồ cho trƣớc.
* Tại t=1, ta có 04 phân vùng:
Phân vùng Cạnh Số cạnh Số đỉnh Mật độ
P1 0-1;0-2;0-3 3 4 D1=3−(4−1)
4∗(4−1)
2− (4−1)
= 0
P2 1-2;1-3;2-3 3 3 D2=3−(3−1)
3∗(3−1)
2− (3−1)
= 1
P3 1-4;2-4;3-4 3 4 D3=3−(4−1)
4∗(4−1)
2− (4−1)
= 0
P4 1-5;2-5;3-5 3 4 D4=3−(4−1)
4∗(4−1)
2− (4−1)
= 0
Bảng 3.7 Tính mật độ các phân vùng tại ngưỡng cắt t=1
Mật độ phân vùng trung bình: 𝐷𝑡=1=1
12 0 + 3 ∗ 1 + 0 + 0 = 0.25
C5 c3
C4 C2 C3
C5 C4 1 0.7 0.7
C2 0.7 1 0.6
c3 C3 0.7 0.6 1
44
* Tại t=0.7
Khả năng 1: 3 phân vùng: P3, P4, P5
Phân
vùng
Cạnh Số
cạnh
Số
đỉnh
Mật độ
P5 0-1;0-2;0-3;1-2;1-3;2-3 6 4 D5=6−(4−1)
4∗(4−1)
2− (4−1)
= 3
3= 1
Bảng 3.8 Tính mật độ các phân vùng tại ngưỡng cắt t=0.7(KN1)
Mật độ phân vùng trung bình: 𝐷1𝑡=0.7=1
12 6 ∗ 1 + 0 + 0 = 0.5
Khả năng 2: ta có 3 phân vùng P1, P4, P6
Phân
vùng
Cạnh Số
cạnh
Số
đỉnh
Mật độ
P6 1-2;1-3;2-3;1-4;2-4;3-4 6 4 D6=6−(4−1)
4∗(4−1)
2− (4−1)
= 3
3= 1
Bảng 3.9 Tính mật độ các phân vùng tại ngưỡng cắt t=0.7(KN2)
Mật độ phân vùng trung bình: 𝐷2𝑡=0.7=1
12 0 + 0 + 6 ∗ 1 = 0.5
Kết luận: Tại ngƣỡng cắt cây lƣợc đồ 𝑡 = 0.7, giá trị mật độ phân vùng
trung bình đạt cực đại 𝐷 = 0.5.
+ Kết quả: Từ các cộng đồng cạnh đƣợc tìm thấy, ta tìm đƣợc các cộng
đồng đỉnh tƣơng ứng.
Hình 3.8 Các cộng đồng đỉnh chồng chéo
Cộng đồng Cộng đồng cạnh Cộng đồng đỉnh Cộng đồng ngƣời
I 0-1;0-2;0-3; 1-2;1-3;2-3 0, 1, 2, 3 Ellen, Mike, Peter, Sara
Ellen
Mike
Sara
Pete
Sue
Sean
45
II 1-4;2-4;3-4 1,2, 3, 4 Mike, Peter, Sara, Sean
III 1-5;2-5;3-5 1, 2, 3, 5 Mike, Peter, Sara, Sue
Bảng 3.10 Danh sách các cộng đồng được tìm thấy
Bƣớc 7. Đánh giá chất lƣợng cộng đồng:
+ Đối với cộng đồng cạnh: Ahn et al. đã sử dụng công thức tính mật độ
phân vùng nhằm đánh giá chất lƣợng của các cộng đồng cạnh.
Giá trị mật độ phân vùng - 2
3≤ 𝐷 ≤ 1, giá trị D càng gần giá trị 1 thì các
cộng đồng cạnh đƣợc phát hiện ra có chất lƣợng tốt, cộng đồng cạnh có giá trị
𝐷 ≤ 0, thƣờng không có giá trị để khai thác vào các mục đích cụ thể. Trong đó:
𝐷 = 1: cộng đồng đƣợc phát hiện là một đồ thị đầy đủ.
𝐷 = 0: mỗi cộng đồng là một cây.
𝐷 < 0: các cộng đồng trong mạng không có sự kết nối.
𝐷 = − 2
3: là giá trị nhỏ nhất của một cộng đồng có hai cạnh không kết
nối.
Trong ví dụ: Mật độ phân vùng trung bình 𝐷 = 0.5 tại ngƣỡng cắt 𝑡 = 0.7
→ Các cộng đồng cạnh có sự kết nối mạnh → Các cộng đồng đỉnh tƣơng ứng có
sự chồng chéo lớn.
+ Đối với cộng đồng đỉnh: Những cộng đồng có giá trị khai thác là những
cộng đồng không tầm thƣờng (Nontrivial community) [4], có chứa từ ba đỉnh trở
lên.
Trong ví dụ: Cả ba cộng đồng (I), (II), (III) này đều là những cộng đồng
không tầm thƣờng vì có tổng số đỉnh ≥ 3.
Số lƣợng đỉnh chồng chéo thuộc vào các cộng đồng không tầm thƣờng là
3, tƣơng ứng là Mike, Peter, Sara. Sự tƣơng tác của ba ngƣời này với những
ngƣời khác trong quy trình là thƣờng xuyên, thể hiện vai trò quan trọng của họ
trong một quy trình.
46
CHƢƠNG 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1 Công cụ, môi trƣờng thực nghiệm
Để thực hiện quá trình thực nghiệm, Tác giả sử dụng cấu hình phần cứng,
phần mềm, tập dữ liệu nhƣ sau:
4.1.1 Phần cứng:
STT Thiết bị/
Hệ điều hành
Chỉ số
1 CPU Intel Core i3 M370 2.40 GHz
2 RAM 4096 MB
3 HDD 320 GB
4 OS Window 7 Ultimate 32 bit
Bảng 4.1 Chi tiết chỉ số phần cứng và hệ điều hành
4.1.2 Phần mềm và tập dữ liệu đầu vào:
TT Tên công cụ Chức năng Nguồn tải
1 NetBeans IDE
8.0.2
Công cụ lập trình trên
nền Window, Unix hỗ trợ
ngƣời dùng lập trình
Java, …
https://netbeans.org
2 Mã nguồn mở
Link Clustering
Là chƣơng trình thực
hiện giải thuật tìm kiếm
cộng đồng theo phân
vùng cạnh Ahn et al.
https://github.com/fozziethebe
at/S-Space
2 Tập dữ liệu đầu
vào
Là các tệp .xes sử dụng
làm đầu vào của chƣơng
trình
http://www.processmining.org;
http://data.4tu.nl
Bảng 4.2 Thông tin phần mềm và tập dữ liệu đầu vào
- Quá trình xây dựng chương trình:
+ Tải công cụ lập trình NetBeans IDE 8.0.2 và cài đặt.
+ Viết mã nguồn tiền xử lý tệp XES nhằm xây dựng mô hình MXH là đồ
thị vô hƣớng, không trọng số.
+ Xây dựng ma trận kề từ danh sách đỉnh, diễn dƣới dạng ma thƣa
(Sparse Matrix) làm đầu vào cho chƣơng trình Link Clustering. Ma trận thƣa là
ma trận các phần tử có giá trị > 0 (Wikipedia). Điều này giúp tiết kiệm dung
47
lƣợng bộ nhớ và cải thiện thời gian chạy chƣơng trình. Để thực chạy đƣợc
chƣơng trình này, thêm thƣ viện junit chƣơng trình.
4.2 Chƣơng trình thực nghiệm
Các thông tin đƣợc hiển thị trong chƣơng trình thực nghiệm: thông tin đầu
vào của tệp .xes bao gồm số trƣờng hợp, số sự kiện, số ngƣời tham gia vào quy
trình; hiển thị danh sách đỉnh kề bao gồm ký hiệu các đỉnh, số lƣợng đỉnh và
cạnh; hiển thị danh sách các cộng đồng tìm thấy bao gồm danh sách các cộng
đồng mà các đỉnh thuộc vào.
Hình 4.1 Kết quả chương trình thực nghiệm
48
4.3 Kết quả thực nghiệm và đánh giá
Sau khi cài đặt chƣơng trình, luận văn đã thực hiện thử nghiệm với 04 tệp
dữ liệu định dạng XES. Kết quả cụ thể nhƣ sau:
Tệp dữ liệu
Thông tin tệp XES Thông tin
MXH
Thông tin kết quả đầu ra
Giá
trị
mật
độ
trung
bình
Thời
gian
chạy
(giây) Số
Trƣờng
hợp
Số Sự
kiện
Số
Ngƣời
tham
gia
Số
Đỉnh
Số
Cạnh
Số
cộng
đồng
cạnh
Số
cộng
đồng
đỉnh
Số
cộng
đồng
chồng
chéo
đỉnh
Số
cộng
đồng
không
tầm
thƣờng
Số
đỉnh
chồng
chéo
Chapter1.xes 10 142 6 6 12 3 3 3 3 3 0.5 5
Chapter5.xes 1391 15078 8 8 14
4 4 4 2 4 0.36
7
Chapter6.xes 87 522 5 5 4
4 4 4 1 1 0
10
BPI2013.xes 1484 13288 442 442 781 576 576 576 499 767 0.035 13
Bảng 4.3 Đánh giá kết quả chương trình thực nghiệm
* Trong bảng kết quả, các khía cạnh cần quan tâm:
- Số người tham gia vào quy trình:
Nếu có ít ngƣời tham gia vào quy trình, kết quả phân cụm không có ý
nghĩa nhiều trong thực tế. Đối với các tệp dữ liệu thu đƣợc trên chuyên trang
http://www.processmining.org có số lƣợng ngƣời tham gia dƣới 10 ngƣời, do đó
kết quả các cộng đồng chồng chéo không có giá trị khai thác cao trong phân tích
và đánh giá sự chồng chéo trong nhiệm vụ. Khía cạnh này còn có ý nghĩa là
đánh giá mức độ quan trọng của từng ngƣời trong quy trình.
- Mật độ kết nối các đỉnh trong MXH:
Với một mạng có số cạnh xấp xỉ số đỉnh tức khả năng tƣơng tác giữa các
đỉnh trong một mạng là thấp, các kỹ thuật khai phá sẽ sinh ra các kết quả không
có giá trị về mặt thực tế.
- Kích thước các cộng đồng được tìm ra:
Các cộng đồng có giá trị khai thác là những cộng đồng không tầm thƣờng
có từ ba đỉnh trở lên [4], số lƣợng loại cộng đồng này phụ thuộc lớn vào mật độ
kết nối trong MXH. Nếu MXH có mật độ kết nối thƣa, các đỉnh bị phân tách nên
số lƣợng cộng đồng chứa 3 đỉnh trở lên là rất ít và số lƣợng cộng đồng không có
giá trị khai thác nhiều.
- Số lượng đỉnh chồng chéo: Một đỉnh thuộc vào nhiều cộng đồng không
tầm thƣờng thể hiện tầm quan trọng của đỉnh đó trong đồ thị hay của cá nhân đó
49
đối với các hoạt động trong quy trình. Một đồ thị có số lƣợng đỉnh chồng chéo
thuộc các cộng đồng không tầm thƣờng lớn, khả năng xảy ra sự chồng chéo
nhiệm vụ giữa những ngƣời tham gia vào quy trình là rất lớn.
- Mật độ phân vùng trung bình:
Trong luận văn, Tác giả sử dụng giá trị mật độ phân vùng trung bình D
để đánh giá chất lƣợng cộng đồng cạnh, từ đó có sự nhận xét về chất lƣợng
chồng chéo của các cộng đồng đỉnh. Nếu giá trị D nhỏ, các cộng đồng cạnh có
sự kết nối thấp. Chất lƣợng các cộng đồng cạnh càng tốt, thể hiện sự phân tách
của giải thuât là tối ƣu tƣơng ứng với các cộng đồng cạnh này là các cộng đồng
đỉnh có sự chồng chéo lớn.
* Các đánh giá cụ thể:
Tệp dữ liệu Đánh giá
Chapter1.xes
- Giá trị 𝐷 ≥ 0.5 → Chất lƣợng phân tách tốt, các cộng đồng cạnh
có sự kết nối mạnh, tƣơng ứng là cộng đồng đỉnh có sự chồng
chéo lớn.
- Số lƣợng đỉnh =1
2 số lƣợng cạnh → Mật độ kết nối dày.
- Số lƣợng cộng đồng không tầm thƣờng chiếm 100%
- Số lƣợng ngƣời tham gia là 6 < 10 ngƣời → ít
Có khả năng chồng chéo nhiệm vụ giữa những ngƣời tham
gia vào quy trình cao. Tuy nhiên, do số lƣợng ngƣời tham
gia ít, nên kết quả chồng chéo này không có giá trị khai
thác cao trong thực tế, mà kết quả chỉ phù hợp với việc
nhận xét tầm quan trọng của cá nhân đối với quy trình.
Chapter5.xes
- Giá trị 0 <D< 0.5 → Các cộng đồng cạnh có sự kết nối ở mức
trung bình, sự chồng chéo xảy ra tại một số cộng đồng đỉnh đƣợc
tìm ra.
- Số lƣợng đỉnh ~1
2 số lƣợng cạnh → Mật độ kết nối dày.
- Số lƣợng cộng đồng không tầm thƣờng chiếm 50%
- Số lƣợng ngƣời tham gia là 8 < 10 ngƣời → ít
Có khả năng có sự chồng chéo nhiệm vụ của một số ngƣời
tham gia vào quy trình. Tuy nhiên, do số lƣợng ngƣời tham
gia ít, số lƣợng cộng đồng không tầm thƣờng chỉ chiếm
50
phần nửa nên kết quả này phù hợp với đánh giá tầm quan
trọng của các cá nhân.
Chapter6.xes
- Giá trị 𝐷 = 0 → Chất lƣợng phân tách các cộng đồng thấp, do
vậy mật độ kết nối giữa các đỉnh trong đồ thị là thấp. Các cộng
đồng đƣợc tìm ra không có sự kết nối, độ chồng chéo các đỉnh là
thấp.
- Số lƣợng đỉnh xấp xỉ số lƣợng cạnh→ Mật độ kết nối giữa các
đỉnh thƣa.
- Số lƣợng cộng đồng không tầm thƣờng chiếm 33%
Không có thể có sự chồng chéo nhiệm vụ giữa những
ngƣời tham gia vào quy trình. Kết quả chỉ phục vụ mục
đích tìm ra các nhân nào có tầm quan trọng trong quy trình
BPI2013.xes
- Giá trị 𝐷~0 → Các cộng đồng cạnh gần nhƣ không có sự kết
nối, do vậy các cộng đồng cạnh tƣơng ứng có độ chồng chéo
thấp.
- Số lƣợng đỉnh ~ ½ số lƣợng cạnh → Mật độ kết nối các đỉnh
thƣa.
- Số lƣợng cộng đồng không tầm thƣờng chiếm 50%
Không có thể có sự chồng chéo nhiệm vụ giữa những
ngƣời tham gia vào quy trình. Kết quả chỉ phục vụ mục
đích tìm ra các nhân nào có tầm quan trọng trong quy trình.
Bảng 4.4 Đánh giá chất lượng các cộng đồng
51
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TƢƠNG LAI
1. Kết luận
Với những mục tiêu và kế hoạch thực hiện luận văn trong hơn một năm
qua, luận văn đã đạt đƣợc những kết quả chính:
- Tổng kết các kết quả nghiên cứu của các nhà khoa học trên thế giới về
lĩnh vực KPQT và các giải thuật tìm kiếm cộng đồng trong MXH. Những nghiên
cứu này tạo nền tảng cơ sở cho sự lựa chọn giải thuật tìm kiếm cộng cộng đồng
chồng chéo áp dụng để giải quyết bài toán thuộc khía cạnh tổ chức.
- Phát biểu bài toán và đề xuất mô hình giải quyết bài toán. Đề xuất giúp
tìm ra các nhóm ngƣời có sự chồng chéo nhiệm vụ khi tham gia vào quy trình.
- Xây dựng thành công chƣơng trình thực nghiệm dựa trên mô hình đề
xuất giải quyết trong luận văn.
2. Hƣớng phát triển tƣơng lai
Trong tƣơng lai, Tác giả sẽ tiếp tục nghiên cứu và giải quyết những thách
thức:
- Đối với dữ liệu đầu vào: Tác giả sẽ tiếp tục thu thập dữ liệu nhật ký sự
kiện trong thực tế, áp dụng các công cụ tiền xử lý dữ liệu để đƣa dữ liệu về dạng
chuẩn, làm đầu vào cho các giải thuật.
- Đối với loại độ đo hỗ trợ biểu diễn cấu trúc MXH: Mở rộng kỹ thuật xây
dựng MXH dƣới dạng đồ thị có hƣớng, có trọng số bằng cách sử dụng các độ đo
khác nhau.
- Đối với giải thuật tìm kiếm: Giải thuật Phân vùng theo cạnh còn tồn tại
nhiều hạn chế về thời gian chạy, gây ra sự phân tách các cộng đồng làm giảm độ
chính xác trong kết quả. Mặt khác, nếu đầu vào của giải thuật là đồ thị có mật độ
kết nối giữa các đỉnh thƣa, kết quả phân cụm sẽ không có ý nghĩa. Do vậy, Tác
giả sẽ tiếp tục nghiên giải thuật cải tiến của giải thuật Phân vùng theo cạnh và
các giải thuật khác, nhằm đánh giá các loại giải thuật phù hợp với từng loại mô
hình MXH .
- Đối với chức năng của phần mềm: Chƣơng trình thực nghiệm chỉ dừng ở
việc xử lý tệp dữ liệu sự kiện định dạng .xes chứa khoảng hơn 1000 trƣờng hợp
và 7000 sự kiện. Do đo, Tác giả sẽ nghiên cứu, mở rộng các chức năng của
chƣơng trình để đáp ứng với tệp dữ liệu có kích thƣớc lớn hơn.
52
TÀI LIỆU THAM KHẢO
[1] Wil M. P. van der Aalst. (2011), Process Mining: Discovery,
Conformance and Enhancement of Business Processes. Springer, Berlin,
Heidelberg.
[2] Minseok Song and Wil M. P. van der Aalst. (2008), Towards
comprehensive support for organizational mining. Decision Support Systems,
pp. 300–317.
[3] G. Palla, I. Derényi, I. Farkas, and T. Vicsek. (2005), Uncovering the
overlapping community structure of complex networks in nature and society.
Nature, vol. 435, no. 7043.
[4] Ahn Y.-Y., Bargrow, J. P., and Lehmann, S. (2010), Link
communities reveal multiscale complexity in networks. Nature 466, pp. 761–
764.
[5] Karsten Steinhaeuser and Nitesh v. Chawla. Community detection in
large real world networks.
[6] S. Gregory. (2009), Finding overlapping communities using disjoint
community detection algorithms, in Complex Networks. Springer, pp. 47–61.
[7] J. Xie, S. Kelley, and B. K. Szymanski. (2011), Overlapping
community detection in networks: the state of the art and comparative study.
arXiv preprint arXiv: 1110.5813.
[8] Wil M.P. Van der Aalst, W., Weijters, A., and Maruster, L. (2004),
Workflow Mining: Discovering Process Models from Event Logs. IEEE
Transactions on Knowledge and Data Engineering, Vol. 16(9), pp. 1128–1142.
[9] Wil M.P. van der Aalst., Reijers, H.A., Song, M. (2005), Discovering
Social Networks from Event Logs. Computer Supported Cooperative Work, Vol.
14 No. 6, pp. 549–593.
[10] Borko Furht. (2010), Handbook of Social Network Technologies and
Applications. Springer, 1st edition.
[11] Girvan, M., & Newman, M. E. (2002), Community structure in social
and biological networks. In Proceedings of the National Academy of Sciences,
99(12), pp. 7821- 7826.
[12] M. Bramer. (2007), Principles of Data Mining. Springer, Berlin.
53
[13] J. Nakatumba and Wil M.P. van der Aalst. (2010), Analyzing resource
behavior using process mining. In BPMW'09, vol. 43 of LNBIP, pp. 69-80.
Springer.
[14] Wil M.P. Van der Aalst and Minseok Song. (2004), Mining social
networks: Uncovering interaction patterns in business processes. In Business
Process Management, pp. 244–260. Springer.
[15] Chen, Z. S., Kalashnikov, D. V. and Mehrotra, S. Exploiting context
analysis for combining multiple entity resolution systems. (2009), In
Proceedings of the 2009 ACM International Conference on Management of
Data (SIGMOD'09).
[16] Reza Zafarani, Mohammad Ali Abbasi, Huan Liu. (2014), Social
Media Mining: An Introduction. Cambridge University Press.
[17] Huang L, Wang G, Wang Y, Blanzieri E, Su C. (2013), Link
Clustering with Extended Link Similarity and EQ Evaluation Division.
[18] W.M.P. van der Aalst, B.F. van Dongen, J. Herbst, L. Maruster, G.
Schimm, and A.J.M.M. Weijters. (2003), Workflow Mining: A Survey of Issues
and Approaches. Data and Knowledge Engineering, pp. 237–267.
[19] Mini Singh ahuja and Jatinder singh. (2014), Future prospects in
community detection. Vol. 4, Issue 5, pp. 37-48.
[20] DR Ferreira, C Alves. (2012), Discovering User Communities in
Large Event Logs. 7th International Workshop on Business Process
Intelligence, pp. 123-134.
[21] Zbigniew Paszkiewicz and Wily Picard. (2013), Analysis of the Volvo
IT Incident and Problem Handling Processes using Process Mining and Social
Network Analysis.
[22] Jaewon Yang, Jure Leskovec. (2013), Overlapping Community
Detection at Scale: A Nonnegative Matrix Factorization Approach.
[23] Reichert, M. (2012), Visualizing Large Business Process Models:
Challenges, Techniques, Applications. In 1st Int’l Workshop on Theory and
Applications of Process Visualization, Tallin.
[24] Stanley W., Katherine. (1999), Social Network Analysis: Methods
and Applications. ISBN 052137078.
[25] Noel M. T., Micheal L. T and Charles (1979), Social Network
Analysis for Organizations. The Academy of Management Review. Vol. 4.
54
[26] Cook, J. E., and Wolf, A. L. (1998), Discovering models of software
processes from event-based data. ACM Trans. Softw. Eng. Methodol.
[27] Herbst, J., and Karagiannis, D. (1998), Integrating Machine Learning
and Workflow Management to Support Acquisition and Adaptation of
Workflow Models. In Proceedings 9th International Workshop on Database
and Expert Systems Applications (DEXA’98), pp. 745–752.
[28] Song, M., and Van der Aalst. (2008), Towards comprehensive
Support for organizational mining. Decision Support Systems.
[29] Weske, Mathias. (2012),Business process management concepts,
languages, architectures, Berlin; New York: Springer.
[30] J.L. Moreno.(1934), Who Shall Survive?Nervous and Mental Disease
Publishing Company,Washington, DC.
[31] Becker, J., Delfmann, P., Eggert, M., and Schwittay. (2012a),.
Generalizability and Applicability of Model-Based Business Process
Compliance-CheckingApproaches – A State-of-the-Art Analysis and Research
Roadmap.BuR Business Research (5:2), pp. 221–247.
[32] Grigori, D., Casati, F., Castellanos, M., Dayal, U., Sayal, M., and
Shan, M. C. (2004), Business Process Intelligence. Computers in Industry,
53(3).
[33] Ingvaldsen, J. E., Gulla, J. A., Hegle, A., and Prange A. (2005),
Empirical Business Models. 17th Conference on Advanced Information Systems
Engineering, Porto, Portugal.
[34] Steve Gregory. (2007), An Algorithm to Find Overlapping
Community Structure in Networks.
[35] Raghavan UN, Albert R, Kumara S. (2007), Near Linear Time
Algorithm to Detect Community Structures in Large-scale Networks.
[36] Wil M.P Van der Aalst, W. M. P., Andriansyah, A., Alves de
Medeiros, A. K., Arcieri, F., Baier, T., Blickle, T., Bose, J. C., Van den Brand,
P., Brandtjen, R., and Buijs, J. (2012) Process mining manifesto. In BPM 2011
Workshops Proceedings, pp. 169–194.