LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TINlib.uet.vnu.edu.vn/bitstream/123456789/847/1/HTTT_Nguyen... · 2018. 12. 27. · thức tiếp cận mới trong việc phân tích

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ HỒNG HẠNH

TÌM HIỂU MỘT SỐ GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG

TRONG MẠNG XÃ HỘI VÀ ÁP DỤNG VÀO BÀI TOÁN

KHAI PHÁ QUY TRÌNH

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2016

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ HỒNG HẠNH

TÌM HIỂU MỘT SỐ GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG

TRONG MẠNG XÃ HỘI VÀ ÁP DỤNG VÀO BÀI TOÁN

KHAI PHÁ QUY TRÌNH

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Trí Thành

Hà Nội - 2016

i

LỜI CAM ĐOAN

Tác giả xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của

riêng cá nhân Tác giả và đƣợc sự hƣớng dẫn khoa học của PGS.TS Nguyễn Trí

Thành, không sao chép lại của ngƣời khác. Trong toàn bộ nội dung của luận văn,

những điều trình bày của cá nhân hoặc đƣợc tổng hợp của nhiều nguồn tài liệu.

Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và đƣợc trích dẫn hợp pháp.

Tác giả xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo

quy định cho lời cam đoan của mình.

Hà Nội, ngày tháng năm 2016

HỌC VIÊN

Nguyễn Thị Hồng Hạnh

ii

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới thầy

PGS.TS Nguyễn Trí Thành, ngƣời thầy đã trực tiếp hƣớng dẫn tận tình và đóng

góp những ý kiến quý báu cho em trong suốt quá trình thực hiện luận văn tốt

nghiệp này.

Em xin gửi lời cảm ơn đến các thầy cô giáo Trƣờng Đại học Công nghệ -

- Đại học Quốc gia Hà Nội, đã tận tâm truyền đạt những kiến thức quý báu làm

nền tảng cho em trong công việc và cuộc sống. Qua đây, em cũng xin cảm ơn

sinh viên Nguyễn Duy Kiên – Trƣờng Đại học Công nghệ Hà Nội đã hỗ trợ và

giúp đỡ em về mặt kỹ thuật.

Cuối cùng, em xin đƣợc cảm ơn cha mẹ, ngƣời thân, ban bè và đồng

nghiệp của em tại Sở Nông nghiệp và PTNT tỉnh Hƣng Yên, những ngƣời đã

luôn bên em, khuyến khích và động viên em trong cuộc sống và học tập.

HỌC VIÊN

Nguyễn Thị Hồng Hạnh

iii

MỤC LỤC

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT ....................................................... v

DANH MỤC CÁC BẢNG ................................................................................... vi

MỞ ĐẦU ............................................................................................................... 7

CHƢƠNG 1.TỔNG QUAN VỀ KHAI PHÁ QUY TRÌNH ................................ 9

1.1 Khai phá quy trình ........................................................................................ 9

1.1.1 Sự cần thiết của KPQT ........................................................................ 10

1.1.2 Mục tiêu của KPQT ............................................................................. 11

1.1.3 Mô hình quy trình và nhật ký sự kiện .................................................. 11

1.1.4 Các bài toán KPQT .............................................................................. 12

1.1.5 Các khía cạnh của KPQT ..................................................................... 13

1.1.6 Các ứng dụng của KPQT ..................................................................... 14

1.1.7 Một số thách thức đối với lĩnh vực KPQT .......................................... 14

1.2 Khía cạnh tổ chức trong KPQT.................................................................. 15

1.3 Bài toán toán khai phá khía cạnh tổ chức .................................................. 18

1.3.1 Trong thực tế ........................................................................................ 18

1.3.2 Trong luận văn ..................................................................................... 18

1.4 Ý nghĩa của luận văn .................................................................................. 20

1.4.1 Về mặt khoa học .................................................................................. 20

1.4.2 Về mặt thực tiễn ................................................................................... 21

CHƢƠNG 2. CÁC GIẢI THUẬT TÌM KIẾM CỘNG TRONG MXH ............. 22

2.1 Cộng đồng mạng xã hội ............................................................................. 22

2.1.1 Nguyên nhân hình thành cộng đồng MXH .......................................... 22

2.1.2 Các loại cộng đồng trong MXH ........................................................... 23

2.1.3 Các loại cấu trúc cộng đồng ................................................................. 23

2.2 Các phƣơng pháp phát hiện cộng đồng ...................................................... 24

2.2.1 Ứng dụng.............................................................................................. 24

2.2.2 Các loại giải thuật ................................................................................ 25

2.3 Các giải thuật tìm kiếm cộng đồng chồng chéo ......................................... 28

2.4 Lựa chọn giải thuật tìm kiếm ..................................................................... 30

iv

CHƢƠNG 3. ÁP DỤNG GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG CHỒNG

CHÉO VÀO BÀI TOÁN KPQT ......................................................................... 34

3.1. Phƣơng pháp nghiên cứu........................................................................... 34

3.1.1 Tính hiệu quả của đề xuất .................................................................... 34

3.1.2 Định dạng dữ liệu đầu vào các độ đo: ................................................. 35

3.2 Giải pháp thực hiện ................................................................................... 37

3.2.1 Đề xuất mô hình giải quyết .................................................................. 37

3.2.2 Các bƣớc thực hiện .............................................................................. 38

CHƢƠNG 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ ............................ 46

4.1 Công cụ, môi trƣờng thực nghiệm ............................................................. 46

4.1.1 Phần cứng ............................................................................................. 46

4.1.2 Phần mềm và tập dữ liệu đầu vào ........................................................ 46

4.2 Chƣơng trình thực nghiệm ......................................................................... 47

4.3 Kết quả thực nghiệm và đánh giá .............................................................. 48

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TƢƠNG LAI ................................... 51

TÀI LIỆU THAM KHẢO ................................................................................... 52

v

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

STT Chữ viết tắt Chú giải

I Tiếng việt

1 CNTT Công nghệ thông tin

2 HTTT Hệ thống thông tin

3 KCTC Khía cạnh tổ chức

4 KPQT Khai phá quy trình

5 MHQT Mô hình quy trình

6 MXH Mạng xã hội

II Tiếng anh

1 B2B Busines - to - Business

2 BPNN Back - propagation neural network

3 CRM Customer Relationship Management

4 EPC Event - driven Process Chain

5 ERP Systems for Enterprise Resource Planning

6 NMI Normalized mutual information

7 SCM Supply Chain Management

8 UPGMA Unweighter Pair - Group Method using Arithmetic averages

9 WFM Workflow Management

10 XES eXtensible Event Stream

11 XML EXtensible Markup Language

vi

DANH MỤC CÁC BẢNG

Bảng 2.1 So sánh các loại cấu trúc cộng đồng .................................................... 24

Bảng 2.2 Các phƣơng pháp tính khoảng cách hai cụm ....................................... 26

Bảng 3.1 Bảng mô tả các thuộc tính của một phần dữ liệu sự kiện .................... 36

Bảng 3.2 Thứ tự thực hiện nhiệm vụ của từng ngƣời trong mỗi trƣờng hợp ..... 40

Bảng 3.3 Ma trận 𝑀𝑕 mối quan hệ ..................................................................... 40

Bảng 3.4 Ma trận đỉnh kề 𝑀𝑎 ............................................................................. 41

Bảng 3.5 Danh sách đỉnh kề ................................................................................ 42

Bảng 3.6 Ma trận 𝑀𝑠 độ tƣơng tự ....................................................................... 43

Bảng 3.7 Tính mật độ các phân vùng tại ngƣỡng cắt t=1 ................................... 43

Bảng 3.8 Tính mật độ các phân vùng tại ngƣỡng cắt t=0.7(KN1) ...................... 44

Bảng 3.9 Tính mật độ các phân vùng tại ngƣỡng cắt t=0.7(KN2) ...................... 44

Bảng 3.10 Danh sách các cộng đồng đƣợc tìm thấy ........................................... 45

Bảng 4.1 Chi tiết chỉ số phần cứng và hệ điều hành ........................................... 46

Bảng 4.2 Thông tin phần mềm và tập dữ liệu đầu vào ....................................... 46

Bảng 4.3 Đánh giá kết quả chƣơng trình thực nghiệm ....................................... 48

Bảng 4.4 Đánh giá chất lƣợng các cộng đồng .................................................... 50

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 1.1 Tổng quan về KPQT ............................................................................ 10

Hình 1.2 Quá trình phát hiện mô hình quy trình từ nhật ký sự kiện ................... 11

Hình 1.3 Các bài toán KPQT .............................................................................. 13

Hình 1.4 Các ứng dụng KPQT trong các lĩnh vực .............................................. 14

Hình 1.5 Mô hình tổ chức đƣợc phát hiện từ các nhật ký sự kiện ...................... 19

Hình 2.1 Các loại cấu trúc cộng đồng ................................................................. 24

Hình 2.2 Các phƣơng pháp phân cụm thứ bậc .................................................... 26

Hình 3.1 Một phần mã nguồn dữ liệu nhật ký sự kiện ........................................ 35

Hình 3.2 Mô hình áp dụng giải tìm kiếm cộng đồng vào KPQT ........................ 37

Hình 3.3 Thông tin quá trình xử lý sự cố đƣợc lƣu trong tệp BPI2013.xes ....... 39

Hình 3.5 Định dạng dữ liệu .txt lƣu đồ thị .......................................................... 40

Hình 3.4 Đồ thị đƣợc xây dựng từ ma trận kề .................................................... 41

Hình 3.6 Quá trình phân cụm thứ bậc từ dƣới - lên ............................................ 43

Hình 3.8 Các cộng đồng đỉnh chồng chéo .......................................................... 44

Hình 4.1 Kết quả chƣơng trình thực nghiệm ...................................................... 47

7

MỞ ĐẦU

Trong môi trƣờng cạnh tranh hiện nay, yếu tố cốt lõi của các tổ chức,

doanh nghiệp là truy cập thông tin, nghiệp vụ một cách nhanh chóng, hiệu quả

và đạt chi phí tối ƣu. Kinh doanh thông minh bao gồm các công nghệ và công cụ

để chuyển đổi những dữ liệu thô thành những thông tin có nghĩa và có ích cho

mục đích phân tích kinh doanh, là các ứng dụng và công nghệ để chuyển dữ liệu

doanh nghiệp thành hành động. Với sự gia tăng các hệ thống tích hợp thông tin

từ quá trình kinh doanh nhƣ WFM, ERP, CRM, SCM và B2B, … đã tạo ra cách

thức tiếp cận mới trong việc phân tích dữ liệu lớn (big data). Khai phá quy trình

(KPQT) kinh doanh hay KPQT là cầu nối quan trọng giữa khai phá dữ liệu với

quản lý quá trình kinh doanh [12]. Các kỹ thuật này giúp trích lọc các thông tin

có giá trị hay các thông tin mà các doanh nghiệp cần từ tập nhật ký sự kiện đƣợc

lƣu trong các hệ thống tích hợp thông tin, giúp bổ sung vào các tiếp cận hiện có

để quản lý quy trình kinh doanh. Bài toán KPQT gồm ba bài toán nhằm cải thiện

quy trình kinh doanh và để mở rộng mô hình quy trình (MHQT) cần bổ sung ba

khía cạnh: tổ chức, thời gian và trƣờng hợp[1].

Khía cạnh tổ chức bao gồm nhiều kỹ thuật có giá trị nhƣ khai phá mạng

xã hội, khai phá luật phân phối nguồn tài nguyên, …[8]. Trong đó, khai phá

mạng xã hội bao gồm những kỹ thuật khai phá đƣợc sử dụng rộng rãi, cho phép

phát hiện ra mạng xã hội (MXH) giữa những phòng, đơn vị, cá nhân tham gia

vào quy trình kinh doanh từ nhật ký sự kiện. Việc phân tích và đánh giá những

mối quan hệ này giúp nhà quản lý có cái nhìn chính xác về các quy trình hiện có

trong tổ chức của họ. Trong mô hình MXH, các đỉnh đại diện cho phòng, đơn vị

hay con ngƣời, mối quan hệ giữa các đỉnh đƣợc biểu diễn dƣới dạng cạnh. Vấn

đề chồng chéo nhiệm vụ giữa những ngƣời tham gia vào quy trình là một thách

thức mang tính thời sự đối với các doanh nghiệp. Hậu quả của vấn đề này mang

lại thiệt hại về kinh tế và quy trình kinh doanh hoạt động kém thông suốt. Với

một doanh nghiệp quy mô lớn, mô hình MXH sẽ kích thƣớc lớn bao gồm nhiều

đỉnh và mật độ kết nối giữa các đỉnh dày đặc. Để tìm ra đƣợc những ngƣời có sự

chồng chéo về nhiệm vụ trong MXH có kích thƣớc lớn vẫn là một bài toán khó,

đã và đang đƣợc khoa học quan tâm, nghiên cứu.

Để giải quyết những thách thức trên, tác giả đề xuất phƣơng pháp áp dụng

giải thuật tìm kiếm cộng đồng vào bài toán khái phá quy trình. Ý tƣởng của đề

xuất là sử dụng các kỹ thuật của KCTC để phát hiện mô hình MXH từ tập nhật

ký sự kiện. Sau đó, sử dụng giải thuật tìm kiếm cộng đồng chồng chéo để tìm ra

các cộng đồng có cấu trúc chồng chéo. Hiệu quả của đề xuất này là giúp đơn

giản hóa cấu trúc mạng tức là chia một mạng có kích thƣớc lớn thành các mạng

8

có kích thƣớc nhỏ và sự kết nối chặt chẽ hơn [7]. Do mục tiêu của luận văn tìm

ra các cộng đồng chồng chéo nên Tác giả chỉ tập trung vào các giải thuật tìm

kiếm cộng đồng chồng chéo, là loại cấu trúc cộng đồng xuất hiện phổ biến

trong thực tế.

Các nhiệm vụ chính của Luận văn sẽ thực hiện:

1. Nghiên cứu tổng quan về lĩnh vực KPQT và giải thuật tìm kiếm cộng

đồng trong MXH những năm gần đây.

2. Phát biểu bài toán KCTC và đề xuất mô hình giải quyết bài toán.

3. Xây dựng chƣơng trình thực nghiệm dựa trên mô hình đề xuất trong

luận văn và đánh giá kết quả thu đƣợc.

Bố cục của luận văn bao gồm phần mở đầu, bốn chƣơng nội dung, phần

kết luận và phƣơng phát triển tƣơng lai, danh mục tài liệu tham khảo.

Chương 1. Tổng quan về KPQT: Giới thiệu tổng quan về KPQT, trong

đó trình bày chi tiết các vấn đề liên quan đến khía cạnh tổ chức và phân tích

phƣơng pháp phát hiện MXH từ nhật ký sự kiện. Phần chính của Chƣơng này là

phát biểu bài toán cần xử lý và đƣa ra phƣơng pháp giải quyết. Từ đó, có những

nhận định về ý nghĩa thực tiễn, ý nghĩa khoa học của luận văn.

Chương 2. Các giải thuật tìm kiếm cộng đồng trong MXH: Giới thiệu

các loại giải thuật tìm kiếm và đặc biệt là các giải thuật tìm kiếm cộng đồng

chồng chéo. Sau đó, Tác giả sẽ lựa chọn giải thuật tìm kiếm cộng đồng chồng

chéo sẽ áp dụng vào bài toán KPQT. Phân tích chi tiết giải thuật Phân vùng theo

cạnh của nhóm tác giả Ahn et al. đƣa ra vào năm 2010 [4].

Chương 3. Áp dụng các giải thuật tìm kiếm cộng đồng vào bài toán

KPQT: Đề xuất mô hình giải quyết bài toán và đƣa ra định dạng dữ liệu đầu vào

các độ đo đƣợc sử dụng trong mô hình. Phân tích chi tiết các bƣớc thực hiện

trong mô hình. Kết quả của quá trình này tìm ra các cộng đồng cạnh có cấu trúc

phân cấp, tƣơng ứng là cộng đồng đỉnh có cấu trúc chồng chéo.

Chương 4. Kết quả thực nghiệm và đánh giá: Đƣa ra các yêu cầu về dữ

liệu, phần cứng, phần mềm và mã nguồn cần thiết để xây dựng chƣơng trình

thực nghiệm theo mô hình đề xuất. Dựa trên bảng số liệu thu đƣợc sau khi chạy

chƣơng trình với các tệp dữ liệu dùng làm mẫu thử nghiệm, tác giả sẽ sử dụng

các tiêu chuẩn và độ đo để phân tích chi tiết các thông số trong bảng. Từ đó,

đánh giá các kết quả thu đƣợc dựa vào sự phân tích này.

9

CHƢƠNG 1.TỔNG QUAN VỀ KHAI PHÁ QUY TRÌNH

1.1 Khai phá quy trình

Ngày nay, câu nói “khách hàng là thượng đế” đã trở nên quen thuộc đối

với các doanh nghiệp, bởi khách hàng là ngƣời trả tiền cho các sản phẩm, dịch

vụ của họ. Hầu hết, doanh nhân của mọi quốc gia trên thế giới đều nhận thức

đầy đủ về tầm quan trọng của khách hàng và họ luôn cố gắng phục vụ khách

hàng chu đáo nhất. Thực tế cho thấy, nhu cầu và mong muốn của khách hàng

thƣờng xuyên thay đổi. Điều này đã tác động rất lớn đến các doanh nghiệp, tạo

ra một thị trƣờng cạnh tranh, tất cả họ đều có chung một mục đích là đáp ứng tốt

nhất những yêu cầu thay đổi thƣờng xuyên này. Đây là là một thách thức lớn

nhất mà mỗi doanh nghiệp hàng ngày phải đối mặt. Do đó, để có thể cạnh tranh

thuận lợi, các doanh nghiệp cần phải nghiên cứu, thay đổi và cải tiến quy trình

kinh doanh phù hợp với thực tế.

Kinh doanh thông minh (Business intelligence) là một hƣớng nghiên cứu

quan trọng, trong đó có sử dụng dữ liệu đƣợc lƣu trữ trong các hệ thống thông

tin (HTTT). Sự xuất hiện “nền kinh tế số” đã làm thay đổi hai vấn đề là quá

trình điều hành kinh doanh và đánh giá hiệu suất công việc. Hầu hết, các doanh

nghiệp có quy mô lớn đều sử dụng các HTTT để hỗ trợ toàn hộ hay một phần

của quy trình kinh doanh. Dữ liệu sinh ra từ quá trình này đƣợc lƣu lại gọi là

nhật ký sự kiện. Các hệ thống ERP, WFM, CRM, SCM, B2B đều là kết quả của

sự cải tiến công nghệ và quá trình kinh doanh trong thực tế. Ngày nay, các

HTTT trở lên liên quan mật thiết hơn với các quy trình kinh doanh mà chúng hỗ

trợ. Một quy trình kinh doanh giúp điều hành hiệu quả các lĩnh vực quản lý hậu

cần, quản lý bán hàng, quản lý nhân lực, ... Sự gia tăng các hệ thống lƣu trữ

thông tin giúp quy trình kinh doanh đạt hiệu quả, hỗ trợ khả năng truy nhập và

phân tích dữ liệu. Việc trích lọc ra các thông tin có giá trị nhằm cải thiện khả

năng ra quyết định và mô hình quy trình vẫn là một vấn đề đƣợc các doanh

nghiệp quan tâm. Thực tế, việc tràn ngập các thông tin đã gây ra áp lực, thách

thức lớn trong việc trích lọc ra những thông tin có giá trị. KPQT giúp trích lọc

và phân tích dữ liệu để tìm ra mối liên quan giữa những đối tƣợng dữ liệu.

Ý tƣởng KPQT đƣợc các nhà khoa học Cook và Wolf đã nghiên cứu các

từ năm 1998. Sau đó, Herbst và Karagianis cũng đƣa các vấn đề KPQT trong nội

dung liên quan quản lý luồng công việc. Trong hội thảo về kinh doanh thông

minh, KPQT cũng đƣợc các nhà khoa học đề cập trong các nội dung quản lý

kinh doanh. Những đóng góp lớn tới lĩnh vực này đã đƣợc thêm vào sau bởi Wil

M.P. Van der Aalst và các cộng sự. Nhóm nghiên cứu đã đƣa ra các thuật toán

khai phá đỉnh cao và sự thêm đa dạng các chủ đề liên quan tới các thách thức

10

trong các quy trình kinh doanh. Do vậy, các nhà khoa học và ngƣời nghiên cứu

lĩnh vực này có thể dễ sử dụng nhiều phƣơng pháp và công cụ có sẵn.

Quản lý quy trình kinh doanh là một lĩnh vực kết nối giữa tri thức công

nghệ thông tin và khoa học quản lý, áp dụng những tri thức này vào quá trình

điều hành kinh doanh [1]. Những năm gần đây, KPQT đã nổi lên và trở thành

lĩnh vực nghiên cứu đầy tiềm năng, là lĩnh vực “một mặt nằm giữa thông minh

điện toán và khai phá dữ liệu, mặt khác nằm giữa mô hình và phân tích quy trình

[…] Giúp phát hiện, giám sát và cải thiện các quy trình thực bằng cách trích lọc

tri thức từ các nhật ký sự kiện” [1] đƣợc lƣu trong các HTTT. KPQT là một khái

niệm bao gồm tất cả các phƣơng pháp trích xuất các mô hình quy trình có cấu

trúc từ một tập các công việc trong thực tế [8]. Cụ thể, các kỹ thuật này giúp

trích lọc các thông tin có giá trị và liên quan đến quy trình từ các tập nhật ký sự

kiện. Tuy nhiên, các tổ chức gặp phải các vấn đề về giá trị trích lọc từ những dữ

liệu này [28].

Hình 1.1 Tổng quan về KPQT

1.1.1 Sự cần thiết của KPQT:

- Trực quan hóa quy trình kinh doanh bằng mô hình: Tất cả những hoạt

động trong công ty nếu nhìn bằng mắt thƣờng chỉ là cái nhìn chủ quan, nó không

phản ánh đƣợc bản chất sâu bên trong của từng hoạt động. Vì vậy, KPQT sẽ

giúp các doanh nghiệp thấy rõ các hoạt động, sự tƣơng tác, thời điểm xảy ra các

hoạt động trong nội bộ của họ.

- Hỗ trợ ra quyết định: Những mô tả hoạt động của doanh nghiệp trên

giấy có thể khác xa so với thực tế, tùy theo từng nhà quản lý có thể nhìn thấy

hoặc không nhìn thấy vấn đề này. Kết quả là một loạt các đơn vị chức năng hoạt

động yếu kém do không đáp ứng đƣợc yêu cầu, đòi hỏi từ thực tế. KPQT tìm ra

những tồn tại, hạn chế trong hoạt động kinh doanh một cách nhanh chóng, giúp

nhà quản lý có thể ra quyết định chính xác trong các công việc.

11

Hình 1.2 Quá trình phát hiện mô hình quy trình từ nhật ký sự kiện

Hình 1.2 cho thấy dữ liệu hoạt động của doanh nghiệp sẽ đƣợc lƣu lại

trong các HTTT, áp dụng các kỹ thuật KPQT để trích xuất ra các thông tin có

giá trị hay mô hình quy trình.

- Tạo ra sự khách quan, giảm thiểu rủi ro: Nhà quản lý có thể có những ý

kiến chủ quan cũng nhƣ có sự thiên vị hay kỳ vọng quá mức về một vấn đề nào

đó. Những sai lệch này dẫn đến một loạt các cuộc họp gây lãng phí thời gian,

tiền bạc và tạo ra sự mâu thuẫn nội bộ. Kết quả của những phƣơng án giải quyết

có thể không phù hợp với thực tế. KPQT giúp các doanh nghiệp có cơ sở tin

tƣởng những giải pháp cho những vấn đề phức tạp của doanh nghiệp.

1.1.2 Mục tiêu của KPQT: Mục tiêu chính của KPQT là phát hiện, phân

tích và hiểu các quy trình kinh doanh dựa trên các bản ghi các hoạt động tại thời

một thời điểm xác định, thông tin này đƣợc lƣu trong các tập nhật ký sự kiện.

KPQT giúp trích lọc các thông tin liên quan, phát hiện ra mô hình quy trình mới

từ các dữ liệu sự kiện, đƣợc lƣu trong các HTTT lớn [1]. Quá trình này bao gồm

các kỹ thuật, công cụ và phƣơng thức để phát hiện, giám sát, cải thiện các quy

trình trong thực tế [36].

1.1.3 Mô hình quy trình và nhật ký sự kiện:

a) Mô hình quy trình (MHQT): Trong bối cảnh khoa học HTTT, một mô

hình là đại diện phi vật chất của thế giới thực, đƣợc sử dụng cho một mục đích

cụ thể [31]. Các mô hình đƣợc sử dụng để làm giảm độ phức tạp bằng cách biểu

diễn những đặc trƣng đƣợc quan tâm, bỏ qua những đặc trƣng khác. Một MHQT

là sự biểu diễn hình học của một quy trình kinh doanh, mô tả sự ràng buộc giữa

các công việc cần đƣợc thực hiện trong những kế hoạch kinh doanh. MHQT là

12

một tập các mô hình biểu diễn các hoạt động của công ty và sự ràng buộc giữa

các mô hình [29]. Các mô hình này có thể đƣợc biểu diễn dƣới dạng BPNN,

EPC hoặc lƣới Petri. Nếu các mô hình đƣợc xây dựng theo phƣơng pháp thủ

công, độ tin cậy không cao do những yếu tố chủ quan. Để đảm bảo đƣợc sự tin

cậy của MHQT, phƣơng pháp khai phá dữ liệu lƣu trong các HTTT đƣợc đƣa ra.

Những dữ liệu này là các dữ liệu đƣợc tạo ra từ các giao dịch kinh doanh, các

mô hình sinh ra phản ánh đúng thực tế quá trình kinh doanh của doanh nghiệp

và tạo ra độ tin cậy cao.

b) Nhật ký sự kiện: Là nguồn thông tin đƣợc lấy từ nhiều nguồn khác

nhau nhƣ phỏng vấn, khảo sát, giám sát công việc, ….sẽ đƣợc lƣu trong các

HTTT. Sau đó, chúng đƣợc trích lọc các thông tin liên quan đến cấu trúc mô

hình, việc phân tích sẽ đƣợc thực hiện. Những công việc này có thể đƣợc thực

hiện thủ công hay bằng một số ứng dụng KPQT. Các thông tin đƣợc trích lọc từ

tập các nhật ký sự kiện sẽ đƣợc trích xuất và lƣu dƣới dạng XML [18], các bản

ghi trong cơ sở dữ liệu liệu [33] hoặc kho dữ liệu [32]. Dựa vào các nguồn dữ

liệu này, các ứng dụng KPQT sẽ xây dựng lên các MHQT và những dự đoán

hiệu quả kinh doanh. Tập dữ liệu đƣợc lấy từ nhiều nguồn đƣợc lƣu trữ trong

cùng một hệ thống nhƣ kho dữ liệu, cung cấp nền tảng khai phá tri thức chƣa

đƣợc biết đến và mối quan hệ giữa các thực thể trong quy trình. Các tri thức mới

đƣợc phát hiện có liên quan nhƣ các bộ phận kinh doanh, danh mục sản phẩm,

nhà cung cấp, lộ trình và thời gian thực hiện quy trình.

1.1.4 Các bài toán KPQT: Có 03 bài toán chính:

Phát hiện mô hình quy trình:Kỹ thuật này phát hiện ra các mô hình chƣa

đƣợc biết đến trƣớc đó, các mô hình này sẽ đƣợc dùng vào mục đích phân tích

hoặc tối ƣu hóa [36]. Trong đó:

Đầu vào: Nhật ký sự kiện.

Đầu ra: Mô hình quy trình.

Kiểm tra sự phù hợp của mô hình quy trình: Kỹ thuật này sử dụng mô

hình quy trình đang tồn tại và so sánh với dữ liệu lƣu trong nhật ký sự kiện,

nhằm kiểm tra sự phù hợp của mô hình quy trình với thực tế. Trong đó:

Đầu vào: Nhật ký sự kiện, Mô hình quy trình.

Đầu ra: Các độ đo phù hợp.

Tăng cường mô hình quy trình: Đây là kỹ thuật mở rộng hay cải tiến mô

hình quy trình đang tồn tại sử dụng thông tin về quy trình thực đƣợc ghi lại

trong các nhật ký sự kiện.

Đầu vào: Mô hình quy trình hiện có, Nhật ký sự kiện.

13

Đầu ra:Mô hình quy trình đƣợc bổ sung.

Hình 1.3 Các bài toán KPQT

Hình 1.3 biểu diễn sự tƣơng tác giữa KPQT, dữ liệu nhật ký sự kiện và

nền tảng phân tích. Khai phá nhật ký sự kiện hay sự các quy trình kinh doanh

thực để phát hiện ra sự tắc nghẽn, đứt đoạn của quy trình. Trong KPQT, sự

tƣơng tác giữa những thực thể theo một quy luật logic, do đó những kết quả của

lĩnh vực này mang lại là rất lớn đối với lĩnh vực kinh doanh thông minh.

1.1.5 Các khía cạnh của KPQT: Mở rộng MHQT khi bổ sung các khía

cạnh, bao gồm:

Khía cạnh tổ chức: tập trung vào các thông tin về các nguồn tài nguyên ẩn

dƣới các nhật ký. Các nguồn tài nguyên này bao gồm con ngƣời, hệ thống hay

vai trò hay bộ phận liên quan và sự liên hệ giữa các yếu tố đó. Mục tiêu của khía

cạnh này là để xây dựng cấu trúc tổ chức bằng cách phân lớp ngƣời tham gia

quy trình theo vai trò, đơn vị, đồng thời biểu diễn MXH.

Khía cạnh trường hợp: Tập trung vào các thuộc tính riêng của các trƣờng

hợp nhƣ số ngƣời tham gia, thứ tự thực hiện các hoạt động, những ngƣời tham

gia, … Từ đó thiết lập mối quan hệ giữa những thuộc tính này, tạo đầu vào cho

các giải thuật phân cụm.

Khía cạnh thời gian: Liên quan đến thời gian và tần suất xuất hiện của các

sự kiện. Từ lịch biểu thời gian xảy ra các sự kiện giúp phát hiện các đoạn “nút

thắt cổ chai” hay bị trì hoãn, tắc nghẽn luồng công việc, ƣớc tính các mức độ dịch

vụ, giám sát các nguồn tài nguyên hay dự đoán thời gian trống trong các trƣờng

hợp.

14

1.1.6 Các ứng dụng của KPQT

Các ứng dụng KPQT có thể đƣợc sử dụng nhƣ là một công cụ kiểm soát

trực tiếp hiệu suất quy trình kinh doanh. Một số ứng dụng KPQT hiện nay nhƣ:

- EmiT là công cụ sử dụng nhật ký sự kiện định dạng XML làm dữ liệu

đầu vào. Giúp phát hiện mô hình quy trình và biểu diễn quy trình dƣới dạng lƣới

Petri.

- ARIS PPM là công cụ để đánh giá quy trình kinh doanh. Kỹ thuật này

giúp phân tích lịch sử của các quy trình để tìm ra điểm yếu trong quy trình hiện

tại, tối ƣu hóa cấu trúc tổ chức, …

- PISA là công cụ dùng để xác định hiệu suất quy trình từ nhật ký sự kiện.

- ProM là phần mềm mã nguồn mở, dùng cho những ngƣời nghiên cứu

lĩnh vực KPQT. Công cụ này cung cấp nhiều plug-in cho nhiều giải thuật khai

phá khác nhau.

- Disco là một ứng dụng thƣơng mại, giúp trích lọc và tải các nhật ký sự

kiện.

Hình 1.4 Các ứng dụng KPQT trong các lĩnh vực

Hình 1.4 cho thấy sự phổ biến các ứng dụng KPQT trong rất nhiều các

lĩnh vực kinh doanh.

1.1.7 Một số thách thức đối với lĩnh vực KPQT

- Mục đích sử dụng: KPQT là một công nghệ cần phải đƣợc đặt trong bối

cảnh cụ thể thì mới làm nổi bật lên giá trị của lĩnh vực này. Các lợi ích của

KPQT mang lại nhƣ tăng hiệu quả hoạt động của doanh nghiệp, quản lý rủi ro và

bảo đảm quá trình, giảm thiểu sai sót, kiểm soát chất lƣợng dịch vụ.

15

- Các bản ghi sự kiện bị lỗi và thiếu: Đối với các bản ghi không chính xác

của nhật ký sự kiện có thể đƣợc sinh ra do sự cố phần mềm, đột biến ngƣời

dùng, lỗi phần cứng hoặc bị cắt xén các trƣờng hợp của quy trình trong lúc trích

lọc dữ liệu. Các bản ghi bị sai trong nhật ký sự kiện đƣợc coi là một biểu hiện lạ

trong một hiện tƣợng đƣợc gọi là bản ghi bị lỗi. Các bản ghi bị lỗi đƣợc lƣu lại

chính xác và thƣờng hiếm khi xảy ra [1]. Các bản ghi sự kiện lỗi này sẽ làm tăng

độ phức tạp của mô hình quy trình. Các đề xuất KPQT vì thế mà đƣa ra những

sự phân tích và mô hình không đúng.

- Chất lượng nhật ký sự kiện: Việc thu thập dữ liệu và tiền xử lý dữ liệu là

một thách thức trƣớc khi bắt đầu KPQT, vì chất lƣợng của dữ liệu ảnh hƣởng

lớn đến kết quả của KPQT. Chất lƣợng của các nhật ký sự kiện sẽ ảnh hƣởng

chủ yếu tới chất lƣợng khai phá và tái cấu trúc các mô hình quy trình. Các hệ

thống quy trình kinh doanh và quản lý luồng công việc tạo ra các nhật ký sự kiện

với chất lƣợng cao nhất [36].

- Mô hình quy trình phức tạp: Các quy trình trong thực tế thƣờng rất

phức tạp. Việc biểu diễn chúng bằng hình học có thể dẫn các mô hình có độ

phức tạp cao và rất khó hiểu. Hai mô hình quy trình phức tạp điển hình đƣợc gọi

là quy trình Lasagna và Spaghetti [1]. Giảm độ phức tạp của mô hình là một

thách thức lớn và đang là đối tƣợng nghiên cứu ngày nay [23].

- Các loại hình quy trình: KPQT chỉ có thể đƣợc áp dụng đối với các quy

trình đƣợc kiểm soát hoàn toàn bằng HTTT. Trong thực tế, các quy trình chỉ cần

đƣợc quan sát dƣới một số hình thức. Đối với một số hệ thống quản lý quy trình

kinh doanh theo mô hình và cấu hình định sẵn thƣờng ít có giá trị đối với việc

phát hiện lại các luồng tiến trình. Thông thƣờng, các bộ phận trong một quy

trình là tự động, một số bộ phận đƣợc điều khiển bởi con ngƣời. Do vậy, rất khó

kiểm soát đƣợc những việc mà họ đã làm gì trong bộ phận đó. KPQT đƣợc áp

dụng cho một lƣợng lớn các loại dữ liệu bao gồm cơ sở dữ liệu, các nhật ký giao

dịch, các bảng excel.

1.2 Khía cạnh tổ chức trong KPQT

Trong một tổ chức, dù có trang thiết bị hiện đại, tối tân thì yếu tố con

ngƣời vẫn đóng vai trò quan trong nhất. Sự chồng chéo chức năng, nhiệm vụ

giữa các cá nhân, phòng, ban, đơn vị làm cho cơ cấu tổ chức trở nên cồng kềnh,

giảm hiệu suất công việc và tốn kém chi phí. Những giải pháp cải tiến về khía

cạnh tổ chức đã và đang đƣợc các nhà khoa học, nhà quản lý quan tâm và nghiên

cứu.

16

Khía cạnh tổ chức là một trong ba khía cạnh quan trọng nhất của bài toán

KPQT, các kỹ thuật bao gồm: khai phá tổ chức, khai phá MXH, khai phá luật

phân phối nguồn tài nguyên, …[8]. Đây là những kỹ thuật giá trị cho phép phát

hiện mô hình MXH của một tổ chức. Đồng thời giúp đƣa ra cách thức đánh giá

các mạng lƣới này bằng cách ánh xạ và phân tích các mối quan hệ giữa những cá

nhân, đơn vị trong công ty. Tuy nhiên, khi phân tích MXH với kích thƣớc lớn,

các kỹ thuật của KPQT sinh ra các mô hình với sự phức tạp cao, điều này làm

cho ngƣời dùng bối dối và khó khăn để hiểu đƣợc chúng. Phân tích dựa vào cấu

trúc hình học bao gồm chiến lƣợc “chia để trị” nhằm trực quan hóa và phân tích

mô hình mạng trong các mức độ tổng quát khác nhau.

- Mục tiêu của KCTC: Khía cạnh tổ chức tập trung vào các nguồn tài

nguyên, nhƣ những ngƣời thực hiện có liên quan đến mô hình quy trình và sự

liên quan và mối quan hệ của họ với quy trình. Mục tiêu chính của khía cạnh

này là tìm ra cấu trúc tổ chức bằng cách phân lớp ngƣời tham gia vào quy trình

trong các giới hạn của các đơn vị, vai trò của từng ngƣời, mối quan hệ của

những ngƣời tham gia vào quy trình.

- Vai trò KCTC: Các kỹ thuật này giúp phát hiện cấu trúc tổ chức, phân

tích MXH, cấp phát tài nguyên và khai phá vai trò từng cá thể, nhóm hay tổ

chức trong MXH. Khai phá khía cạnh tổ chức là phân tích những thông tin đƣợc

tiết lộ từ khía cạnh tổ chức. Kỹ thuật này bao gồm việc phát hiện các MXH, cấu

trúc tổ chức và hành vi của tổ chức [2]. Các kỹ thuật khai phá này tạo nên nền

tảng đối với các nhiệm vụ sau:

+ Chứng thực: tập trung vào kiểm soát truy nhập giúp đảm bảo chỉ những

cá nhân, đơn vị nào đƣợc chứng thực có vai trò mới đƣợc phép thực hiện các

hoạt động trong quy trình.

+ Kiểm soát tài nguyên: tập trung vào những ràng buộc sau khi truy nhập

dữ liệu nhƣ ngƣời hay nhóm ngƣời sẽ nắm giữ và sử dụng dữ liệu.

+ Tái cơ cấu tổ chức:

Phân tách: ràng buộc liên quan tới quy trình giới hạn các khả năng của

các đơn vị khi thực hiện các hoạt động, giúp giảm rủi ro khi gặp lỗi.

Sát nhập: đây là sự ràng buộc hai chiều, sắp xếp các chủ thể, tác vụ vào

cùng một nhóm các hoạt động cụ thể.

+ Kiểm soát xung đột: ngăn các luồng thông tin mang tính nhạy cảm giữa

những đối thủ cạnh tranh hay các phòng, ban là những đơn vị tham gia vào quy

trình kinh doanh.

17

- Phân tích MXH: Jacob Levy Moreno đã đƣa ra khái niệm mô hình

MXH vào năm 1932-1938, ông đã nghiên cứu mô hình MXH các trƣờng học

dành cho nhóm học sinh nữ tại Hudson, NewYork [30]. MXH là một mô hình

đƣợc biểu diễn dƣới dạng đồ thị, là phƣơng pháp biểu diễn dữ liệu và các mối

quan hệ của các dữ liệu này dƣới dạng đồ thị. Phát hiện MXH từ nhật ký sự kiện

là phát hiện mối quan hệ giữa những ngƣời, nhóm ngƣời tham gia vào quy trình.

Nhật ký sự kiện chứa thông tin những ngƣời tham gia vào quy trình hoặc việc

khởi tạo sự kiện. Sử dụng một số kỹ thuật phân tích MXH và các kết quả

nghiên cứu có sẵn, các MXH này cho phép phân tích mối quan hệ giữa các chủ

thể bao gồm các tiến trình thực thi quy trình. Các kết quả phân tích đƣợc sử

dụng để xác định những ngƣời thƣờng xuyên giao tiếp với nhau trong quy trình,

ngƣời có kết giao tiếp nhiều nhất (tầm ảnh hƣởng nhất) với ngƣời khác, vai trò

ngƣời và nhóm ngƣời trong quy trình hay hiện tƣợng tắc nghẽn hoạt động bởi

ngƣời nào trong quy trình.

Phân tích MXH (Social Network Analysis) bao gồm tập các phƣơng pháp,

kỹ thuật, công cụ giúp trực quan hóa và phân tích các MXH. Kỹ thuật này đóng

vai trò quan trọng, giúp đánh giá mối quan hệ giữa những cá nhân, các phòng,

đơn vị hay tổ chức tham gia vào quy trình kinh doanh [24] và có thể thu đƣợc

những thông tin quan trọng giúp cải thiện quá trình quản lý luồng công việc

trong một tổ chức và cho phép ngƣời quản lý tìm ra phƣơng pháp cải thiện

chúng [25]. Mục tiêu của các kỹ thuật phân tích MXH là trả về quy trình thực sự

minh bạch và cung cấp các kỹ thuật giúp các quy trình kinh doanh trở nên tốt và

liền mạch hơn.

Để phát hiện ra MXH, các kỹ thuật sẽ sử dụng các độ đo để định lƣợng

mức độ thƣờng xuyên và sự chuyển giao công việc giữa những ngƣời thực hiện.

Wil M.P. van der Aalst et al. đã đề xuất các loại độ đo xây dựng mô hình MXH

từ nhật ký sự kiện [8], bao gồm:

- Độ đo dựa trên quá trình thực hiện nhiệm vụ: đánh giá mức độ các công

việc đƣợc chuyển giữa những ngƣời tham gia vào quy trình. Độ đo Handover of

work tính số lần mà ngƣời i thực hiện một nhiệm vụ trƣớc một ngƣời j trong một

trƣờng hợp. Giá trị độ đo Subcontracting là số lần ngƣời j thực hiện nhiệm vụ

giữa hai nhiệm vụ khác mà ngƣời i thực hiện.

- Độ đo dựa trên những người tham gia cùng một trường hợp: tính mức

độ thƣờng xuyên hai ngƣời thực hiện nhiệm vụ trong cùng một trƣờng hợp. Hai

cá nhân thƣờng xuyên làm việc cùng một trƣờng hợp có mối quan hệ mật thiết

với nhau hơn những ngƣời khác. Giá trị độ đo Working together là số lần hai

ngƣời thực hiện nhiệm vụ trong cùng một trƣờng hợp.

18

- Độ đo dựa trên loại nhiệm vụ: tập trung vào tính chất công việc cần phải

thực hiện. Hai ngƣời thực hiện các nhiệm vụ tƣơng tự nhau sẽ có mối quan hệ

mật thiết hơn. Độ đo Similar task sử dụng hàm tính khoảng cách Hamming, …

để tính khoảng cách giữa các nhiệm vụ.

- Độ đo dựa trên loại sự kiện: Các sự kiện tƣơng ứng với sự thực hiện các

nhiệm vụ. Tuy nhiên, có những sự kiện tƣơng ứng với hoạt động chỉ đƣợc giao

giữa ngƣời i sang ngƣời j và không có chiều ngƣợc lại. Mối quan hệ này thể hiện

sự phân cấp quyền lực.

1.3 Bài toán toán khai phá khía cạnh tổ chức

1.3.1 Trong thực tế: Hầu hết, các doanh nghiệp và tổ chức đều đang gặp

phải vấn đề liên quan đến sự chồng chéo, trùng lắp, phân công chƣa rõ ràng,

chƣa hợp lý về chức năng, nhiệm vụ giữa các cá nhân, bộ phận. Đây là những

vấn đề đƣợc coi là những thách thức vì nhà quản lý đã nhìn thấy, nhƣng chƣa

tìm đƣợc cách giải quyết tối ƣu. Những thách thức này là nguyên nhân dẫn đến

giảm doanh thu và hiệu suất công việc, tăng chi phí cho các nhiệm vụ thống kê,

phân tích viết báo cáo lập kế hoạch, quy hoạch liên quan đến những vấn đề tổ

chức.

Nguyên nhân: Chƣa thống nhất về phân công nhiệm vụ giữa các phòng,

ban, đơn vị; cách nhìn chủ quan của nhà quản lý đối với việc phân công nhiệm

vụ; thiếu tiêu chuẩn để phân định rõ ràng; tính chất phức tạp, đa dạng của công

việc; việc đáp ứng những mong muốn thay đổi theo ngày của khách hàng cũng

là nguyên nhân làm cho những cơ cấu tổ chức trƣớc đó trở lên lạc hậu.

Giải pháp trong thực tế: Rà soát, nghiên cứu, phân tích, đánh giá và làm

rõ chức năng, nhiệm vụ của từng bộ phận để tìm ra sự chồng chéo.

1.3.2 Trong luận văn: Dựa trên những thách thức của bài toán trong thực

tế, luận văn tập trung vào giải quyết những thách thức này trong bài toán KPQT.

- Giới hạn luận văn: Phát hiện sự chồng chéo nhiệm vụ giữa những ngƣời

tham gia vào quy trình từ tập dữ liệu sự kiện có sẵn.

Phát biểu bài toán:

Đầu vào: Tập dữ liệu sự kiện định dạng XES 1.0.

Đầu ra: Các cộng đồng chồng chồng chéo.

- Phân tích bài toán: Có 04 danh từ, cụm danh từ trong bài toán trên cần

quan tâm: “người”, “mối quan hệ”, “nhóm người” và “mật thiết”. Ta giả định

19

một phƣơng thức kết hợp giữa 04 khái niệm này: (1) “ngƣời” + “mối quan hệ” =

“nhóm ngƣời”; (2) “nhóm ngƣời” + “mật thiết” = “cộng đồng”. Trong đó:

(1) Những ngƣời có mối quan hệ với nhau sẽ tạo thành một nhóm ngƣời,

nhóm ngƣời này có thể cùng thực hiện một nhiệm vụ, một mục đích, … tùy theo

từng trƣờng hợp thực tế công việc mà họ đang liên quan.

(2) Nhóm ngƣời có mối quan hệ mật thiết đƣợc gọi là một cộng đồng. Sự

mật thiết ở đây có thể đƣợc đánh giá dựa trên nhiều tiêu chuẩn nhƣ cùng thực

hiện một nhiệm vụ, thƣờng xuyên tƣơng tác với nhau, …

Để giải quyết một vấn đề trong thực tế, cần phải tổng quát hóa vấn đề đó

thành các khái niệm toán học. Trong bài toán trên, ta giả định “ngƣời”, “nhóm

ngƣời”, “mối quan hệ” tƣơng ứng với “đỉnh”, “cụm các đỉnh”, “cạnh” trong lý

thuyết đồ thị. Nhóm các đỉnh có các cạnh kết nối giữa chúng ta gọi là một MXH

hay đồ thị. Nhà quản lý muốn tìm kết quả của phƣơng trình (2), hay tìm các

cộng đồng của MXH. Để tìm đƣợc kết quả mong muốn, cần áp dụng một thuật

toán tìm kiếm, giúp tìm kiếm nhanh chóng, tạo sự tin cậy đối với các cộng đồng

đƣợc tìm ra.

Hình 1.5 biểu diễn ví dụ với ba vai trò dựa trên độ tƣơng tự của tiểu sử

của 06 ngƣời thực hiện. Ba vai trò gồm trợ lý, chuyên gia, ngƣời quản lý đƣợc

coi là ba phân vùng của 06 ngƣời tham gia vào quy trình. Một ngƣời có thể có

nhiều vai trò khác nhau trong quy trình, mỗi hoạt động chỉ đƣợc thực hiện bởi

duy nhất một ngƣời.

Hình 1.5 Mô hình tổ chức được phát hiện từ các nhật ký sự kiện

20

- Nền tảng khoa học:

Wil M.P. van der Aalst et al. đã áp dụng các kỹ thuật phân tích MXH vào

việc phân tích mối quan hệ giữa những ngƣời tham gia vào quy trình từ nhật ký

sự kiện [8]. Bài nghiên cứu đã đề xuất ra các loại độ đo có thể sử dụng để xây

dựng mô hình MXH và giới thiệu công cụ MiSoN (Mining Social Network).

Năm 2012, hai tác giả Diago R. Ferreira và Cláudia Alves đã đề xuất đơn giản

hóa mô hình quy trình bằng cách sử dụng độ đo Modularity để phát hiện ra các

cộng đồng trong MXH. Nhóm tác giả đã sử dụng công cụ ProM để thực hiện ý

tƣởng này [20].

- Phương pháp giải quyết:

Phƣơng pháp để giải quyết bài toán trong luận văn dựa trên những kết quả

nghiên cứu của các nhà khoa học Wil M.P van der Aalst et al. và Diago R.

Ferreira et al.. Điểm mới trong đề xuất của Tác giả là áp dụng giải thuật tìm

kiếm cộng đồng chồng chéo trong MXH. Đề xuất này xuất phát từ hiện tƣợng

chồng chéo nhiệm vụ giữa những ngƣời thuộc cùng một tổ chức trong thực tế.

Tuy nhiên, để không làm mất tính tổng quát cấu trúc tổ chức phân cấp nhƣng

vẫn phản ánh đƣợc sự chồng chéo của các cộng đồng trong thực tế, Tác giả sử

dụng giải thuật Phân vùng theo cạnh của Ahn et al., 2010.

Tổng quát các bƣớc giải quyết:

(1) Tiền xử lý dữ liệu: Loại bỏ các thông tin bị lỗi, nhiễu, những thông tin

không có giá trị khai phá, chuyển về định dạng chuẩn XES 1.0.

(2) Xây dựng MXH: Sử dụng các độ đo để xây dựng MXH từ tập nhật ký

sự kiện.

(3) Phân tích MXH: Sử dụng chiến lƣợc “Chia để trị” hay áp dụng giải

thuật tìm kiếm cộng đồng để tìm ra các cộng đồng chồng chéo trong MXH.

(4) Kết quả: Từ các cộng đồng đỉnh chồng chéo, tìm ra các cộng đồng

ngƣời có sự chồng chéo nhiệm vụ.

(Chi tiết đề xuất giải quyết bài toán trong Chương 4 luận văn này)

1.4 Ý nghĩa của luận văn:

1.4.1 Về mặt khoa học:

- Luận văn đã tổng quát các phƣơng pháp khoa học để giải quyết những

thách thức trong bài toán KCTC.

21

- Trong luận văn, Tác giả tập trung đƣa ra các cơ sở khoa học, định hƣớng

nghiên cứu để tìm ra sự chồng chéo nhiệm vụ giữa những ngƣời tham gia vào

quy trình từ tập nhật ký sự kiện, từ đó đề xuất hƣớng giải quyết bài toán.

- Từ các kết quả nghiên cứu, luận văn đã góp phần làm cơ sở thực tiễn

cho các nghiên cứu khoa học sau này.

1.4.2 Về mặt thực tiễn:

- Những thách thức trong thực tế của doanh nghiệp là động lực Tác giả

thực hiện nghiên cứu này và định hƣớng tìm phƣơng pháp giải quyết. Do đó, đề

xuất trong luận văn có thể là một hƣớng giải quyết mà các doanh nghiệp có thể

áp dụng.

- Nền tảng của phƣơng pháp giải quyết dựa trên nền tảng khoa học, do đó

các nhà quản lý, ngƣời nghiên cứu có thể tin tƣởng, nghiên cứu và phát triển mô

hình giải quyết đƣợc đề xuất trong luận văn.

- Do vấn đề đƣợc đặt ra trong luận văn có tính thời sự, các kết quả nghiên

cứu có thể đƣợc áp dụng vào thực tiễn hiện thời, không bị lạc hậu và có thể đánh

giá đƣợc hiệu quả của đề xuất.

22

CHƢƠNG 2. CÁC GIẢI THUẬT TÌM KIẾM CỘNG TRONG MXH

2.1 Cộng đồng mạng xã hội

Hơn một thập kỷ trƣớc, các mạng phức tạp (hay cộng đồng MXH) đã trở

thành chủ đề đƣợc quan tâm và nghiên cứu trong một số hệ thống lớn. Cộng

đồng là một nhóm các đỉnh mà có cùng một số thuộc tính và vai trò trong tổ

chức. Nhóm gồm các đỉnh có nhiều kết nối với nhau nếu chúng thuộc cùng một

cộng đồng và ít kết nối đến các đỉnh khác nếu chúng không thuộc cùng một

cộng đồng [5]. Sự tƣơng tác giữa các phần tử trong MXH hay mạng lƣới sinh

học đƣợc biểu diễn bằng các liên kết và đỉnh. Một cộng đồng hay còn gọi là một

cụm là một nhóm các đỉnh có nhiều kết nối với nhau hơn các đỉnh khác trong

mạng [22]. Các mạng lƣới thƣờng đƣợc biểu diễn theo cấu trúc mô-đun (hay

cộng đồng). Một số cộng đồng thƣờng liên quan mật thiết tới các đơn vị chức

năng của hệ thống. Nhiều hệ thống trong thực tế có thể đƣợc biểu diễn dƣới

dạng mô hình MXH nhƣ nhƣ mạng điện thoại, các trang MXH, sự di chuyển của

động vật, sự tƣơng tác của các phân tử, … . Một hiện tƣợng thƣờng đƣợc quan

sát thông qua các loại mạng khác nhau là sự hiện diện của các cấu trúc cộng

đồng tiềm ẩn. Các đỉnh có thể đƣợc tập hợp lại thành nhóm sao cho những đỉnh

trong nhóm có sự tƣơng tác lẫn nhau và các nhóm khác nhau thƣờng ít khi tƣơng

tác.

2.1.1 Nguyên nhân hình thành cộng đồng MXH:

Theo nghiên cứu của Pew Internet & American Life Project, hơn 93% cả

thiếu niên (12-17 tuổi) và thanh niên (18-29 tuổi) ở Mỹ sử dụng Internet hàng

ngày, trong đó có hơn 70% số ngƣời dùng các MXH. Một trang web tạo ra một

cộng đồng xã hội, nơi gồm những ngƣời quan tâm đến cùng một chủ đề hay chỉ

là sự quan tâm đến nhau. Các thành viên sẽ tạo các tiểu sử cá nhân trực tuyến và

một số loại dữ liệu khác. Họ giao tiếp với ngƣời khác bằng âm thanh, văn bản,

tin nhắn, video trực tuyến và các loại dịch vụ khác nhƣ MXH. Ngày nay, có

nhiều chuyên trang về MXH nhƣ Facebook, Orkut, Twitter, Bebo, Myspace,

Friendster, hi5, Linkedin và Bharatstudent, …. Những website này đƣợc biết

đến nhƣ là những mạng lƣới cộng đồng. Một số nguyên nhân hình thành cộng

đồng:

- Đặc điểm: Cộng đồng thƣờng hình thành giữa những ngƣời cùng chia sẻ

những đặc điểm giống nhau, ví dụ nhƣ một nhóm ngƣời cùng thuộc một trƣờng

đại học.

- Mục đích: Đây là nhóm ngƣời làm việc để đạt đƣợc một mục đích chung

nhƣ cùng chống lại đói nghèo, tăng trƣởng nền kinh tế, …

23

- Mục tiêu: Đa số ngƣời một cộng đồng cùng phấn đấu tới một mục tiêu

cụ thể, hữu hình, không nhất thiết tất tả những ngƣời thuộc cộng đồng phải có

mục tiêu này nhƣ mạng lƣới doanh nghiệp toàn cầu đều có mục tiêu là đạt thắng

lợi doanh thu.

- Sở thích: Các thành viên trong một cộng đồng cùng sở thích hoặc cùng

tham gia vào một hoạt động cụ thể nhƣ thể thảo, khiêu vũ, …

- Thói quen: Đây là một cách xác định hành vi của con ngƣời hay tổ chức

diễn ra hàng ngày nhƣ một ngƣời thƣờng xuyên làm một loại công việc vào thời

điểm xác định trong ngày, một công ty thƣờng tổ chức ăn mừng khi doanh thu

đạt cao và ngƣợc lại, ….

2.1.2 Các loại cộng đồng trong MXH [16]:

- Cộng đồng tường minh: Đƣợc hình do những đặc trƣng chung của nhóm

đã đƣợc thiết lập trƣớc nhƣ Google+ có chức năng “Circles”, Facebook có chức

năng “Smart list” giúp phân loại các nhóm ngƣời thực hiện bởi chủ tài khoản.

- Cộng đồng không tường minh: Đƣợc hình thành do sự tƣơng tác giữa

những ngƣời trong cộng đồng, không thấy rõ bằng mắt thƣờng. Những ngƣời

thuộc cùng một cộng đồng sẽ tƣơng tác nhiều hơn với những ngƣời thuộc cộng

đồng khác. Trong luận văn, Tác giả thực hiện tìm kiếm loại cộng đồng này.

2.1.3 Các loại cấu trúc cộng đồng:

Cấu trúc cộng đồng đƣợc Girvan và New-man nghiên cứu vào năm 2002,

ngoài ra chủ đề này còn đƣợc đề cập trong các bài nghiên cứu của Danon et al.,

2007; Fortunato và Castellano, 2009; Newman, 2004a; Porter et al., 2009;

Schaeffer, 2007. Để xác định cấu trúc cộng đồng, phải phân tích các mối quan

hệ dƣới dạng cấu trúc hình học giữa các cộng đồng. Loại cấu trúc cộng đồng

đƣợc phân loại theo sự bao phủ các phần tử của các cộng đồng, một số loại cấu

trúc điển hình:

Cấu trúc cộng đồng không chồng chéo: Một đỉnh chỉ thuộc vào duy nhất

một cộng đồng [6]. Các cộng đồng đỉnh này không có sự liên hệ, tách rời nhau

và chỉ có hoặc không có các cạnh trung gian giữa chúng.

Cấu trúc cộng đồng chồng chéo: các cộng đồng trong thực tế có khuynh

hƣớng chồng chéo các đỉnh, tức là một đỉnh có thể thể thuộc nhiều cộng đồng.

Đỉnh đƣợc gọi là đỉnh chồng chéo nếu thuộc sở hữu nhiều hơn một cộng đồng

[7]. Phát hiện các cộng đồng nối chồng chéo đang là một thách thức đối với

những nhà nghiên cứu bởi sự không có sự phân chia rõ ràng giữa các đỉnh và

cộng đồng.

24

Năm 2013, Yang và Leskovec đã quan sát và tổng kết lại sự tƣơng tác

giữa các cá nhân trong cộng đồng: “Các đỉnh chồng chéo có khả năng kết nối

với các đỉnh khác cao hơn bởi chúng thuộc nhiều cộng đồng. […] Các cộng

đồng chồng chéo có mật độ kết nối dày hơn các cộng đồng không chồng chéo”

[22].

Hình 2.1 Các loại cấu trúc cộng đồng

T

T Sự mâu thuẫn

Loại cấu trúc

Chồng chéo Không chồng chéo

1 Đặc điểm

Một số đỉnh trong mạng

có thể thuộc nhiều hơn 1

cộng đồng

Mỗi đỉnh chỉ thuộc 1

cộng đồng duy nhất

2 Tần suất xuất hiện

trong thực tế Nhiều Ít

Bảng 2.1 So sánh các loại cấu trúc cộng đồng

Bảng 2.1 là sự so sánh giữa hai loại cấu trúc này, sự mâu thuẫn giữa các

cộng đồng chủ yếu trong việc sở hữu các đỉnh. Để giải quyết mâu thuẫn cần phải

có phƣơng pháp “hòa giải” phù hợp, tránh mất tổng quát của hai loại cấu trúc

này.

2.2 Các phƣơng pháp phát hiện cộng đồng

2.2.1 Ứng dụng: Phát hiện cộng đồng là một nhiệm vụ quan trọng trong

nghiên cứu và cung cấp các thông tin tổng quát về cấu trúc mạng. Áp dụng các

giải thuật tìm kiếm cộng đồng trong MXH đã và đang đƣợc áp dụng trong một

số lĩnh vực khoa học và đời sống [19]:

25

- Nghiên cứu tìm kiếm cộng đồng để phát hiện sự lan truyền các dịch

bệnh trong các cộng đồng, từ đó có phƣơng pháp kiểm soát các loại dịch bệnh

vào năm 2010.

- Sử dụng giải thuật tìm kiếm tìm ra nhóm khách hàng có cùng sự quan

tâm tới một sản phẩm để đƣa ra các đánh giá, nâng cao hiệu quả kinh doanh.

- Nghiên cứu quá trình trao đổi chất trong cộng đồng mạng lƣới sinh học

để hiểu cơ chế kiểm soát của tế bào.

- Phát hiện các cộng đồng giúp nghiên cứu cấu trúc hình học, phân tích

chức năng và hành vi của các mạng phức tạp.

2.2.2 Các loại giải thuật: Cho đồ thị G(E,V) với E là số cạnh, V là số

đỉnh của đồ thị.

a) Phân vùng đồ thị (Graph Partitioning): là cách thức phân chia đồ thị G

thành các đồ thị nhỏ hơn với các đặc trƣng riêng. Một phân vùng đƣợc gọi là tốt

nếu số cạnh trung gian giữa phân vùng đó với phân vùng khác là ít. Bài toán

phân vùng đƣợc coi là bài toán NP - khó và đã có nhiều giải thuật đƣợc phát

triển những năm gần đây. Các ứng dụng của giải thuật phân vùng đồ thị trong

các lĩnh vực: khoa học tính toán, lập lịch trong các hệ thống đa xử lý, phân cụm

và phát hiện các đồ thị Clique – là đồ thị đầy đủ trong các mạng có quy mô.

Giải thuật phân cụm là giải thuật tìm ra các cụm đỉnh bằng cách sử dụng

các độ đo giữa các cặp đỉnh. Số lƣợng các cụm đƣợc cho trƣớc và làm dữ liệu

đầu vào của các kỹ thuật phân vùng. Tuy nhiên, số lƣợng các cộng đồng trong

một mạng và kích thƣớc của chúng là không đƣợc biết trƣớc, nhƣng có thể đƣợc

tự động tìm kiếm Flake et al., 2002; Radichii et al., 2004.

b) Phân cụm thứ bậc (Hierarchical): Đây là kỹ thuật phát hiện cộng đồng

khá nổi bật, giúp xây dựng cấu trúc phân cấp giữa các cộng đồng. Phƣơng pháp

này sẽ giả định các cộng đồng trong mạng có sự phân cấp, mỗi đỉnh thuộc các

nhóm không kết nối sẽ là nhóm con của nhóm lớn hơn. Những giả định này phù

hợp với các mạng nhƣ mạng lƣới tổ chức nhƣ một học sinh thuộc cùng một lớp

sẽ là nhóm nhỏ của một trƣờng, … Loại giải thuật này không yêu cầu biết trƣớc

số cụm và kích thƣớc của các cụm đó nhƣng các đỉnh thuộc một cộng đồng có

thể không đƣợc phân lớp chính xác bởi do ảnh hƣởng lựa chọn độ đo độ tƣơng

tự giữa các cặp đỉnh. Có 02 loại kỹ thuật phân cụm thứ bậc:

- Phân cụm thứ bậc tập hợp (Agglomerative): Hay còn gọi là phân cụm từ

dƣới – lên, độ phức tạp của giải thuật O(n2log(n)). Các bƣớc thực hiện:

+ Mỗi đỉnh trong đồ thị đƣợc coi là một cụm đơn.

26

+ Tìm các cặp cụm có khoảng cách ngắn nhất (độ tƣơng sự lớn nhất) và

tập hợp chúng lại thành một cụm. Tính khoảng cách (độ tƣơng tự) giữa cụm mới

với các cụm còn lại.

+ Lặp lại hai bƣớc trên cho đến khi tất các đỉnh thuộc một cụm duy nhất.

Để tính khoảng cách giữa các cụm có nhiều cách khác nhau, có một số

phƣơng pháp phổ biến:

Kí hiệu: A, B là hai cụm bất kỳ; a, b lần lƣợt là các phần tử thuộc cụm A, B

d(a,b) là khoảng cách từ phần tử a tới phần tử b.

TT Tên phƣơng pháp Cách tính Tiêu chí

Kết nối

1

Phƣơng thức kết nối đơn (Single

Linkage Method)

- Tên gọi khác: Phƣơng pháp láng

giềng gần nhất

Min 𝑑 𝑎, 𝑏 :𝑎 𝜖 𝐴, 𝑏 𝜖 𝐵

Độ tƣơng tự lớn

nhất hay Khoảng

cách ngắn nhất

2

Phƣơng thức kết nối toàn bộ

(Complete Linkage Method)

- Tên gọi khác: Phƣơng pháp láng

giềng xa nhất

Max 𝑑 𝑎, 𝑏 :𝑎 𝜖 𝐴, 𝑏 𝜖 𝐵

Độ tƣơng tự nhỏ

nhất hay Khoảng

cách xa nhất

3

Phƣơng thức kết nối trung bình

(Average Linkage Method)

- Tên gọi khác: UPGMA

1

𝐴 |𝐵| 𝑑(𝑎, 𝑏)

𝑏∈𝐵𝑎∈𝐴

Độ tƣơng tự trung

bình hay khoảng

cách trung bình

Bảng 2.2 Các phương pháp tính khoảng cách hai cụm

Hình 2.2 Các phương pháp phân cụm thứ bậc

27

- Phân cụm thứ bậc phân chia (Divisive): Hay còn gọi là phân cụm từ trên

- xuống, độ phức tạp của giải thuật là O(2n). Giải thuật đƣợc đƣa ra bởi hai nhà

khoa học Girvan và Newman vào năm 2002. Bắt đầu một mạng, tiến hành chia

nhỏ mạng thành mạng nhỏ hơn. Quá trình này sẽ kết thúc mỗi cộng đồng chỉ

chứa một đỉnh duy nhất.

c) Tối ưu hóa độ đo Modularity (Modularity Optimization): Độ đo

modularity là một độ đo đánh giá chất lƣợng các cộng đồng đƣợc phát hiện và

cách cải thiện chất lƣợng các cộng đồng này. Năm 2006, Newman và Girvan đã

đƣa ra một tiêu chí để dừng việc phân tách của các giải thuật tìm kiếm cộng

đồng là độ đo modularity Q. Để xác định độ đo Q, ta so sánh số lƣợng cạnh

trong đồ thị đã cho so với số lƣợng cạnh trong đồ thị ngẫu nhiên. Độ đo này sử

dụng để đánh giá chất lƣợng các phân vùng, đƣợc tìm thấy từ các giải thuật tìm

kiếm khác nhau. Giá trị Q càng lớn, chất lƣợng phân vùng đƣợc đánh giá là tốt.

Tối ƣu hóa độ đo Q là một bài toán khó (Brandes et al., 2008), do rất khó có thể

tìm giá trị Q tối ƣu. Có một số kỹ thuật tìm giá trị Q tối ƣu:

+ Giải thuật tìm kiếm tham lam (Greedy Optimization): Năm 2004,

Newman đã đƣa ra giải thuật cực đại hóa độ đo modularity bằng phƣơng pháp

tìm kiếm tham lam. Cùng năm đó, Clauset et al. đã đề xuất cải tiến các toán tử

trong giải thuật của Newman, nhằm cải thiện thời gian chạy của giải thuật.

Danon et al. đã chuẩn hóa các biến độ đo Modularity bằng cách sát nhập hai

cộng đồng bằng cách sử dụng lát cắt ngẫu nhiên của một trong hai cộng đồng

vào năm 2006. Hai năm sau đó, Blondel et al. đã áp dụng giải thuật tìm kiếm

tham lam đối với đồ thị có trọng số.

+ Giải thuật theo hạt mô phỏng (Simulated Annealing): Đây là phƣơng

pháp chỉ sử dụng với đồ thị có kích thƣớc nhỏ. Giải thuật đƣợc coi nhƣ một hàm

xác suất, tiến hành lựa chọn một phân vùng trong đồ thị, tìm giá trị tối ƣu độ đo

Modularity trong những phân vùng đó. Năm 2004, giải thuật đƣợc đƣa ra bởi

Guimera et al. Ý tƣởng của giải thuật là bắt đầu tại một phân vùng đƣợc lựa

chọn ngẫu nhiên. Sau đó di chuyển các đỉnh vào thành một cụm hoặc các cụm

khác nhau. Tiếp tục việc sát nhập và phân tách các cụm, tính độ đo Modularity.

Nếu cụm nào có độ đo Modularity tăng thì giữ lại, nếu giảm tiếp tục quá trình

phân tách và sát nhập.

+ Tối ƣu hóa mở rộng (External optimization): Là giải thuật tìm kiếm

heuristic đƣợc đƣa ra bởi Boettcher và Pecres vào năm 2001. Kết quả của giải

thuật tìm thấy giá trị độ đo modularity tối ƣu và cải thiện thời gian chay của

chƣơng trình. Năm 2005, Duch và Arenes tìm ra giá trị modularity của một đỉnh

28

dựa trên việc tối ƣu hóa biến cục bộ. Độ phức tạp của giải thuật này là O (n2

logn). Các bƣớc giải thuật:

Bƣớc 1: Bắt đầu một phân vùng ngẫu nhiên nằm giữa hai cụm.

Bƣớc 2: Sử dụng hàm Fitness để đánh giá độ tốt của một đỉnh. Đỉnh có độ

fitness thấp nhất sẽ đƣợc chuyển sang cộng đồng khác.

Bƣớc 3: Giá trị Fitness đƣợc tính lại với phân vùng khác.

Bƣớc 4: Thuật toán sẽ dừng lại nếu độ đo Modularity của các cụm không

đƣợc cải thiện hơn.

d) Phân cụm dựa trên quang phổ (Spectral clustering): là kỹ thuật phân

vùng dựa trên giá trị các phần tử của của ma trận. Sử dụng kỹ thuật phân cụm k-

mean để phân chia đồ thị. Tuy nhiên, phƣơng pháp này có thể phân tách các

đỉnh mà không cần sử dụng giải thuật k-mean.

2.3 Các giải thuật tìm kiếm cộng đồng chồng chéo

Hiện tƣợng các cộng đồng chồng chéo đƣợc nghiên cứu lần đầu tiên bởi

nhóm nghiên cứu Palla et al. vào năm 2005. Ông đã đề xuất phƣơng pháp tìm

kiếm các đồ thị Clique, là một đồ thị đầy đủ. Phát hiện cộng đồng chồng chéo là

một bài toán NP - khó và có nhiều phƣơng pháp cho phép giải quyết những vấn

đề này nhƣng hầu hết không đạt hiệu quả nhƣ mong đợi. Một số giải thuật tìm

kiếm cộng đồng chồng chéo:

- Giải thuật tìm kiếm đồ thị Clique (Clique Percolation Method - CPM):

phƣơng pháp này đƣợc đƣa ra bởi Palla et al. vào năm 2005. Nhóm tác giả đã

mở rộng các vấn đề của Girvan Newman là tìm các cộng đồng chồng chéo,

trong đó một đỉnh có thể thuộc một hoặc nhiều cộng đồng. Ý tƣởng của giải

thuật là mỗi cộng đồng đƣợc hình thành từ các đồ thị Clique và đồ thị ban đầu

chứa một số lƣợng lớn đồ thị Clique. Khái niệm đồ thị k-clique đƣợc sử dụng để

chỉ ra một đồ thị đầy đủ với k đỉnh. Hai đồ thị k-clique kề nhau có chung (k-1)

đỉnh. Palla và các cộng sự đã thiết kế gói phần mềm Cfinder thực thi giải thuật

này. Năm 2007, Palla et al. đã đƣa ra định nghĩa đồ thị k-clique có hƣớng và đề

xuất giải pháp giải quyết những giới hạn của giải thuật CPM, gọi là CPMd

(Clique Percolation Method with directed cliques). Cùng năm đó, Farkas et al.

đã mở rộng giải thuật CPM đối với đồ thị có trọng số, giải thuật CPMw. Năm

2008, Kumpula et al. đã đƣa ra giải thuật phát hiện cộng đồng nhanh đƣợc gọi là

SCP (Sequential Clique Percolation Method) đối với các đồ thị có trọng số và

không trọng số, trong đó kích thƣớc đồ thị clique đƣợc cho trƣớc. Thời gian

chạy của giải thuật SCP nhanh hơn CPM. Giải thuật CPM:

29

Đầu vào: Đồ thị G gồm N đỉnh, đồ thị Clique có k đỉnh.

Đầu ra: Cấu trúc cộng đồng.

Bƣớc 1: Tìm tất cả các đồ thị k-clique trong đồ thị G.

Bƣớc 2: Xây dựng đồ thị Gc là đồ thị mà mỗi đỉnh đại diện cho một k-

clique trong đồ thị ban đầu. Hai k-clique có cạnh kết nối với nhau nếu chúng có

chung (k-1) đỉnh.

Bƣớc 3: Mỗi đồ thị Clique đƣợc coi là một cộng đồng trong mạng.

- Giải thuật phân vùng đồ thị dựa trên thông tin của cạnh (Link based

algorithms): Ý tƣởng của giải thuật này là phân vùng các cạnh mà không phải là

các đỉnh. Năm 2010, Ahn et al. đã đƣa ra khái niệm “cộng đồng cạnh” và giải

quyết thành công mâu thuẫn giữa cấu trúc chồng chéo và phân cấp. Cùng năm

đó, Evan et al. đã mở rộng giải thuật này bằng cách sử dụng các đồ thị Clique.

Phƣơng pháp này coi mỗi đồ thị Clique trong đồ thị ban đầu là một đỉnh trong

đồ thị đƣờng, các cạnh nối giữa các đồ thị clique này đƣợc đánh trọng số. Tuy

nhiên, nhà khoa học Fortunato đã đƣa ra quan điểm rằng không có sự đảm bảo

chính xác rằng đồ thị đƣờng cung cấp các cộng đồng cạnh có chất lƣợng cao hơn

các cộng đồng đỉnh.

- Phân cụm mờ (Fuzzy): Là phƣơng pháp phân cụm mà cho phép mỗi đỉnh

thuộc về hai cụm hoặc nhiều cụm thông qua bậc thành viên. K-mean là thuật

toán phân cụm rõ, c-mean là thuật toán phân cụm mờ. Đối với các cộng đồng

chồng chéo, phƣơng pháp này cho phép mỗi đỉnh có thể thuộc nhiều hơn một

cộng đồng nhƣng tầm ảnh hƣởng của đỉnh này với mỗi cộng đồng mà nó thuộc

vào là khác nhau. Năm 2011, Gregory đã đánh giá tầm ảnh hƣởng của mỗi đỉnh

trong mỗi cộng đồng mà đỉnh đó thuộc vào bằng hệ số sở hữu của mỗi cộng

đồng. Năm 2007, Zhang et al. đã phát triển phƣơng pháp phân cụm dựa trên

quang phổ, phân cụm mờ và tối ƣu hóa hàm đánh giá chất lƣợng. Một năm sau

đó, Nepusz et al. đã đƣa ra phƣơng pháp cho phép mỗi đỉnh có thể thuộc vào

nhiều cộng đồng tại cùng một thời gian. Năm 2009, Wang et al. đã áp dụng

phƣơng pháp phát hiện các cộng đồng không kết nối vào giải thuật tối ƣu hóa

hàm địa phƣơng. Gần đây, Psorakis et al. đã đƣa ra đề xuất phát hiện cộng đồng

dựa vào ma trận với các phần tử giá trị không âm để trích lọc ra các cộng đồng

chồng chéo.

- Tối ưu hóa và mở rộng hàm địa phương (Local Exapansion and

Optimization): Năm 2007, Gregory S đã đề xuất giải thuật CONGA (Cluster-

Overlap Newman Girvan Algorithm), là sự mở rộng của giải thuật GN của

30

Girvan và Newman. Phƣơng pháp chia các đỉnh thành nhiều phần khác nhau, để

một phần trong các đỉnh đã chia đó xuất hiện trong các cộng đồng con. Các

bƣớc của giải thuật CONGA:

Đầu vào: Đồ thị G<N,M> gồm N đỉnh, M cạnh.

Đầu ra: Các cộng đồng đỉnh.

Bƣớc 1: Tính độ trung gian của các cạnh trong mạng.

Bƣớc 2: Hủy bỏ các cạnh có độ trung gian cao nhất.

Bƣớc 3: Tính lại độ trung gian cho tất cả các cạnh bị ảnh hƣởng theo các

cạnh đã loại bỏ.

Bƣớc 4: Lặp lại bƣớc 2 cho đến khi không còn cạnh trung gian nữa.

- Giải thuật tìm kiếm cộng đồng dựa trên các tác tử và miền động (Agent

and Dynamic based Algorithm): Thuật toán lan truyền nhãn là phƣơng pháp dựa

trên các tác tử, trong đó nhãn của các nút sẽ lan truyền tới các nút xung quanh

theo độ gần của chúng. Đây là phƣơng pháp tìm kiếm nhanh, đƣợc sử dụng để

tìm các cộng đồng không kết nối và chồng chéo. Trong quá trình lan truyền, cố

định các nhãn trên các miền dữ liệu đã đƣợc gán nhãn. Năm 2007, giải thuật

LPA (Label Progation Algorithm) đã đƣợc đề xuất bởi Raghavan et al., nhằm

phát hiện các cộng đồng không kết nối trong các mạng có quy mô lớn. Giải thuật

đƣợc mở rộng bởi Gregory vào năm 2010, trong đó tác giả đã đề xuất một đỉnh

có thể sở hữu nhiều nhãn hơn. Giải thuật này gọi là COPRA (Community

Overlap Label Propagation Algorithm). Các bƣớc giải thuật LPA:

Đầu vào: Đồ thị G<N,M> gồm N đỉnh, M cạnh.

Đầu ra: Các cộng đồng đỉnh.

Bƣớc 1: Mỗi đỉnh đƣợc gán một nhãn duy nhất.

Bƣớc 2: Lựa chọn ngẫu nhiên đỉnh kề với đỉnh đang xét, gán nhãn giống

đỉnh đang xét. Quá trình này sẽ đƣợc lặp lại nhiều lần.

Bƣớc 3: Tất cả các đỉnh có nhãn giống nhau thuộc cùng một đỉnh.

2.4 Lựa chọn giải thuật tìm kiếm

Trong luận văn, Tác giả lựa chọn giải thuật Phân vùng theo cạnh (Link

Clustering) của Ahn et al. để áp dụng vào giải quyết bài toán khía cạnh tổ chức

đã nêu tại Chƣơng 1. Năm 2009, hai nhà khoa học Evans và Lambiotte lần đầu

đề xuất sử dụng đồ thị đƣờng – đây là đồ thị mà mỗi đỉnh là đại diện của một

cạnh của đồ thị ban đầu (Wikipedia), phƣơng pháp này giúp phát hiện các cộng

31

đồng chồng chéo bằng cách phân cụm thứ bậc dựa trên các cạnh của đồ thị, mà

không phải là các đỉnh. Một năm sau đó, Ahn et al. đã thực hiện ý tƣởng này

bằng cách sử dụng độ tƣơng tự giữa hai cạnh kề và đƣa ra khái niệm cộng đồng

cạnh. Ahn et al. đã viết: “Trong thực tế, phần lớn các mạng chứa các cộng đồng

chồng chéo nhau, trong đó một hoặc tất cả các đỉnh có thể thuộc sở hữu của

nhiều cộng đồng, dẫn đến cấu trúc phân cấp các đỉnh không thể mô tả đƣợc sự

chồng chéo này” [4].

* Ý tưởng của giải thuật: Tính độ tƣơng tự giữa cặp cạnh trong đồ thị, từ

đó xây dựng ma trận độ tƣơng tự. Tiến hành gom cụm bằng cách sử dụng kỹ

thuật phân cụm thứ bậc từ dƣới – lên và phƣơng thức kết nối đơn đối với ma

trận này. Quá trình gom cụm sẽ đƣợc lƣu lại, hình thành cây lƣợc đồ

(Dendogram). Tìm ngƣỡng cắt cây lƣợc đồ mà tại đó giá trị mật độ phân vùng

trung bình của tất cả các phân vùng đạt kết quả cực đại. Lựa chọn giá trị ngƣỡng

cắt đó và thực hiện cắt cây lƣợc đồ. Kết quả cuối cùng sinh ra một tập các cộng

đồng cạnh và các cộng đồng đỉnh tƣơng ứng. Nhƣ vậy, các cộng đồng cạnh có

cấu trúc phân cấp, cộng đồng đỉnh có cấu trúc chồng chéo. Ý tƣởng này giúp

giải quyết mâu thuẫn giữa hai loại cấu trúc cộng đồng điển hình này.

Đầu vào: Đồ thị vô hƣớng, không trọng số

Đầu ra: Các cộng đồng cạnh, và các cộng đồng đỉnh chồng chéo tƣơng

ứng.

* Các bước thực hiện: Xét đồ thị G 𝑀,𝑁 vô hƣớng, không trọng số.

Trong đó: 𝑀 là tổng số cạnh, 𝑁 là tổng số đỉnh của đồ thị.

Ký hiệu: Đỉnh i, j ∈ đồ thị G;

𝑒𝑖𝑘 cạnh nối giữa đỉnh i và k; 𝑒𝑗𝑙 cạnh nối giữa đỉnh j và l

Bước 1: Tính độ tương tự giữa các cạnh:

𝑛+ 𝑖 = 𝑖,𝑘 𝑣à 𝑡ậ𝑝 đỉ𝑛𝑕 𝑘ề 𝑣ớ𝑖 𝑖 ;

𝑛+ 𝑗 = 𝑗, 𝑙 𝑣à 𝑡ậ𝑝 đỉ𝑛𝑕 𝑘ề 𝑣ớ𝑖 𝑗 ;

Độ tƣơng tự giữa cạnh 𝑒𝑖𝑘 và 𝑒𝑗𝑙 là: S(𝑒𝑖𝑘 , 𝑒𝑗𝑙 )= |𝑛+ 𝑖 ∩𝑛+ 𝑗 |

|𝑛+ 𝑖 ∪𝑛+ 𝑗 |

0

,𝑘=𝑙 ,𝑘≠𝑙

Bước 2: Xây dựng ma trận độ tương tự:

Gọi 𝑀𝑠 là ma trận độ tƣơng tự, là ma trận vuông có kích thƣớc 𝑀 × 𝑀

Mỗi phần tử của ma tận 𝑀𝑠 sẽ đƣợc tính:

32

𝑀𝑠 (𝑒𝑖𝑘 , 𝑒𝑗𝑙 )= 𝑆(𝑒𝑖𝑘 , 𝑒𝑗𝑙 )

0 𝑘=𝑙𝑘≠𝑙

Bước 3: Thực hiện gom cụm:

Sử dụng kỹ thuật gom cụm từ dƣới – lên (bottom-up) và phƣơng thức kết

nối đơn để kết nối các cụm. Lịch sử của quá trình gom cụm tạo thành một cây

lƣợc đồ (dendogram), trong đó mỗi cạnh là một lá của cây.

Bước 4: Tìm ngưỡng cắt cây lược đồ:

Cho trƣớc một ngƣỡng cắt cây lƣợc đồ, sau khi thực hiện cắt với ngƣỡng

này ta thu đƣợc một tập các phân vùng. Tại mỗi ngƣỡng cho trƣớc, sau khi cắt

sinh ra một tập các cộng đồng cạnh.

Gọi C tập các phân vùng cạnh đƣợc tạo ra từ ngƣỡng cắt cho trƣớc. Tùy

theo phƣơng thức sử dụng phân cụm khác nhau, kết quả tập C sẽ có giá trị khác

nhau. Tổng số cạnh trong mỗi phân vùng ∈ 𝐶 luôn < 𝑀 .

Kí hiệu: 𝐶 ={𝐶1, 𝐶2, …, 𝐶𝑙 , …, 𝐶𝑙}, l ∈ 1,𝑘 ; 𝑚𝑙 = 𝐶𝑙 là số tổng lƣợng

cạnh trong tập con 𝐶𝑙 ; 𝑛𝑙 = |∪𝑒𝑖𝑗 𝜖𝐶𝑙 {𝑖, 𝑗}| là số lƣợng đỉnh đƣợc kết nối các cạnh

∈ Cl.

𝐷𝑙=

𝑚 𝑙−(𝑛 𝑙−1)

𝑛𝑙 𝑛 𝑙−1

2–(𝑛 𝑙−1)

0

𝑛 𝑙>2𝑛 𝑙≤2

Giá trị mật độ phân vùng D là giá trị trung bình của 𝐷𝑙 . Ngƣỡng cắt cây

lƣợc đồ đƣợc tính:

D = 2

|𝑀| 𝑚𝑙

𝑚 𝑙−(𝑛 𝑙−1)

(𝑛 𝑙−1)(𝑛 𝑙−2)

𝑘𝑙=1

Giá trị mật độ phân vùng D là giá trị giúp xác định ngƣỡng cắt tốt nhất để

cắt cây lƣơc đồ. Ngƣỡng cắt tốt nhất là ngƣỡng cắt mà giá trị mật độ phân vùng

trung bình D đạt cực đại. Với ngƣỡng cắt này, kết quả tìm ra các cộng đồng cạnh

có cấu trúc không chồng chéo, tƣơng ứng là các cộng đồng đỉnh có thể có cấu

trúc chồng chéo tùy theo sự kết nối mạnh hay yếu của các cộng đồng cạnh.

* Ưu, nhược điểm của giải thuật:

- Ưu điểm: Tìm ra các cộng đồng cạnh có cấu trúc phân cấp, cộng đồng

đỉnh tƣơng ứng có cấu trúc chồng chéo. Giải quyết đƣợc sự mâu thuẫn giữa hai

loại cấu trúc phân cấp và chồng chéo.

- Nhược điểm: Do việc tìm kiếm cộng đồng chủ yếu dựa trên độ tƣơng tự

giữa các cạnh kề, có chung một đỉnh và bỏ qua độ tƣơng tự các cạnh không kề

nhau. Nhƣ vậy, một lƣợng lớn các thông tin bị mất gây ảnh hƣởng đến kết quả

phân tích cộng đồng.

33

+ Hạn chế của độ tương tự:

Ta có: S 𝑒𝑎𝑏 , 𝑒𝑐𝑑 = 0 => Cạnh eab và ecd không thuộc một cộng đồng. (1)

S 𝑒𝑎𝑏 , 𝑒𝑕𝑓 = 0 => Cạnh eab và ehf không thuộc một cộng đồng. (2)

Thực tế, cạnh 𝑒𝑎𝑏 và 𝑒𝑐𝑑 tuy thuộc cùng cộng đồng phải có giá trị độ

tƣơng tự cao hơn cạnh 𝑒𝑎𝑏 và 𝑒𝑕𝑓 .

Từ (1) và (2), ta có thể thấy rằng: nếu dựa vào độ tƣơng tự để phân chia

cộng đồng đối với tất cả các loại cấu trúc đồ thị có thể tạo ra những kết quả

không chính xác, gây chia chỏ cộng đồng.

Hình 2.3 Đồ thị minh họa nhược điểm của giải thuật

+ Hạn chế của mật độ phân vùng: Ta có hai ngƣỡng cắt:

TT Các phân vùng Mật độ phân vùng trung bình

1

P1:𝑒𝑎𝑏 , 𝑒𝑏𝑐 , 𝑒𝑎𝑐

P2: 𝑒𝑎𝑑 , 𝑒𝑐𝑑

P3: 𝑒𝑕𝑓

D=2

6 3 ∗ 1 + 0 + 0 = 1

2 P1: 𝑒𝑎𝑏 , 𝑒𝑏𝑐 , 𝑒𝑎𝑐 , 𝑒𝑎𝑑 , 𝑒𝑐𝑑

P2: 𝑒𝑕𝑓

D=1

6 5 ∗

2

3+ 0 = 0.56

Bảng 3.3 Tính mật độ phân vùng

Nếu chia đồ thị Hình 2.3 thành 3 cộng đồng con, giá trị mật độ phân vùng

trung bình =1, nếu hai cộng đồng thì giá trị mật độ trung bình = 0.56 <1 (Cách

tính như trong Bảng 3.3). Thực tế, hai tam giác này thuộc cùng một cộng đồng.

Do đó, mật độ phân vùng chƣa phản ánh đúng bản chất các cộng đồng trong một

mạng. Nếu dựa trên công thức tính mật độ phân vùng 𝐷𝑙 ở Chƣơng này, ta thấy

tử số 𝑚𝑙 − (𝑛𝑙 − 1) tăng chậm hơn so với mẫu số [𝑛 𝑙 𝑛 𝑙−1

2– (𝑛𝑙 − 1)]→ điều

này làm cho giá trị mật độ phân vùng nhỏ đi, việc phân tách các cộng đồng diễn

ra không hiệu quả.

a

b c

d

f

h

34

CHƢƠNG 3. ÁP DỤNG GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG

CHỒNG CHÉO VÀO BÀI TOÁN KPQT

3.1. Phƣơng pháp nghiên cứu

3.1.1 Tính hiệu quả của đề xuất

Thách thức lớn nhất đối với các kỹ thuật khai phá thuộc khía cạnh tổ chức

liên quan đến khối lƣợng và chất lƣợng dữ liệu lƣu trong nhật ký sự kiện bao

gồm dung lƣợng dữ liệu lớn, lƣợng thông tin không giá trị nhiều, …. Việc trích

lọc những thông tin có giá trị trở lên khó khăn, tiêu tốn thời gian, sức lực và chi

phí. Thậm chí, chi phí trích lọc thông tin có giá trị còn lớn hơn nhiều doanh thu

của các doanh nghiệp có quy mô nhỏ. Từ lâu, chiến lƣợc “chia để trị” đã trở

thành phƣơng pháp đƣợc áp dụng phổ biến trong các bài toán phức tạp. Việc

chia vấn đề lớn thành các vấn đề nhỏ để giải quyết là phƣơng pháp mang lại hiệu

quả cao. Tuy nhiên, việc áp dụng nhƣ thế nào, hiệu quả việc áp dụng này đối với

từng bài toán đã và đang đƣợc các nhà khoa học quan tâm và nghiên cứu.

Trong giới hạn luận văn, tác giả sử dụng chiến lƣợc này bằng cách đề xuất

áp dụng giải thuật tìm kiếm cộng đồng chồng chéo vào bài toán KPQT nhằm tìm

ra sự chồng nhiệm vụ giữa những ngƣời tham gia vào quy trình. Đề xuất trong

luận văn mang lại những hiệu quả, cụ thể nhƣ:

- Giải quyết vấn đề kích thước dữ liệu lớn: Luận văn sử dụng các kỹ

thuật phát hiện MXH từ tập nhật ký sự có kích thƣớc dữ liệu lớn. Mỗi tập dữ

liệu có thể chứa vài trăm trƣờng hợp, hàng nghìn sự kiện với vài trăm ngƣời

tham gia thực hiện nhiệm vụ trong một quy trình lớn. Tuy nhiên, đề xuất này chỉ

tập trung vào những ngƣời tham gia vào các hoạt động của quy trình và sự tƣơng

tác của họ. Mô hình hóa một vấn đề là bƣớc đầu tiên, quan trọng của một bài

toán. MXH biểu diễn ngƣời, mối quan hệ bằng các khái niệm hình học, giúp trực

quan hóa các mối quan hệ này.

- Đưa ra kết quả có độ tin cậy cao: Mô hình MXH đƣợc xây dựng trên dữ

liệu sự kiện đƣợc ghi lại trong quá trình hoạt động của doanh nghiệp. Do đó, mô

hình MXH đƣợc xây dựng phản ánh bản chất sự tƣơng tác giữa những ngƣời

tham gia vào quy trình. Các kết quả phân tích MXH tạo ra độ tin cậy cao nhằm

hỗ trợ các nhà quản lý ra quyết định liên quan đến vấn đề tổ chức.

- Trích lọc thông tin có giá trị: Đề xuất trong luận văn sử dụng giải thuật

tìm kiếm cộng đồng chồng chéo nhằm tìm ra sự chồng chéo trong nhiệm vụ giữa

những ngƣời trong một công ty. Từ đó, nhà quản lý có thể nắm bắt đƣợc thông

tin về sự chồng chéo trong phân công nhiệm vụ giữa những nhân viên của họ, từ

đó đƣa ra các quyết định liên quan đến cấu trúc tổ chức một cách khách quan.

35

3.1.2 Định dạng dữ liệu đầu vào các độ đo:

- Dạng chuẩn dữ liệu đầu vào: Luận văn sử dụng dữ liệu nhật ký sự kiện

định dạng XES. Đây là một định dạng chuẩn đƣợc sử dụng để lƣu trữ nhật ký sự

kiện trong các HTTT, đƣợc phát triển bởi IEEE Task Force Process Mining.

Định dạng mới này có sự linh hoạt và giải quyết đƣợc những hạn chế của định

dạng MXML. Do không có một thuộc tính xác định toàn cục nào trong tệp XES

và các thuộc tính của các phần tử bên trong tệp XES có ngữ nghĩa không rõ

ràng. Chính sự không rõ ràng này giúp lƣu một số định dạng dữ liệu mở rộng.

Thủ tục mở rộng một số thuộc tính tại các mức khác nhau trong kiến trúc XES

đã cung cấp một số tham chiếu để giải thích các thuộc tính. Nhà khoa học

Christian W. Gunther đã định nghĩa một siêu mô hình cho định dạng XES. Các

thuộc tính toàn cục đƣợc xác định nhƣ các phần mở rộng để giải quyết các vấn

đề của vấn đề ngữ nghĩa không rõ ràng, khi mà các HTTT không xác định đƣợc

nội dung của các thuộc tính chuẩn. Trong tệp dữ liệu định dạng XES, mỗi vết

(trace) tƣơng ứng với một trƣờng hợp trong MXML. Một vết có thể có nhiều sự

kiện và một số thuộc tính.

<trace>

<string key="concept:name" value="3"/>

<string key="creator" value="Fluxicon Nitro"/>

<event>

<string key="concept:name" value="register request"/>

<string key="org:resource" value="Pete"/>

<date key="time:timestamp" value="2010-12-30T14:32:00.000+01:00"/>

<string key="Activity" value="register request"/>

<string key="Resource" value="Pete"/>

<string key="Costs" value="50"/>

</event>

…

Hình 3.1 Một phần mã nguồn dữ liệu nhật ký sự kiện

Nhật ký sự kiện lƣu trữ các thông tin liên quan đến sự kiện nhƣ tài nguyên

(bao gồm con ngƣời, thiết bị, …), thời gian xảy ra sự kiện, …Mỗi trƣờng hợp

tƣơng ứng một lần thực hiện một quy trình, gồm nhiều sự kiện. Mỗi sự kiện là

tƣơng ứng với một trƣờng hợp duy nhất, bao gồm các thuộc tính nhƣ thời gian

thực hiện, tên công việc, nguồn tài nguyên, ngƣời thực hiện, …. Các giá trị các

thuộc tính là đặc trƣng riêng của mỗi sự kiện.

Mã

Trƣờng

hợp

Mã sự

kiện

Thuộc tính

Thời gian Hoạt động

Ngƣời

thực

hiện

Chi

phí

1 35654423 30-12-2010:11.02 Đăng ký Pete 50

36

1 35654424 31-12-2010:10.06 Kiểm tra đơn Mike 400

2 35654483 30-12-2010:11.32 Đăng ký Mike 50

2 35654485 30-12-2010:12.12 Kiểm tra thẻ Sean 100

…

Bảng 3.1 Bảng mô tả các thuộc tính của một phần dữ liệu sự kiện

Bảng 3.1 biểu diễn một phần về các đặc điểm của nhật ký sự kiện, mỗi sự

kiện là một loại công việc đƣợc thực hiện bởi con ngƣời.

- Loại độ đo hỗ trợ biểu diễn cấu trúc mạng: Luận văn sử dụng độ đo

Handover of work để xây dựng ma trận mối quan hệ giữa những ngƣời tham gia

vào quy trình. Độ đo này có thể sinh ra một mô hình MXH hay đồ thị có hƣớng

và có trọng số. Tuy nhiên, trong luận văn Tác giả chỉ sử dụng mô hình MXH

đƣợc biểu diễn dƣới dạng đồ thị vô hƣớng, không trọng số làm đầu vào cho giải

thuật Phân vùng theo cạnh. Độ đo đƣợc sử dụng trong Luận văn, do:

+ Độ đo là đo mức độ thƣờng xuyên chuyển giao việc giữa những ngƣời

tham gia vào quy trình. Ý tƣởng của độ đo phù hợp với mục tiêu của luận văn,

tìm ra những cộng đồng ngƣời trong đó có những ngƣời thƣờng xuyên tƣơng tác

với nhau.

+ Kết quả khi áp dụng độ đo phù hợp định hƣớng luận văn sẽ mở rộng

giải thuật phân vùng theo cạnh đối với đồ thị có hƣớng và trọng số.

- Loại giải thuật tìm kiếm: Luận văn sử dụng giải thuật phát hiện cộng

đồng chồng chéo là giải thuật phân vùng theo cạnh của Ahn et al., do:

+ Ý tƣởng giải thuật: Để giải quyết bài toán KCTC, yếu tố quan trọng

nhất là sự tƣơng tác giữa những ngƣời tham gia vào quy trình. Sự tƣơng tác này

đƣợc biểu diễn dƣới dạng cạnh trong mô hình MXH. Giải thuật này phân vùng

mạng dựa trên thông tin của các cạnh kề. Do đó, ý tƣởng của giải thuật phù hợp

với ý tƣởng của luận văn.

+ Kết quả giải thuật: Cấu trúc tổ chức phân cấp không phản ánh đúng bản

chất liên quan giữa các cộng đồng trong thực tế. Mục tiêu của luận văn là tìm ra

sự chồng chéo của các cộng đồng. Giải thuật này tìm ra các cộng đồng chồng

chéo đáp ứng đƣợc mục liêu của luận văn.

+ Giải quyết mâu thuẫn giữa các loại cấu trúc: Có một nghịch lý trong

một số doanh nghiệp hiện nay là chức danh, vị trí, nhiệm vụ trên sổ sách đƣợc

phân theo mô hình phân cấp, nhƣng khi các hoạt động đƣợc thực hiện lại xảy ra

sự chồng chéo về chức nhiệm vụ các cá nhân, phòng. Giải thuật Phân vùng theo

cạnh giải quyết đƣợc nghịch lý này, phá vỡ mâu thuẫn cấu trúc chồng chéo và

phân cấp.

37

3.2 Giải pháp thực hiện

3.2.1 Đề xuất mô hình giải quyết:

Hình 3.2 Mô hình áp dụng giải tìm kiếm cộng đồng vào KPQT

Tệp XES

Thu thập dữ liệu sự kiện

Xử lý và làm sạch dữ liệu

Xây dựng ma trận mối quan hệ

Tệp XES

Ma trận

Áp dụng giải thuật tìm kiếm

cộng đồng

Cộng đồng

chồng chéo

Đánh giá chất lƣợng cộng đồng

Xây dựng ma trận kề

Lƣu đồ thị

(1)

(2)

(4)

(3)

(5)

(6)

(7)

Ma trận

Danh sách cạnh

38

3.2.2 Các bước thực hiện:

Bƣớc 1. Thu thập dữ liệu: Trong luận văn, Tác giả thu thập các tập dữ

liệu sự kiện định dạng XES 1.0, đƣợc công khai trên 02 website. Trong đó:

+ 03 tệp định dạng XES tƣơng ứng với 03 chƣơng của cuốn sách Process

Mining của tác giả Wil M.P. Van der Alast trên http://www.processmining.org.

Những tệp này không chứa những thông tin lỗi, nhiễu, …, bao gồm từ 100-1.500

trƣờng hợp, 50-15.000 sự kiện, 6-10 ngƣời tham gia thực hiện các hoạt động.

+ 01 tệp định dạng XES trên trang http://data.4tu.nl, là một trong những

dữ liệu đƣợc đƣa ra trong bài nghiên cứu về các thách thức của KPQT năm

2013. Trên chuyên trang này, các tập dữ liệu này đƣợc chia ra làm hai loại

chính: nhật ký sự kiện trong thực tế và nhật ký sự kiện đƣợc tổng hợp. Các tệp

dữ liệu có số sự kiện, trƣờng hợp, ngƣời tham gia quy trình lên đến hàng nghìn.

Định dạng các tệp thuộc nhiều dạng nhƣ CSV, XES, MMXL, … Tuy nhiên,

lƣợng thông tin bị nhiễu, lỗi, các thông tin không có giá trị khai phá trong mỗi

tệp dữ liệu rất lớn, đây chính là thách thức đối với nhiệm vụ tiền xử lý dữ liệu.

Tệp dữ liệu đƣợc Tác giả sử dụng trong thực nghiệm chứa 1571 trƣờng

hợp, trong đó 87 trƣờng hợp ghi lại quá trình xử lý sự cố, 1484 trƣờng hợp ghi

lại hoạt động của quy trình bao gồm 6644 sự kiện, có 442 ngƣời tham gia thực

hiện các hoạt động.

Bƣớc 2. Xử lý và làm sạch dữ liệu:

Đặc điểm của dữ liệu thu thập từ quá trình kinh doanh thƣờng chứa lƣợng

thông tin không có giá trị khai thác lớn. Trong một tệp nhật ký sự kiện có những

phần thông tin bị lỗi, không chính xác, thông tin về quá trình xử lý sự cố, … ít

khi dùng trong quá trình khai phá nguồn dữ liệu này. Những dạng thông tin này

đƣợc sinh ra có thể do con ngƣời hoặc phần mềm và có thể nằm rải rác hoặc tập

trung trong một tệp.

Tệp dữ liệu BPI2013.xes là tệp dữ liệu đƣợc sử dụng trong phần thực

nghiệm của Chƣơng 4, chứa các sự kiện đƣợc ghi lại trong khoảng thời gian từ

10/5/2007 đến 31/05/2012. Bên cạnh ghi lại các hoạt động của quy trình, tệp còn

ghi lại thông tin về quá trình xử lý sự cố (Incident handling process). Hệ thống

sẽ có những thông báo nhất định đối với từng loại sự cố, một số thông báo nhƣ:

“Accepted/ In Progress", “Queued/Awaiting Assignment",

“Completed/Resolved”, Completed/ Closed”, “Accepted/Wait-User", …. Việc

nhật ký sự kiện lƣu lại thông tin xử lý sự cố dƣới dạng không cấu trúc gây khó

khăn đối với các công cụ KPQT, kết quả sinh ra mô hình quy trình phức tạp nhƣ

39

mô hình Spaghetty [21]. Trong giới hạn luận văn, những thông tin không chứa

thông tin ngƣời thực hiện hoạt động nên sẽ không đƣợc sử dụng để khai thác.

Do đó, Tác giả đã loại bỏ loại thông tin này bằng phƣơng pháp thủ công.

<int key="Queued+Awaiting Assignment;Accepted+In Progress; Completed+Closed;

Accepted+In Progress; Queued+Awaiting Assignment;Accepted+In Progress

;Queued+Awaiting Assignment; Accepted+In Progress; Accepted+Assigned"

value="1"/><int key="Accepted+In Progress;Queued+Awaiting

Assignment;Accepted+In Progress;Accepted+In Progress" value="1"/>

Hình 3.3 Thông tin quá trình xử lý sự cố được lưu trong tệp BPI2013.xes

Bƣớc 3. Xây dựng ma trận mối quan hệ:

Cách tính dựa trên độ đo Handover of work:

Mỗi tập dữ liệu .XES gồm nhiều trƣờng hợp (case), mỗi trƣờng hợp gồm

nhiều sự kiện, và mỗi sự kiện ghi lại ngƣời thực hiện một nhiệm vụ trong một

chu kỳ quy trình kinh doanh.

- Xét từng trƣờng hợp, tính số lần ngƣời hai ngƣời chuyển giao nhiệm vụ

cho nhau. Ví dụ: Trong trƣờng hợp 1, 3, 7, 8, 9 (Bảng 3.2) có 5 lần Peter và

Mike thực hiện chuyển nhiệm vụ cho nhau.

- Tính tƣơng tự với các trƣờng hợp khác, tính tổng số lần ngƣời i, j

chuyển việc cho nhau. Giá trị này chính là giá trị phần tử của ma trận mối quan

hệ Bảng 3.3.

Bảng 3.2 mô tả thứ tự chuyển giao việc của từng ngƣời trong một trƣờng

hợp. Từ bản mô tả này, ta xây dựng ma trận số lần chuyển tác vụ giữa những

ngƣời tham gia vào quy trình.

Trƣờng hợp

1 2 3 4 5 6 7 8 9 10

Peter Mike Peter Peter Mike Mike Ellen Peter Ellen Mike

Mike Mike Mike Sue Sean Ellen Mike Mike Peter Sean

Ellen Sean Ellen Mike Sara Mike Peter Sean Mike Peter

Sara Sara Sara Sara Ellen Sara Sara Sara Sara Sara

Sara Sara Peter Mike Sara Ellen Sara

Sean Sean Ellen Ellen

Peter Peter Mike Mike

Sara Ellen Sara Sara

Ellen Sara Sara

Sue Sean

40

Peter Peter

Sara Sara

Mike Mike

Bảng 3.2 Thứ tự thực hiện nhiệm vụ của từng người trong mỗi trường hợp

𝑀𝑕 là ma trận sinh ra sau khi sử dụng độ đo Handover of work. Trong đó:

i, j là những ngƣời tham gia vào quy trình;

𝑀𝑕 𝑖, 𝑗 là một phần tử của ma trận 𝑀𝑕 . Ta có:

𝑀𝑕 𝑖, 𝑗 = số lần ngƣời i chuyển giao nhiệm vụ j và ngƣợc lại

0 ngƣời 𝑖 và j không có sự chuyển giao nhiệm vụ

(i,j) Ellen Mike Peter Sara Sean Sue

Ellen - 7 1 7 0 0

Mike 7 - 5 8 4 0

Peter 1 5 - 5 4 2

Sara 7 8 5 - 6 1

Sean 0 4 4 6 - 0

Sue 0 0 2 1 0 -

Bảng 3.3 Ma trận 𝑀𝑕 mối quan hệ

Bảng 3.3 là ma trận thể hiện mối quan hệ giữa những ngƣời tham gia vào

quy trình. Giá trị các phần tử của ma trận thể hiện số lần chuyển giao công việc

giữa hai ngƣời, nếu giá trị phần tử ma trận = 0, thể hiện hai ngƣời không có sự

chuyển giao công việc. Số lần chuyển giao cũng thể hiện sự tƣơng tác nhiều hay

ít của hai ngƣời trong quá trình thực hiện các hoạt động.

Bƣớc 4. Lƣu đồ thị: Cách thức lƣu trong tệp .txt:

Hình 3.5 Định dạng dữ liệu .txt lưu đồ thị

41

+ Đồ thị đƣợc lƣu trong các tệp .txt, dƣới dạng một danh sách các cạnh.

Mỗi cạnh đƣợc coi là một dòng trong tệp.

+ Các đỉnh phải đƣợc đánh số thứ tự bắt đầu từ số 0 và là số tự nhiên cách

nhau bởi một cách. Đƣợc sắp xếp lần lƣợt theo thứ tự.

Ví dụ: Ký hiệu: Đỉnh 0: [Ellen]; Đỉnh 1: [Mike]; Đỉnh 2: [Pete];

Đỉnh 3: [Sara]; Đỉnh 4: [Sean]; Đỉnh 5: [Sue].

Bƣớc 5. Xây dựng ma trận kề:

Gọi 𝑀𝑎 là ma trận đỉnh kề đƣợc xây dựng danh sách cạnh của bƣớc 4.

Trong đó: 𝑀𝑎 (i,j)= 10 đỉ𝑛𝑕 𝑖 𝑘ề 𝑣ớ𝑖 đỉ𝑛𝑕 𝑗

𝑛𝑔ượ𝑐 𝑙ạ𝑖

Đỉnh 0 1 2 3 4 5

0 1 1 1 1 0 0

1 1 1 1 1 1 0

2 1 1 1 1 1 1

3 1 1 1 1 1 1

4 0 1 1 1 1 0

5 0 0 1 1 0 1

Bảng 3.4 Ma trận đỉnh kề 𝑀𝑎

Trong bảng 3.4, giá trị các phần trận 𝑀𝑎 chỉ bao gồm hai loại giá trị là 0

và 1 thể hiện mối quan hệ của hai đỉnh trong đồ thị.

+ Mô hình đồ thị vô hƣớng, không trọng số đƣợc xây dựng từ ma trận

đỉnh kề: Nếu đỉnh 𝑀𝑎 𝑖, 𝑗 = 1, có một cạnh kết nối giữa đỉnh i và j, ngƣợc lại

không có cạnh kết nối giữa hai đỉnh.

Hình 3.4 Đồ thị được xây dựng từ ma trận kề

0

1

3

2

5

4

42

Bƣớc 6. Áp dụng giải thuật tìm kiếm cộng đồng: Ma trận đỉnh kề sẽ

đƣợc lƣu dƣới dạng ma trận thƣa hay danh sách liên kết làm đầu vào cho giải

thuật Phân vùng theo cạnh.

Đỉnh Đỉnh kề

0 1,2,3

1 0,2,3,4,5

2 0,1,3,4,5

3 0,1,2,4,5

4 1,2,3

5 1,2,3

Bảng 3.5 Danh sách đỉnh kề

+ Xây dựng ma trận độ tƣơng tự giữa các cạnh: Tính độ tƣơng tự giữa các

cặp cạnh (Công thức trong Chƣơng 2).

Ví dụ: độ tƣơng tự của cạnh 0-1 và cạnh 0-2, đƣợc tính theo công thức:

S 0 − 1, 0 − 2 = |𝑛+ 1 ∩𝑛+ 2 |

|𝑛+ 1 ∪𝑛+ 2 |=

6

6=1

Trong đó: 𝑛+ 1 ,𝑛+ 2 là tập các đỉnh kề tƣơng ứng của đỉnh 1 và 2.

𝑛+ 1 = 0, 1, 2, 3, 4, 5 ; 𝑛+ 2 = 0, 1, 2, 3, 4, 5 ;

+ Tiến hành gom cụm: Sử dụng kỹ thuật gom cụm từ dƣới - lên và

phƣơng thức kết nối đơn để gom hai cụm. Hai cụm có độ tƣơng tự lớn nhất sẽ

đƣợc gom lại thành một cụm. Quá trình đƣợc lặp lại cho đến khi tất cả các cạnh

thuộc vào một cụm duy nhất.

C0 C1 C2 C3

0-1 0-2 0-3 1-2 1-3 2-3 1-4 2-4 3-4 1-5 2-5 3-5

C0

0-1 1 1 1 0.7 0.7 0 0.6 0 0 0.6 0 0

0-2 1 1 1 0.7 0 0.7 0 0.6 0 0 0.6 0

0-3 1 1 1 0 0.7 0.7 0 0 0.6 0 0 0.6

C1

1-2 0.7 0.7 0 1 1 1 0.7 0.7 0 0.7 0.7 0

1-3 0.7 0 0.7 1 1 1 0.7 0 0.7 0.7 0 0.7

2-3 0 0.7 0.7 1 1 1 0 0.7 0.7 0 0.7 0.7

C2

1-4 0.6 0 0 0.7 0.7 0 1 1 1 0.6 0 0

2-4 0 0.6 0 0.7 0 0.7 1 1 1 0 0.6 0

3-4 0 0 0.6 0 0.7 0.7 1 1 1 0 0 0.6

C3 1-5 0.6 0 0 0.7 0.7 0 0.6 0 0 1 1 1

2-5 0 0.6 0 0.7 0 0.7 0 0.6 0 1 1 1

43

3-5 0 0 0.6 0 0.7 0.7 0 0 0.6 1 1 1

Bảng 3.6 Ma trận 𝑀𝑠 độ tương tự

C4 C2 C3

C0 C1 C2 C3

C4 C0 1 0.7 0.6 0.6

C1 0.7 1 0.7 0.7

C2 C2 0.6 0.7 1 0.6

C3 C3 0.6 0.7 0.6 1

C6

C5 C3

C6 C5 1 0.7

C3 0.7 1

Hình 3.6 Quá trình phân cụm thứ bậc từ dưới - lên

+ Tìm ngƣỡng cắt cây lƣợc đồ: Đồ thị gồm 6 đỉnh và 12 cạnh.

Gọi t là ngƣỡng cắt cây lƣợc đồ cho trƣớc.

* Tại t=1, ta có 04 phân vùng:

Phân vùng Cạnh Số cạnh Số đỉnh Mật độ

P1 0-1;0-2;0-3 3 4 D1=3−(4−1)

4∗(4−1)

2− (4−1)

= 0

P2 1-2;1-3;2-3 3 3 D2=3−(3−1)

3∗(3−1)

2− (3−1)

= 1

P3 1-4;2-4;3-4 3 4 D3=3−(4−1)

4∗(4−1)

2− (4−1)

= 0

P4 1-5;2-5;3-5 3 4 D4=3−(4−1)

4∗(4−1)

2− (4−1)

= 0

Bảng 3.7 Tính mật độ các phân vùng tại ngưỡng cắt t=1

Mật độ phân vùng trung bình: 𝐷𝑡=1=1

12 0 + 3 ∗ 1 + 0 + 0 = 0.25

C5 c3

C4 C2 C3

C5 C4 1 0.7 0.7

C2 0.7 1 0.6

c3 C3 0.7 0.6 1

44

* Tại t=0.7

Khả năng 1: 3 phân vùng: P3, P4, P5

Phân

vùng

Cạnh Số

cạnh

Số

đỉnh

Mật độ

P5 0-1;0-2;0-3;1-2;1-3;2-3 6 4 D5=6−(4−1)

4∗(4−1)

2− (4−1)

= 3

3= 1

Bảng 3.8 Tính mật độ các phân vùng tại ngưỡng cắt t=0.7(KN1)

Mật độ phân vùng trung bình: 𝐷1𝑡=0.7=1

12 6 ∗ 1 + 0 + 0 = 0.5

Khả năng 2: ta có 3 phân vùng P1, P4, P6

Phân

vùng

Cạnh Số

cạnh

Số

đỉnh

Mật độ

P6 1-2;1-3;2-3;1-4;2-4;3-4 6 4 D6=6−(4−1)

4∗(4−1)

2− (4−1)

= 3

3= 1

Bảng 3.9 Tính mật độ các phân vùng tại ngưỡng cắt t=0.7(KN2)

Mật độ phân vùng trung bình: 𝐷2𝑡=0.7=1

12 0 + 0 + 6 ∗ 1 = 0.5

Kết luận: Tại ngƣỡng cắt cây lƣợc đồ 𝑡 = 0.7, giá trị mật độ phân vùng

trung bình đạt cực đại 𝐷 = 0.5.

+ Kết quả: Từ các cộng đồng cạnh đƣợc tìm thấy, ta tìm đƣợc các cộng

đồng đỉnh tƣơng ứng.

Hình 3.8 Các cộng đồng đỉnh chồng chéo

Cộng đồng Cộng đồng cạnh Cộng đồng đỉnh Cộng đồng ngƣời

I 0-1;0-2;0-3; 1-2;1-3;2-3 0, 1, 2, 3 Ellen, Mike, Peter, Sara

Ellen

Mike

Sara

Pete

Sue

Sean

45

II 1-4;2-4;3-4 1,2, 3, 4 Mike, Peter, Sara, Sean

III 1-5;2-5;3-5 1, 2, 3, 5 Mike, Peter, Sara, Sue

Bảng 3.10 Danh sách các cộng đồng được tìm thấy

Bƣớc 7. Đánh giá chất lƣợng cộng đồng:

+ Đối với cộng đồng cạnh: Ahn et al. đã sử dụng công thức tính mật độ

phân vùng nhằm đánh giá chất lƣợng của các cộng đồng cạnh.

Giá trị mật độ phân vùng - 2

3≤ 𝐷 ≤ 1, giá trị D càng gần giá trị 1 thì các

cộng đồng cạnh đƣợc phát hiện ra có chất lƣợng tốt, cộng đồng cạnh có giá trị

𝐷 ≤ 0, thƣờng không có giá trị để khai thác vào các mục đích cụ thể. Trong đó:

𝐷 = 1: cộng đồng đƣợc phát hiện là một đồ thị đầy đủ.

𝐷 = 0: mỗi cộng đồng là một cây.

𝐷 < 0: các cộng đồng trong mạng không có sự kết nối.

𝐷 = − 2

3: là giá trị nhỏ nhất của một cộng đồng có hai cạnh không kết

nối.

Trong ví dụ: Mật độ phân vùng trung bình 𝐷 = 0.5 tại ngƣỡng cắt 𝑡 = 0.7

→ Các cộng đồng cạnh có sự kết nối mạnh → Các cộng đồng đỉnh tƣơng ứng có

sự chồng chéo lớn.

+ Đối với cộng đồng đỉnh: Những cộng đồng có giá trị khai thác là những

cộng đồng không tầm thƣờng (Nontrivial community) [4], có chứa từ ba đỉnh trở

lên.

Trong ví dụ: Cả ba cộng đồng (I), (II), (III) này đều là những cộng đồng

không tầm thƣờng vì có tổng số đỉnh ≥ 3.

Số lƣợng đỉnh chồng chéo thuộc vào các cộng đồng không tầm thƣờng là

3, tƣơng ứng là Mike, Peter, Sara. Sự tƣơng tác của ba ngƣời này với những

ngƣời khác trong quy trình là thƣờng xuyên, thể hiện vai trò quan trọng của họ

trong một quy trình.

46

CHƢƠNG 4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1 Công cụ, môi trƣờng thực nghiệm

Để thực hiện quá trình thực nghiệm, Tác giả sử dụng cấu hình phần cứng,

phần mềm, tập dữ liệu nhƣ sau:

4.1.1 Phần cứng:

STT Thiết bị/

Hệ điều hành

Chỉ số

1 CPU Intel Core i3 M370 2.40 GHz

2 RAM 4096 MB

3 HDD 320 GB

4 OS Window 7 Ultimate 32 bit

Bảng 4.1 Chi tiết chỉ số phần cứng và hệ điều hành

4.1.2 Phần mềm và tập dữ liệu đầu vào:

TT Tên công cụ Chức năng Nguồn tải

1 NetBeans IDE

8.0.2

Công cụ lập trình trên

nền Window, Unix hỗ trợ

ngƣời dùng lập trình

Java, …

https://netbeans.org

2 Mã nguồn mở

Link Clustering

Là chƣơng trình thực

hiện giải thuật tìm kiếm

cộng đồng theo phân

vùng cạnh Ahn et al.

https://github.com/fozziethebe

at/S-Space

2 Tập dữ liệu đầu

vào

Là các tệp .xes sử dụng

làm đầu vào của chƣơng

trình

http://www.processmining.org;

http://data.4tu.nl

Bảng 4.2 Thông tin phần mềm và tập dữ liệu đầu vào

- Quá trình xây dựng chương trình:

+ Tải công cụ lập trình NetBeans IDE 8.0.2 và cài đặt.

+ Viết mã nguồn tiền xử lý tệp XES nhằm xây dựng mô hình MXH là đồ

thị vô hƣớng, không trọng số.

+ Xây dựng ma trận kề từ danh sách đỉnh, diễn dƣới dạng ma thƣa

(Sparse Matrix) làm đầu vào cho chƣơng trình Link Clustering. Ma trận thƣa là

ma trận các phần tử có giá trị > 0 (Wikipedia). Điều này giúp tiết kiệm dung

https://github.com/fozziethebeat/S-Space

https://github.com/fozziethebeat/S-Space

47

lƣợng bộ nhớ và cải thiện thời gian chạy chƣơng trình. Để thực chạy đƣợc

chƣơng trình này, thêm thƣ viện junit chƣơng trình.

4.2 Chƣơng trình thực nghiệm

Các thông tin đƣợc hiển thị trong chƣơng trình thực nghiệm: thông tin đầu

vào của tệp .xes bao gồm số trƣờng hợp, số sự kiện, số ngƣời tham gia vào quy

trình; hiển thị danh sách đỉnh kề bao gồm ký hiệu các đỉnh, số lƣợng đỉnh và

cạnh; hiển thị danh sách các cộng đồng tìm thấy bao gồm danh sách các cộng

đồng mà các đỉnh thuộc vào.

Hình 4.1 Kết quả chương trình thực nghiệm

48

4.3 Kết quả thực nghiệm và đánh giá

Sau khi cài đặt chƣơng trình, luận văn đã thực hiện thử nghiệm với 04 tệp

dữ liệu định dạng XES. Kết quả cụ thể nhƣ sau:

Tệp dữ liệu

Thông tin tệp XES Thông tin

MXH

Thông tin kết quả đầu ra

Giá

trị

mật

độ

trung

bình

Thời

gian

chạy

(giây) Số

Trƣờng

hợp

Số Sự

kiện

Số

Ngƣời

tham

gia

Số

Đỉnh

Số

Cạnh

Số

cộng

đồng

cạnh

Số

cộng

đồng

đỉnh

Số

cộng

đồng

chồng

chéo

đỉnh

Số

cộng

đồng

không

tầm

thƣờng

Số

đỉnh

chồng

chéo

Chapter1.xes 10 142 6 6 12 3 3 3 3 3 0.5 5

Chapter5.xes 1391 15078 8 8 14

4 4 4 2 4 0.36

7

Chapter6.xes 87 522 5 5 4

4 4 4 1 1 0

10

BPI2013.xes 1484 13288 442 442 781 576 576 576 499 767 0.035 13

Bảng 4.3 Đánh giá kết quả chương trình thực nghiệm

* Trong bảng kết quả, các khía cạnh cần quan tâm:

- Số người tham gia vào quy trình:

Nếu có ít ngƣời tham gia vào quy trình, kết quả phân cụm không có ý

nghĩa nhiều trong thực tế. Đối với các tệp dữ liệu thu đƣợc trên chuyên trang

http://www.processmining.org có số lƣợng ngƣời tham gia dƣới 10 ngƣời, do đó

kết quả các cộng đồng chồng chéo không có giá trị khai thác cao trong phân tích

và đánh giá sự chồng chéo trong nhiệm vụ. Khía cạnh này còn có ý nghĩa là

đánh giá mức độ quan trọng của từng ngƣời trong quy trình.

- Mật độ kết nối các đỉnh trong MXH:

Với một mạng có số cạnh xấp xỉ số đỉnh tức khả năng tƣơng tác giữa các

đỉnh trong một mạng là thấp, các kỹ thuật khai phá sẽ sinh ra các kết quả không

có giá trị về mặt thực tế.

- Kích thước các cộng đồng được tìm ra:

Các cộng đồng có giá trị khai thác là những cộng đồng không tầm thƣờng

có từ ba đỉnh trở lên [4], số lƣợng loại cộng đồng này phụ thuộc lớn vào mật độ

kết nối trong MXH. Nếu MXH có mật độ kết nối thƣa, các đỉnh bị phân tách nên

số lƣợng cộng đồng chứa 3 đỉnh trở lên là rất ít và số lƣợng cộng đồng không có

giá trị khai thác nhiều.

- Số lượng đỉnh chồng chéo: Một đỉnh thuộc vào nhiều cộng đồng không

tầm thƣờng thể hiện tầm quan trọng của đỉnh đó trong đồ thị hay của cá nhân đó

49

đối với các hoạt động trong quy trình. Một đồ thị có số lƣợng đỉnh chồng chéo

thuộc các cộng đồng không tầm thƣờng lớn, khả năng xảy ra sự chồng chéo

nhiệm vụ giữa những ngƣời tham gia vào quy trình là rất lớn.

- Mật độ phân vùng trung bình:

Trong luận văn, Tác giả sử dụng giá trị mật độ phân vùng trung bình D

để đánh giá chất lƣợng cộng đồng cạnh, từ đó có sự nhận xét về chất lƣợng

chồng chéo của các cộng đồng đỉnh. Nếu giá trị D nhỏ, các cộng đồng cạnh có

sự kết nối thấp. Chất lƣợng các cộng đồng cạnh càng tốt, thể hiện sự phân tách

của giải thuât là tối ƣu tƣơng ứng với các cộng đồng cạnh này là các cộng đồng

đỉnh có sự chồng chéo lớn.

* Các đánh giá cụ thể:

Tệp dữ liệu Đánh giá

Chapter1.xes

- Giá trị 𝐷 ≥ 0.5 → Chất lƣợng phân tách tốt, các cộng đồng cạnh

có sự kết nối mạnh, tƣơng ứng là cộng đồng đỉnh có sự chồng

chéo lớn.

- Số lƣợng đỉnh =1

2 số lƣợng cạnh → Mật độ kết nối dày.

- Số lƣợng cộng đồng không tầm thƣờng chiếm 100%

- Số lƣợng ngƣời tham gia là 6 < 10 ngƣời → ít

Có khả năng chồng chéo nhiệm vụ giữa những ngƣời tham

gia vào quy trình cao. Tuy nhiên, do số lƣợng ngƣời tham

gia ít, nên kết quả chồng chéo này không có giá trị khai

thác cao trong thực tế, mà kết quả chỉ phù hợp với việc

nhận xét tầm quan trọng của cá nhân đối với quy trình.

Chapter5.xes

- Giá trị 0 <D< 0.5 → Các cộng đồng cạnh có sự kết nối ở mức

trung bình, sự chồng chéo xảy ra tại một số cộng đồng đỉnh đƣợc

tìm ra.

- Số lƣợng đỉnh ~1

2 số lƣợng cạnh → Mật độ kết nối dày.


- Số lƣợng ngƣời tham gia là 8 < 10 ngƣời → ít

Có khả năng có sự chồng chéo nhiệm vụ của một số ngƣời

tham gia vào quy trình. Tuy nhiên, do số lƣợng ngƣời tham

gia ít, số lƣợng cộng đồng không tầm thƣờng chỉ chiếm

50

phần nửa nên kết quả này phù hợp với đánh giá tầm quan

trọng của các cá nhân.

Chapter6.xes

- Giá trị 𝐷 = 0 → Chất lƣợng phân tách các cộng đồng thấp, do

vậy mật độ kết nối giữa các đỉnh trong đồ thị là thấp. Các cộng

đồng đƣợc tìm ra không có sự kết nối, độ chồng chéo các đỉnh là

thấp.

- Số lƣợng đỉnh xấp xỉ số lƣợng cạnh→ Mật độ kết nối giữa các

đỉnh thƣa.


Không có thể có sự chồng chéo nhiệm vụ giữa những

ngƣời tham gia vào quy trình. Kết quả chỉ phục vụ mục

đích tìm ra các nhân nào có tầm quan trọng trong quy trình

BPI2013.xes

- Giá trị 𝐷~0 → Các cộng đồng cạnh gần nhƣ không có sự kết

nối, do vậy các cộng đồng cạnh tƣơng ứng có độ chồng chéo

thấp.

- Số lƣợng đỉnh ~ ½ số lƣợng cạnh → Mật độ kết nối các đỉnh

thƣa.


Không có thể có sự chồng chéo nhiệm vụ giữa những

ngƣời tham gia vào quy trình. Kết quả chỉ phục vụ mục

đích tìm ra các nhân nào có tầm quan trọng trong quy trình.

Bảng 4.4 Đánh giá chất lượng các cộng đồng

51

KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TƢƠNG LAI

1. Kết luận

Với những mục tiêu và kế hoạch thực hiện luận văn trong hơn một năm

qua, luận văn đã đạt đƣợc những kết quả chính:

- Tổng kết các kết quả nghiên cứu của các nhà khoa học trên thế giới về

lĩnh vực KPQT và các giải thuật tìm kiếm cộng đồng trong MXH. Những nghiên

cứu này tạo nền tảng cơ sở cho sự lựa chọn giải thuật tìm kiếm cộng cộng đồng

chồng chéo áp dụng để giải quyết bài toán thuộc khía cạnh tổ chức.

- Phát biểu bài toán và đề xuất mô hình giải quyết bài toán. Đề xuất giúp

tìm ra các nhóm ngƣời có sự chồng chéo nhiệm vụ khi tham gia vào quy trình.

- Xây dựng thành công chƣơng trình thực nghiệm dựa trên mô hình đề

xuất giải quyết trong luận văn.

2. Hƣớng phát triển tƣơng lai

Trong tƣơng lai, Tác giả sẽ tiếp tục nghiên cứu và giải quyết những thách

thức:

- Đối với dữ liệu đầu vào: Tác giả sẽ tiếp tục thu thập dữ liệu nhật ký sự

kiện trong thực tế, áp dụng các công cụ tiền xử lý dữ liệu để đƣa dữ liệu về dạng

chuẩn, làm đầu vào cho các giải thuật.

- Đối với loại độ đo hỗ trợ biểu diễn cấu trúc MXH: Mở rộng kỹ thuật xây

dựng MXH dƣới dạng đồ thị có hƣớng, có trọng số bằng cách sử dụng các độ đo

khác nhau.

- Đối với giải thuật tìm kiếm: Giải thuật Phân vùng theo cạnh còn tồn tại

nhiều hạn chế về thời gian chạy, gây ra sự phân tách các cộng đồng làm giảm độ

chính xác trong kết quả. Mặt khác, nếu đầu vào của giải thuật là đồ thị có mật độ

kết nối giữa các đỉnh thƣa, kết quả phân cụm sẽ không có ý nghĩa. Do vậy, Tác

giả sẽ tiếp tục nghiên giải thuật cải tiến của giải thuật Phân vùng theo cạnh và

các giải thuật khác, nhằm đánh giá các loại giải thuật phù hợp với từng loại mô

hình MXH .

- Đối với chức năng của phần mềm: Chƣơng trình thực nghiệm chỉ dừng ở

việc xử lý tệp dữ liệu sự kiện định dạng .xes chứa khoảng hơn 1000 trƣờng hợp

và 7000 sự kiện. Do đo, Tác giả sẽ nghiên cứu, mở rộng các chức năng của

chƣơng trình để đáp ứng với tệp dữ liệu có kích thƣớc lớn hơn.

52

TÀI LIỆU THAM KHẢO

[1] Wil M. P. van der Aalst. (2011), Process Mining: Discovery,

Conformance and Enhancement of Business Processes. Springer, Berlin,

Heidelberg.

[2] Minseok Song and Wil M. P. van der Aalst. (2008), Towards

comprehensive support for organizational mining. Decision Support Systems,

pp. 300–317.

[3] G. Palla, I. Derényi, I. Farkas, and T. Vicsek. (2005), Uncovering the

overlapping community structure of complex networks in nature and society.

Nature, vol. 435, no. 7043.

[4] Ahn Y.-Y., Bargrow, J. P., and Lehmann, S. (2010), Link

communities reveal multiscale complexity in networks. Nature 466, pp. 761–

764.

[5] Karsten Steinhaeuser and Nitesh v. Chawla. Community detection in

large real world networks.

[6] S. Gregory. (2009), Finding overlapping communities using disjoint

community detection algorithms, in Complex Networks. Springer, pp. 47–61.

[7] J. Xie, S. Kelley, and B. K. Szymanski. (2011), Overlapping

community detection in networks: the state of the art and comparative study.

arXiv preprint arXiv: 1110.5813.

[8] Wil M.P. Van der Aalst, W., Weijters, A., and Maruster, L. (2004),

Workflow Mining: Discovering Process Models from Event Logs. IEEE

Transactions on Knowledge and Data Engineering, Vol. 16(9), pp. 1128–1142.

[9] Wil M.P. van der Aalst., Reijers, H.A., Song, M. (2005), Discovering

Social Networks from Event Logs. Computer Supported Cooperative Work, Vol.

14 No. 6, pp. 549–593.

[10] Borko Furht. (2010), Handbook of Social Network Technologies and

Applications. Springer, 1st edition.

[11] Girvan, M., & Newman, M. E. (2002), Community structure in social

and biological networks. In Proceedings of the National Academy of Sciences,

99(12), pp. 7821- 7826.

[12] M. Bramer. (2007), Principles of Data Mining. Springer, Berlin.

53

[13] J. Nakatumba and Wil M.P. van der Aalst. (2010), Analyzing resource

behavior using process mining. In BPMW'09, vol. 43 of LNBIP, pp. 69-80.

Springer.

[14] Wil M.P. Van der Aalst and Minseok Song. (2004), Mining social

networks: Uncovering interaction patterns in business processes. In Business

Process Management, pp. 244–260. Springer.

[15] Chen, Z. S., Kalashnikov, D. V. and Mehrotra, S. Exploiting context

analysis for combining multiple entity resolution systems. (2009), In

Proceedings of the 2009 ACM International Conference on Management of

Data (SIGMOD'09).

[16] Reza Zafarani, Mohammad Ali Abbasi, Huan Liu. (2014), Social

Media Mining: An Introduction. Cambridge University Press.

[17] Huang L, Wang G, Wang Y, Blanzieri E, Su C. (2013), Link

Clustering with Extended Link Similarity and EQ Evaluation Division.

[18] W.M.P. van der Aalst, B.F. van Dongen, J. Herbst, L. Maruster, G.

Schimm, and A.J.M.M. Weijters. (2003), Workflow Mining: A Survey of Issues

and Approaches. Data and Knowledge Engineering, pp. 237–267.

[19] Mini Singh ahuja and Jatinder singh. (2014), Future prospects in

community detection. Vol. 4, Issue 5, pp. 37-48.

[20] DR Ferreira, C Alves. (2012), Discovering User Communities in

Large Event Logs. 7th International Workshop on Business Process

Intelligence, pp. 123-134.

[21] Zbigniew Paszkiewicz and Wily Picard. (2013), Analysis of the Volvo

IT Incident and Problem Handling Processes using Process Mining and Social

Network Analysis.

[22] Jaewon Yang, Jure Leskovec. (2013), Overlapping Community

Detection at Scale: A Nonnegative Matrix Factorization Approach.

[23] Reichert, M. (2012), Visualizing Large Business Process Models:

Challenges, Techniques, Applications. In 1st Int’l Workshop on Theory and

Applications of Process Visualization, Tallin.

[24] Stanley W., Katherine. (1999), Social Network Analysis: Methods

and Applications. ISBN 052137078.

[25] Noel M. T., Micheal L. T and Charles (1979), Social Network

Analysis for Organizations. The Academy of Management Review. Vol. 4.

54

[26] Cook, J. E., and Wolf, A. L. (1998), Discovering models of software

processes from event-based data. ACM Trans. Softw. Eng. Methodol.

[27] Herbst, J., and Karagiannis, D. (1998), Integrating Machine Learning

and Workflow Management to Support Acquisition and Adaptation of

Workflow Models. In Proceedings 9th International Workshop on Database

and Expert Systems Applications (DEXA’98), pp. 745–752.

[28] Song, M., and Van der Aalst. (2008), Towards comprehensive

Support for organizational mining. Decision Support Systems.

[29] Weske, Mathias. (2012),Business process management concepts,

languages, architectures, Berlin; New York: Springer.

[30] J.L. Moreno.(1934), Who Shall Survive?Nervous and Mental Disease

Publishing Company,Washington, DC.

[31] Becker, J., Delfmann, P., Eggert, M., and Schwittay. (2012a),.

Generalizability and Applicability of Model-Based Business Process

Compliance-CheckingApproaches – A State-of-the-Art Analysis and Research

Roadmap.BuR Business Research (5:2), pp. 221–247.

[32] Grigori, D., Casati, F., Castellanos, M., Dayal, U., Sayal, M., and

Shan, M. C. (2004), Business Process Intelligence. Computers in Industry,

53(3).

[33] Ingvaldsen, J. E., Gulla, J. A., Hegle, A., and Prange A. (2005),

Empirical Business Models. 17th Conference on Advanced Information Systems

Engineering, Porto, Portugal.

[34] Steve Gregory. (2007), An Algorithm to Find Overlapping

Community Structure in Networks.

[35] Raghavan UN, Albert R, Kumara S. (2007), Near Linear Time

Algorithm to Detect Community Structures in Large-scale Networks.

[36] Wil M.P Van der Aalst, W. M. P., Andriansyah, A., Alves de

Medeiros, A. K., Arcieri, F., Baier, T., Blickle, T., Bose, J. C., Van den Brand,

P., Brandtjen, R., and Buijs, J. (2012) Process mining manifesto. In BPM 2011

Workshops Proceedings, pp. 169–194.

Documents

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TINlib.uet.vnu.edu.vn/bitstream/123456789/847/1/HTTT_Nguyen... · 2018. 12. 27. · thức tiếp cận mới trong việc phân tích