Các kỹ thuật này giúp trích lọc các thông tin có giá trị hay các thông tin mà các doanh nghiệp cần từ tập nhật ký sự kiện được lưu trong các hệ thống tích hợp thông tin, giúp bổ sung vào
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Trí Thành
Hà Nội - 2016
Trang 3i
LỜI CAM ĐOAN
Tác giả xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân Tác giả và được sự hướng dẫn khoa học của PGS.TS Nguyễn Trí Thành, không sao chép lại của người khác Trong toàn bộ nội dung của luận văn, những điều trình bày của cá nhân hoặc được tổng hợp của nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp
Tác giả xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình
Hà Nội, ngày tháng năm 2016
HỌC VIÊN
Nguyễn Thị Hồng Hạnh
Trang 4ii
LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới thầy PGS.TS Nguyễn Trí Thành, người thầy đã trực tiếp hướng dẫn tận tình và đóng góp những ý kiến quý báu cho em trong suốt quá trình thực hiện luận văn tốt nghiệp này
Em xin gửi lời cảm ơn đến các thầy cô giáo Trường Đại học Công nghệ -
- Đại học Quốc gia Hà Nội, đã tận tâm truyền đạt những kiến thức quý báu làm nền tảng cho em trong công việc và cuộc sống Qua đây, em cũng xin cảm ơn sinh viên Nguyễn Duy Kiên – Trường Đại học Công nghệ Hà Nội đã hỗ trợ và giúp đỡ em về mặt kỹ thuật
Cuối cùng, em xin được cảm ơn cha mẹ, người thân, ban bè và đồng nghiệp của em tại Sở Nông nghiệp và PTNT tỉnh Hưng Yên, những người đã luôn bên em, khuyến khích và động viên em trong cuộc sống và học tập
HỌC VIÊN
Nguyễn Thị Hồng Hạnh
Trang 5iii
MỤC LỤC
DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT v
DANH MỤC CÁC BẢNG vi
MỞ ĐẦU 7
CHƯƠNG 1.TỔNG QUAN VỀ KHAI PHÁ QUY TRÌNH 9
1.1 Khai phá quy trình 9
1.1.1 Sự cần thiết của KPQT 10
1.1.2 Mục tiêu của KPQT 11
1.1.3 Mô hình quy trình và nhật ký sự kiện 11
1.1.4 Các bài toán KPQT 12
1.1.5 Các khía cạnh của KPQT 13
1.1.6 Các ứng dụng của KPQT 14
1.1.7 Một số thách thức đối với lĩnh vực KPQT 14
1.2 Khía cạnh tổ chức trong KPQT 15
1.3 Bài toán toán khai phá khía cạnh tổ chức 18
1.3.1 Trong thực tế 18
1.3.2 Trong luận văn 18
1.4 Ý nghĩa của luận văn 20
1.4.1 Về mặt khoa học 20
1.4.2 Về mặt thực tiễn 21
CHƯƠNG 2 CÁC GIẢI THUẬT TÌM KIẾM CỘNG TRONG MXH 22
2.1 Cộng đồng mạng xã hội 22
2.1.1 Nguyên nhân hình thành cộng đồng MXH 22
2.1.2 Các loại cộng đồng trong MXH 23
2.1.3 Các loại cấu trúc cộng đồng 23
2.2 Các phương pháp phát hiện cộng đồng 24
2.2.1 Ứng dụng 24
2.2.2 Các loại giải thuật 25
2.3 Các giải thuật tìm kiếm cộng đồng chồng chéo 28
2.4 Lựa chọn giải thuật tìm kiếm 30
Trang 6iv CHƯƠNG 3 ÁP DỤNG GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG CHỒNG
CHÉO VÀO BÀI TOÁN KPQT 34
3.1 Phương pháp nghiên cứu 34
3.1.1 Tính hiệu quả của đề xuất 34
3.1.2 Định dạng dữ liệu đầu vào các độ đo: 35
3.2 Giải pháp thực hiện 37
3.2.1 Đề xuất mô hình giải quyết 37
3.2.2 Các bước thực hiện 38
CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 46
4.1 Công cụ, môi trường thực nghiệm 46
4.1.1 Phần cứng 46
4.1.2 Phần mềm và tập dữ liệu đầu vào 46
4.2 Chương trình thực nghiệm 47
4.3 Kết quả thực nghiệm và đánh giá 48
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI 51
TÀI LIỆU THAM KHẢO 52
Trang 72 BPNN Back - propagation neural network
3 CRM Customer Relationship Management
4 EPC Event - driven Process Chain
5 ERP Systems for Enterprise Resource Planning
6 NMI Normalized mutual information
7 SCM Supply Chain Management
8 UPGMA Unweighter Pair - Group Method using Arithmetic averages
10 XES eXtensible Event Stream
11 XML EXtensible Markup Language
Trang 8vi
DANH MỤC CÁC BẢNG
Bảng 2.1 So sánh các loại cấu trúc cộng đồng 24
Bảng 2.2 Các phương pháp tính khoảng cách hai cụm 26
Bảng 3.1 Bảng mô tả các thuộc tính của một phần dữ liệu sự kiện 36
Bảng 3.2 Thứ tự thực hiện nhiệm vụ của từng người trong mỗi trường hợp 40
Bảng 3.3 Ma trận 𝑀 mối quan hệ 40
Bảng 3.4 Ma trận đỉnh kề 𝑀𝑎 41
Bảng 3.5 Danh sách đỉnh kề 42
Bảng 3.6 Ma trận 𝑀𝑠 độ tương tự 43
Bảng 3.7 Tính mật độ các phân vùng tại ngưỡng cắt t=1 43
Bảng 3.8 Tính mật độ các phân vùng tại ngưỡng cắt t=0.7(KN1) 44
Bảng 3.9 Tính mật độ các phân vùng tại ngưỡng cắt t=0.7(KN2) 44
Bảng 3.10 Danh sách các cộng đồng được tìm thấy 45
Bảng 4.1 Chi tiết chỉ số phần cứng và hệ điều hành 46
Bảng 4.2 Thông tin phần mềm và tập dữ liệu đầu vào 46
Bảng 4.3 Đánh giá kết quả chương trình thực nghiệm 48
Bảng 4.4 Đánh giá chất lượng các cộng đồng 50
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Tổng quan về KPQT 10
Hình 1.2 Quá trình phát hiện mô hình quy trình từ nhật ký sự kiện 11
Hình 1.3 Các bài toán KPQT 13
Hình 1.4 Các ứng dụng KPQT trong các lĩnh vực 14
Hình 1.5 Mô hình tổ chức được phát hiện từ các nhật ký sự kiện 19
Hình 2.1 Các loại cấu trúc cộng đồng 24
Hình 2.2 Các phương pháp phân cụm thứ bậc 26
Hình 3.1 Một phần mã nguồn dữ liệu nhật ký sự kiện 35
Hình 3.2 Mô hình áp dụng giải tìm kiếm cộng đồng vào KPQT 37
Hình 3.3 Thông tin quá trình xử lý sự cố được lưu trong tệp BPI2013.xes 39
Hình 3.5 Định dạng dữ liệu txt lưu đồ thị 40
Hình 3.4 Đồ thị được xây dựng từ ma trận kề 41
Hình 3.6 Quá trình phân cụm thứ bậc từ dưới - lên 43
Hình 3.8 Các cộng đồng đỉnh chồng chéo 44
Hình 4.1 Kết quả chương trình thực nghiệm 47
Trang 97
MỞ ĐẦU
Trong môi trường cạnh tranh hiện nay, yếu tố cốt lõi của các tổ chức, doanh nghiệp là truy cập thông tin, nghiệp vụ một cách nhanh chóng, hiệu quả
và đạt chi phí tối ưu Kinh doanh thông minh bao gồm các công nghệ và công cụ
để chuyển đổi những dữ liệu thô thành những thông tin có nghĩa và có ích cho mục đích phân tích kinh doanh, là các ứng dụng và công nghệ để chuyển dữ liệu doanh nghiệp thành hành động Với sự gia tăng các hệ thống tích hợp thông tin
từ quá trình kinh doanh như WFM,ERP,CRM, SCM và B2B, … đã tạo ra cách thức tiếp cận mới trong việc phân tích dữ liệu lớn (big data) Khai phá quy trình (KPQT) kinh doanh hay KPQT là cầu nối quan trọng giữa khai phá dữ liệu với quản lý quá trình kinh doanh [12] Các kỹ thuật này giúp trích lọc các thông tin
có giá trị hay các thông tin mà các doanh nghiệp cần từ tập nhật ký sự kiện được lưu trong các hệ thống tích hợp thông tin, giúp bổ sung vào các tiếp cận hiện có
để quản lý quy trình kinh doanh Bài toán KPQT gồm ba bài toán nhằm cải thiện quy trình kinh doanh và để mở rộng mô hình quy trình (MHQT) cần bổ sung ba khía cạnh: tổ chức, thời gian và trường hợp[1]
Khía cạnh tổ chức bao gồm nhiều kỹ thuật có giá trị như khai phá mạng
xã hội, khai phá luật phân phối nguồn tài nguyên, …[8] Trong đó, khai phá mạng xã hội bao gồm những kỹ thuật khai phá được sử dụng rộng rãi, cho phép phát hiện ra mạng xã hội (MXH) giữa những phòng, đơn vị, cá nhân tham gia vào quy trình kinh doanh từ nhật ký sự kiện Việc phân tích và đánh giá những mối quan hệ này giúp nhà quản lý có cái nhìn chính xác về các quy trình hiện có trong tổ chức của họ Trong mô hình MXH, các đỉnh đại diện cho phòng, đơn vị
hay con người, mối quan hệ giữa các đỉnh được biểu diễn dưới dạng cạnh Vấn
đề chồng chéo nhiệm vụ giữa những người tham gia vào quy trình là một thách thức mang tính thời sự đối với các doanh nghiệp Hậu quả của vấn đề này mang lại thiệt hại về kinh tế và quy trình kinh doanh hoạt động kém thông suốt Với một doanh nghiệp quy mô lớn, mô hình MXH sẽ kích thước lớn bao gồm nhiều đỉnh và mật độ kết nối giữa các đỉnh dày đặc Để tìm ra được những người có sự chồng chéo về nhiệm vụ trong MXH có kích thước lớn vẫn là một bài toán khó,
đã và đang được khoa học quan tâm, nghiên cứu
Để giải quyết những thách thức trên, tác giả đề xuất phương pháp áp dụng giải thuật tìm kiếm cộng đồng vào bài toán khái phá quy trình Ý tưởng của đề xuất là sử dụng các kỹ thuật của KCTC để phát hiện mô hình MXH từ tập nhật
ký sự kiện Sau đó, sử dụng giải thuật tìm kiếm cộng đồng chồng chéo để tìm ra các cộng đồng có cấu trúc chồng chéo Hiệu quả của đề xuất này là giúp đơn giản hóa cấu trúc mạng tức là chia một mạng có kích thước lớn thành các mạng
Trang 108
có kích thước nhỏ và sự kết nối chặt chẽ hơn [7] Do mục tiêu của luận văn tìm
ra các cộng đồng chồng chéo nên Tác giả chỉ tập trung vào các giải thuật tìm kiếm cộng đồng chồng chéo, là loại cấu trúc cộng đồng xuất hiện phổ biến
trong thực tế
Các nhiệm vụ chính của Luận văn sẽ thực hiện:
1 Nghiên cứu tổng quan về lĩnh vực KPQT và giải thuật tìm kiếm cộng đồng trong MXH những năm gần đây
2 Phát biểu bài toán KCTC và đề xuất mô hình giải quyết bài toán
3 Xây dựng chương trình thực nghiệm dựa trên mô hình đề xuất trong luận văn và đánh giá kết quả thu được
Bố cục của luận văn bao gồm phần mở đầu, bốn chương nội dung, phần
kết luận và phương phát triển tương lai, danh mục tài liệu tham khảo
Chương 1 Tổng quan về KPQT: Giới thiệu tổng quan về KPQT, trong
đó trình bày chi tiết các vấn đề liên quan đến khía cạnh tổ chức và phân tích phương pháp phát hiện MXH từ nhật ký sự kiện Phần chính của Chương này là phát biểu bài toán cần xử lý và đưa ra phương pháp giải quyết Từ đó, có những nhận định về ý nghĩa thực tiễn, ý nghĩa khoa học của luận văn
Chương 2 Các giải thuật tìm kiếm cộng đồng trong MXH: Giới thiệu
các loại giải thuật tìm kiếm và đặc biệt là các giải thuật tìm kiếm cộng đồng chồng chéo Sau đó, Tác giả sẽ lựa chọn giải thuật tìm kiếm cộng đồng chồng chéo sẽ áp dụng vào bài toán KPQT Phân tích chi tiết giải thuật Phân vùng theo cạnh của nhóm tác giả Ahn et al đưa ra vào năm 2010 [4]
Chương 3 Áp dụng các giải thuật tìm kiếm cộng đồng vào bài toán KPQT: Đề xuất mô hình giải quyết bài toán và đưa ra định dạng dữ liệu đầu vào
các độ đo được sử dụng trong mô hình Phân tích chi tiết các bước thực hiện trong mô hình Kết quả của quá trình này tìm ra các cộng đồng cạnh có cấu trúc phân cấp, tương ứng là cộng đồng đỉnh có cấu trúc chồng chéo
Chương 4 Kết quả thực nghiệm và đánh giá: Đưa ra các yêu cầu về dữ
liệu, phần cứng, phần mềm và mã nguồn cần thiết để xây dựng chương trình thực nghiệm theo mô hình đề xuất Dựa trên bảng số liệu thu được sau khi chạy chương trình với các tệp dữ liệu dùng làm mẫu thử nghiệm, tác giả sẽ sử dụng các tiêu chuẩn và độ đo để phân tích chi tiết các thông số trong bảng Từ đó, đánh giá các kết quả thu được dựa vào sự phân tích này
Trang 119
CHƯƠNG 1.TỔNG QUAN VỀ KHAI PHÁ QUY TRÌNH
1.1 Khai phá quy trình
Ngày nay, câu nói “khách hàng là thượng đế” đã trở nên quen thuộc đối
với các doanh nghiệp, bởi khách hàng là người trả tiền cho các sản phẩm, dịch
vụ của họ Hầu hết, doanh nhân của mọi quốc gia trên thế giới đều nhận thức đầy đủ về tầm quan trọng của khách hàng và họ luôn cố gắng phục vụ khách hàng chu đáo nhất Thực tế cho thấy, nhu cầu và mong muốn của khách hàng thường xuyên thay đổi Điều này đã tác động rất lớn đến các doanh nghiệp, tạo
ra một thị trường cạnh tranh, tất cả họ đều có chung một mục đích là đáp ứng tốt nhất những yêu cầu thay đổi thường xuyên này Đây là là một thách thức lớn nhất mà mỗi doanh nghiệp hàng ngày phải đối mặt Do đó, để có thể cạnh tranh thuận lợi, các doanh nghiệp cần phải nghiên cứu, thay đổi và cải tiến quy trình kinh doanh phù hợp với thực tế
Kinh doanh thông minh (Business intelligence) là một hướng nghiên cứu quan trọng, trong đó có sử dụng dữ liệu được lưu trữ trong các hệ thống thông
tin (HTTT) Sự xuất hiện “nền kinh tế số” đã làm thay đổi hai vấn đề là quá
trình điều hành kinh doanh và đánh giá hiệu suất công việc Hầu hết, các doanh nghiệp có quy mô lớn đều sử dụng các HTTT để hỗ trợ toàn hộ hay một phần của quy trình kinh doanh Dữ liệu sinh ra từ quá trình này được lưu lại gọi là nhật ký sự kiện Các hệ thống ERP, WFM, CRM, SCM, B2B đều là kết quả của
sự cải tiến công nghệ và quá trình kinh doanh trong thực tế Ngày nay, các HTTT trở lên liên quan mật thiết hơn với các quy trình kinh doanh mà chúng hỗ trợ Một quy trình kinh doanh giúp điều hành hiệu quả các lĩnh vực quản lý hậu cần, quản lý bán hàng, quản lý nhân lực, Sự gia tăng các hệ thống lưu trữ thông tin giúp quy trình kinh doanh đạt hiệu quả, hỗ trợ khả năng truy nhập và phân tích dữ liệu Việc trích lọc ra các thông tin có giá trị nhằm cải thiện khả năng ra quyết định và mô hình quy trình vẫn là một vấn đề được các doanh nghiệp quan tâm Thực tế, việc tràn ngập các thông tin đã gây ra áp lực, thách thức lớn trong việc trích lọc ra những thông tin có giá trị KPQT giúp trích lọc
và phân tích dữ liệu để tìm ra mối liên quan giữa những đối tượng dữ liệu
Ý tưởng KPQT được các nhà khoa học Cook và Wolf đã nghiên cứu các
từ năm 1998 Sau đó, Herbst và Karagianis cũng đưa các vấn đề KPQT trong nội dung liên quan quản lý luồng công việc Trong hội thảo về kinh doanh thông minh, KPQT cũng được các nhà khoa học đề cập trong các nội dung quản lý kinh doanh Những đóng góp lớn tới lĩnh vực này đã được thêm vào sau bởi Wil M.P Van der Aalst và các cộng sự Nhóm nghiên cứu đã đưa ra các thuật toán khai phá đỉnh cao và sự thêm đa dạng các chủ đề liên quan tới các thách thức
Trang 12Hình 1.1 Tổng quan về KPQT
1.1.1 Sự cần thiết của KPQT:
- Trực quan hóa quy trình kinh doanh bằng mô hình: Tất cả những hoạt
động trong công ty nếu nhìn bằng mắt thường chỉ là cái nhìn chủ quan, nó không phản ánh được bản chất sâu bên trong của từng hoạt động Vì vậy, KPQT sẽ giúp các doanh nghiệp thấy rõ các hoạt động, sự tương tác, thời điểm xảy ra các hoạt động trong nội bộ của họ
- Hỗ trợ ra quyết định: Những mô tả hoạt động của doanh nghiệp trên
giấy có thể khác xa so với thực tế, tùy theo từng nhà quản lý có thể nhìn thấy hoặc không nhìn thấy vấn đề này Kết quả là một loạt các đơn vị chức năng hoạt động yếu kém do không đáp ứng được yêu cầu, đòi hỏi từ thực tế KPQT tìm ra những tồn tại, hạn chế trong hoạt động kinh doanh một cách nhanh chóng, giúp nhà quản lý có thể ra quyết định chính xác trong các công việc
Trang 1311
Hình 1.2 Quá trình phát hiện mô hình quy trình từ nhật ký sự kiện
Hình 1.2 cho thấy dữ liệu hoạt động của doanh nghiệp sẽ được lưu lại trong các HTTT, áp dụng các kỹ thuật KPQT để trích xuất ra các thông tin có giá trị hay mô hình quy trình
- Tạo ra sự khách quan, giảm thiểu rủi ro: Nhà quản lý có thể có những ý
kiến chủ quan cũng như có sự thiên vị hay kỳ vọng quá mức về một vấn đề nào
đó Những sai lệch này dẫn đến một loạt các cuộc họp gây lãng phí thời gian, tiền bạc và tạo ra sự mâu thuẫn nội bộ Kết quả của những phương án giải quyết
có thể không phù hợp với thực tế KPQT giúp các doanh nghiệp có cơ sở tin tưởng những giải pháp cho những vấn đề phức tạp của doanh nghiệp
1.1.2 Mục tiêu của KPQT: Mục tiêu chính của KPQT là phát hiện, phân
tích và hiểu các quy trình kinh doanh dựa trên các bản ghi các hoạt động tại thời một thời điểm xác định, thông tin này được lưu trong các tập nhật ký sự kiện KPQT giúp trích lọc các thông tin liên quan, phát hiện ra mô hình quy trình mới
từ các dữ liệu sự kiện, được lưu trong các HTTT lớn [1] Quá trình này bao gồm các kỹ thuật, công cụ và phương thức để phát hiện, giám sát, cải thiện các quy
trình trong thực tế [36]
1.1.3 Mô hình quy trình và nhật ký sự kiện:
a) Mô hình quy trình (MHQT): Trong bối cảnh khoa học HTTT, một mô
hình là đại diện phi vật chất của thế giới thực, được sử dụng cho một mục đích
cụ thể [31] Các mô hình được sử dụng để làm giảm độ phức tạp bằng cách biểu diễn những đặc trưng được quan tâm, bỏ qua những đặc trưng khác Một MHQT
là sự biểu diễn hình học của một quy trình kinh doanh, mô tả sự ràng buộc giữa các công việc cần được thực hiện trong những kế hoạch kinh doanh MHQT là
Trang 1412 một tập các mô hình biểu diễn các hoạt động của công ty và sự ràng buộc giữa các mô hình [29] Các mô hình này có thể được biểu diễn dưới dạng BPNN, EPC hoặc lưới Petri Nếu các mô hình được xây dựng theo phương pháp thủ công, độ tin cậy không cao do những yếu tố chủ quan Để đảm bảo được sự tin cậy của MHQT, phương pháp khai phá dữ liệu lưu trong các HTTT được đưa ra Những dữ liệu này là các dữ liệu được tạo ra từ các giao dịch kinh doanh, các
mô hình sinh ra phản ánh đúng thực tế quá trình kinh doanh của doanh nghiệp
và tạo ra độ tin cậy cao
b) Nhật ký sự kiện: Là nguồn thông tin được lấy từ nhiều nguồn khác
nhau như phỏng vấn, khảo sát, giám sát công việc, ….sẽ được lưu trong các HTTT Sau đó, chúng được trích lọc các thông tin liên quan đến cấu trúc mô hình, việc phân tích sẽ được thực hiện Những công việc này có thể được thực hiện thủ công hay bằng một số ứng dụng KPQT Các thông tin được trích lọc từ tập các nhật ký sự kiện sẽ được trích xuất và lưu dưới dạng XML [18], các bản ghi trong cơ sở dữ liệu liệu [33] hoặc kho dữ liệu [32] Dựa vào các nguồn dữ liệu này, các ứng dụng KPQT sẽ xây dựng lên các MHQT và những dự đoán hiệu quả kinh doanh Tập dữ liệu được lấy từ nhiều nguồn được lưu trữ trong cùng một hệ thống như kho dữ liệu, cung cấp nền tảng khai phá tri thức chưa được biết đến và mối quan hệ giữa các thực thể trong quy trình Các tri thức mới được phát hiện có liên quan như các bộ phận kinh doanh, danh mục sản phẩm,
nhà cung cấp, lộ trình và thời gian thực hiện quy trình
1.1.4 Các bài toán KPQT: Có 03 bài toán chính:
Phát hiện mô hình quy trình:Kỹ thuật này phát hiện ra các mô hình chưa
được biết đến trước đó, các mô hình này sẽ được dùng vào mục đích phân tích hoặc tối ưu hóa [36] Trong đó:
Đầu vào: Nhật ký sự kiện
Đầu ra: Mô hình quy trình
Kiểm tra sự phù hợp của mô hình quy trình: Kỹ thuật này sử dụng mô
hình quy trình đang tồn tại và so sánh với dữ liệu lưu trong nhật ký sự kiện, nhằm kiểm tra sự phù hợp của mô hình quy trình với thực tế Trong đó:
Đầu vào: Nhật ký sự kiện, Mô hình quy trình
Đầu ra: Các độ đo phù hợp
Tăng cường mô hình quy trình: Đây là kỹ thuật mở rộng hay cải tiến mô
hình quy trình đang tồn tại sử dụng thông tin về quy trình thực được ghi lại trong các nhật ký sự kiện
Đầu vào: Mô hình quy trình hiện có, Nhật ký sự kiện
Trang 1513 Đầu ra:Mô hình quy trình được bổ sung
Hình 1.3 Các bài toán KPQT
Hình 1.3 biểu diễn sự tương tác giữa KPQT, dữ liệu nhật ký sự kiện và nền tảng phân tích Khai phá nhật ký sự kiện hay sự các quy trình kinh doanh thực để phát hiện ra sự tắc nghẽn, đứt đoạn của quy trình Trong KPQT, sự tương tác giữa những thực thể theo một quy luật logic, do đó những kết quả của lĩnh vực này mang lại là rất lớn đối với lĩnh vực kinh doanh thông minh
1.1.5 Các khía cạnh của KPQT: Mở rộng MHQT khi bổ sung các khía
cạnh, bao gồm:
Khía cạnh tổ chức: tập trung vào các thông tin về các nguồn tài nguyên ẩn
dưới các nhật ký Các nguồn tài nguyên này bao gồm con người, hệ thống hay vai trò hay bộ phận liên quan và sự liên hệ giữa các yếu tố đó Mục tiêu của khía cạnh này là để xây dựng cấu trúc tổ chức bằng cách phân lớp người tham gia quy trình theo vai trò, đơn vị, đồng thời biểu diễn MXH
Khía cạnh trường hợp: Tập trung vào các thuộc tính riêng của các trường
hợp như số người tham gia, thứ tự thực hiện các hoạt động, những người tham gia, … Từ đó thiết lập mối quan hệ giữa những thuộc tính này, tạo đầu vào cho các giải thuật phân cụm
Khía cạnh thời gian: Liên quan đến thời gian và tần suất xuất hiện của các
sự kiện Từ lịch biểu thời gian xảy ra các sự kiện giúp phát hiện các đoạn “nút
thắt cổ chai” hay bị trì hoãn, tắc nghẽn luồng công việc, ước tính các mức độ dịch
vụ, giám sát các nguồn tài nguyên hay dự đoán thời gian trống trong các trường
hợp
Trang 16- ARIS PPM là công cụ để đánh giá quy trình kinh doanh Kỹ thuật này giúp phân tích lịch sử của các quy trình để tìm ra điểm yếu trong quy trình hiện tại, tối ưu hóa cấu trúc tổ chức, …
- PISA là công cụ dùng để xác định hiệu suất quy trình từ nhật ký sự kiện
- ProM là phần mềm mã nguồn mở, dùng cho những người nghiên cứu lĩnh vực KPQT Công cụ này cung cấp nhiều plug-in cho nhiều giải thuật khai phá khác nhau
- Disco là một ứng dụng thương mại, giúp trích lọc và tải các nhật ký sự kiện
Hình 1.4 Các ứng dụng KPQT trong các lĩnh vực
Hình 1.4 cho thấy sự phổ biến các ứng dụng KPQT trong rất nhiều các
lĩnh vực kinh doanh
1.1.7 Một số thách thức đối với lĩnh vực KPQT
- Mục đích sử dụng: KPQT là một công nghệ cần phải được đặt trong bối
cảnh cụ thể thì mới làm nổi bật lên giá trị của lĩnh vực này Các lợi ích của KPQT mang lại như tăng hiệu quả hoạt động của doanh nghiệp, quản lý rủi ro và bảo đảm quá trình, giảm thiểu sai sót, kiểm soát chất lượng dịch vụ
Trang 1715
- Các bản ghi sự kiện bị lỗi và thiếu: Đối với các bản ghi không chính xác
của nhật ký sự kiện có thể được sinh ra do sự cố phần mềm, đột biến người dùng, lỗi phần cứng hoặc bị cắt xén các trường hợp của quy trình trong lúc trích lọc dữ liệu Các bản ghi bị sai trong nhật ký sự kiện được coi là một biểu hiện lạ trong một hiện tượng được gọi là bản ghi bị lỗi Các bản ghi bị lỗi được lưu lại chính xác và thường hiếm khi xảy ra [1] Các bản ghi sự kiện lỗi này sẽ làm tăng
độ phức tạp của mô hình quy trình Các đề xuất KPQT vì thế mà đưa ra những
sự phân tích và mô hình không đúng
- Chất lượng nhật ký sự kiện: Việc thu thập dữ liệu và tiền xử lý dữ liệu là
một thách thức trước khi bắt đầu KPQT, vì chất lượng của dữ liệu ảnh hưởng lớn đến kết quả của KPQT Chất lượng của các nhật ký sự kiện sẽ ảnh hưởng chủ yếu tới chất lượng khai phá và tái cấu trúc các mô hình quy trình Các hệ thống quy trình kinh doanh và quản lý luồng công việc tạo ra các nhật ký sự kiện với chất lượng cao nhất [36]
- Mô hình quy trình phức tạp: Các quy trình trong thực tế thường rất
phức tạp Việc biểu diễn chúng bằng hình học có thể dẫn các mô hình có độ phức tạp cao và rất khó hiểu Hai mô hình quy trình phức tạp điển hình được gọi
là quy trình Lasagna và Spaghetti [1] Giảm độ phức tạp của mô hình là một thách thức lớn và đang là đối tượng nghiên cứu ngày nay [23]
- Các loại hình quy trình: KPQT chỉ có thể được áp dụng đối với các quy
trình được kiểm soát hoàn toàn bằng HTTT Trong thực tế, các quy trình chỉ cần được quan sát dưới một số hình thức Đối với một số hệ thống quản lý quy trình kinh doanh theo mô hình và cấu hình định sẵn thường ít có giá trị đối với việc phát hiện lại các luồng tiến trình Thông thường, các bộ phận trong một quy trình là tự động, một số bộ phận được điều khiển bởi con người Do vậy, rất khó kiểm soát được những việc mà họ đã làm gì trong bộ phận đó KPQT được áp dụng cho một lượng lớn các loại dữ liệu bao gồm cơ sở dữ liệu, các nhật ký giao dịch, các bảng excel
1.2 Khía cạnh tổ chức trong KPQT
Trong một tổ chức, dù có trang thiết bị hiện đại, tối tân thì yếu tố con người vẫn đóng vai trò quan trong nhất Sự chồng chéo chức năng, nhiệm vụ giữa các cá nhân, phòng, ban, đơn vị làm cho cơ cấu tổ chức trở nên cồng kềnh, giảm hiệu suất công việc và tốn kém chi phí Những giải pháp cải tiến về khía cạnh tổ chức đã và đang được các nhà khoa học, nhà quản lý quan tâm và nghiên cứu
Trang 1816 Khía cạnh tổ chức là một trong ba khía cạnh quan trọng nhất của bài toán KPQT, các kỹ thuật bao gồm: khai phá tổ chức, khai phá MXH, khai phá luật phân phối nguồn tài nguyên, …[8] Đây là những kỹ thuật giá trị cho phép phát hiện mô hình MXH của một tổ chức Đồng thời giúp đưa ra cách thức đánh giá các mạng lưới này bằng cách ánh xạ và phân tích các mối quan hệ giữa những cá nhân, đơn vị trong công ty Tuy nhiên, khi phân tích MXH với kích thước lớn, các kỹ thuật của KPQT sinh ra các mô hình với sự phức tạp cao, điều này làm cho người dùng bối dối và khó khăn để hiểu được chúng Phân tích dựa vào cấu
trúc hình học bao gồm chiến lược “chia để trị” nhằm trực quan hóa và phân tích
mô hình mạng trong các mức độ tổng quát khác nhau
- Mục tiêu của KCTC: Khía cạnh tổ chức tập trung vào các nguồn tài
nguyên, như những người thực hiện có liên quan đến mô hình quy trình và sự liên quan và mối quan hệ của họ với quy trình Mục tiêu chính của khía cạnh này là tìm ra cấu trúc tổ chức bằng cách phân lớp người tham gia vào quy trình trong các giới hạn của các đơn vị, vai trò của từng người, mối quan hệ của
những người tham gia vào quy trình
- Vai trò KCTC: Các kỹ thuật này giúp phát hiện cấu trúc tổ chức, phân
tích MXH, cấp phát tài nguyên và khai phá vai trò từng cá thể, nhóm hay tổ chức trong MXH Khai phá khía cạnh tổ chức là phân tích những thông tin được tiết lộ từ khía cạnh tổ chức Kỹ thuật này bao gồm việc phát hiện các MXH, cấu trúc tổ chức và hành vi của tổ chức [2] Các kỹ thuật khai phá này tạo nên nền tảng đối với các nhiệm vụ sau:
+ Chứng thực: tập trung vào kiểm soát truy nhập giúp đảm bảo chỉ những
cá nhân, đơn vị nào được chứng thực có vai trò mới được phép thực hiện các hoạt động trong quy trình
+ Kiểm soát tài nguyên: tập trung vào những ràng buộc sau khi truy nhập
dữ liệu như người hay nhóm người sẽ nắm giữ và sử dụng dữ liệu
+ Tái cơ cấu tổ chức:
Phân tách: ràng buộc liên quan tới quy trình giới hạn các khả năng của các đơn vị khi thực hiện các hoạt động, giúp giảm rủi ro khi gặp lỗi
Sát nhập: đây là sự ràng buộc hai chiều, sắp xếp các chủ thể, tác vụ vào cùng một nhóm các hoạt động cụ thể
+ Kiểm soát xung đột: ngăn các luồng thông tin mang tính nhạy cảm giữa
những đối thủ cạnh tranh hay các phòng, ban là những đơn vị tham gia vào quy trình kinh doanh
Trang 1917
- Phân tích MXH: Jacob Levy Moreno đã đưa ra khái niệm mô hình
MXH vào năm 1932-1938, ông đã nghiên cứu mô hình MXH các trường học dành cho nhóm học sinh nữ tại Hudson, NewYork [30] MXH là một mô hình được biểu diễn dưới dạng đồ thị, là phương pháp biểu diễn dữ liệu và các mối quan hệ của các dữ liệu này dưới dạng đồ thị Phát hiện MXH từ nhật ký sự kiện
là phát hiện mối quan hệ giữa những người, nhóm người tham gia vào quy trình Nhật ký sự kiện chứa thông tin những người tham gia vào quy trình hoặc việc khởi tạo sự kiện Sử dụng một số kỹ thuật phân tích MXH và các kết quả nghiên cứu có sẵn, các MXH này cho phép phân tích mối quan hệ giữa các chủ thể bao gồm các tiến trình thực thi quy trình Các kết quả phân tích được sử dụng để xác định những người thường xuyên giao tiếp với nhau trong quy trình, người có kết giao tiếp nhiều nhất (tầm ảnh hưởng nhất) với người khác, vai trò người và nhóm người trong quy trình hay hiện tượng tắc nghẽn hoạt động bởi người nào trong quy trình
Phân tích MXH (Social Network Analysis) bao gồm tập các phương pháp,
kỹ thuật, công cụ giúp trực quan hóa và phân tích các MXH Kỹ thuật này đóng vai trò quan trọng, giúp đánh giá mối quan hệ giữa những cá nhân, các phòng, đơn vị hay tổ chức tham gia vào quy trình kinh doanh [24] và có thể thu được những thông tin quan trọng giúp cải thiện quá trình quản lý luồng công việc trong một tổ chức và cho phép người quản lý tìm ra phương pháp cải thiện chúng [25] Mục tiêu của các kỹ thuật phân tích MXH là trả về quy trình thực sự minh bạch và cung cấp các kỹ thuật giúp các quy trình kinh doanh trở nên tốt và liền mạch hơn
Để phát hiện ra MXH, các kỹ thuật sẽ sử dụng các độ đo để định lượng mức độ thường xuyên và sự chuyển giao công việc giữa những người thực hiện Wil M.P van der Aalst et al đã đề xuất các loại độ đo xây dựng mô hình MXH
từ nhật ký sự kiện [8], bao gồm:
- Độ đo dựa trên quá trình thực hiện nhiệm vụ: đánh giá mức độ các công
việc được chuyển giữa những người tham gia vào quy trình Độ đo Handover of work tính số lần mà người i thực hiện một nhiệm vụ trước một người j trong một trường hợp Giá trị độ đo Subcontracting là số lần người j thực hiện nhiệm vụ giữa hai nhiệm vụ khác mà người i thực hiện
- Độ đo dựa trên những người tham gia cùng một trường hợp: tính mức
độ thường xuyên hai người thực hiện nhiệm vụ trong cùng một trường hợp Hai
cá nhân thường xuyên làm việc cùng một trường hợp có mối quan hệ mật thiết với nhau hơn những người khác Giá trị độ đo Working together là số lần hai người thực hiện nhiệm vụ trong cùng một trường hợp
Trang 2018
- Độ đo dựa trên loại nhiệm vụ: tập trung vào tính chất công việc cần phải
thực hiện Hai người thực hiện các nhiệm vụ tương tự nhau sẽ có mối quan hệ
mật thiết hơn Độ đo Similar task sử dụng hàm tính khoảng cách Hamming, …
để tính khoảng cách giữa các nhiệm vụ
- Độ đo dựa trên loại sự kiện: Các sự kiện tương ứng với sự thực hiện các
nhiệm vụ Tuy nhiên, có những sự kiện tương ứng với hoạt động chỉ được giao giữa người i sang người j và không có chiều ngược lại Mối quan hệ này thể hiện
sự phân cấp quyền lực
1.3 Bài toán toán khai phá khía cạnh tổ chức
1.3.1 Trong thực tế: Hầu hết, các doanh nghiệp và tổ chức đều đang gặp
phải vấn đề liên quan đến sự chồng chéo, trùng lắp, phân công chưa rõ ràng, chưa hợp lý về chức năng, nhiệm vụ giữa các cá nhân, bộ phận Đây là những vấn đề được coi là những thách thức vì nhà quản lý đã nhìn thấy, nhưng chưa tìm được cách giải quyết tối ưu Những thách thức này là nguyên nhân dẫn đến giảm doanh thu và hiệu suất công việc, tăng chi phí cho các nhiệm vụ thống kê, phân tích viết báo cáo lập kế hoạch, quy hoạch liên quan đến những vấn đề tổ chức
Nguyên nhân: Chưa thống nhất về phân công nhiệm vụ giữa các phòng,
ban, đơn vị; cách nhìn chủ quan của nhà quản lý đối với việc phân công nhiệm vụ; thiếu tiêu chuẩn để phân định rõ ràng; tính chất phức tạp, đa dạng của công việc; việc đáp ứng những mong muốn thay đổi theo ngày của khách hàng cũng
là nguyên nhân làm cho những cơ cấu tổ chức trước đó trở lên lạc hậu
Giải pháp trong thực tế: Rà soát, nghiên cứu, phân tích, đánh giá và làm
rõ chức năng, nhiệm vụ của từng bộ phận để tìm ra sự chồng chéo
1.3.2 Trong luận văn: Dựa trên những thách thức của bài toán trong thực
tế, luận văn tập trung vào giải quyết những thách thức này trong bài toán KPQT
- Giới hạn luận văn: Phát hiện sự chồng chéo nhiệm vụ giữa những người
tham gia vào quy trình từ tập dữ liệu sự kiện có sẵn
Phát biểu bài toán:
Đầu vào: Tập dữ liệu sự kiện định dạng XES 1.0
Đầu ra: Các cộng đồng chồng chồng chéo
- Phân tích bài toán: Có 04 danh từ, cụm danh từ trong bài toán trên cần
quan tâm: “người”, “mối quan hệ”, “nhóm người” và “mật thiết” Ta giả định
Trang 2119
một phương thức kết hợp giữa 04 khái niệm này: (1) “người” + “mối quan hệ” =
“nhóm người”; (2) “nhóm người” + “mật thiết” = “cộng đồng” Trong đó:
(1) Những người có mối quan hệ với nhau sẽ tạo thành một nhóm người,
nhóm người này có thể cùng thực hiện một nhiệm vụ, một mục đích, … tùy theo từng trường hợp thực tế công việc mà họ đang liên quan
(2) Nhóm người có mối quan hệ mật thiết được gọi là một cộng đồng Sự
mật thiết ở đây có thể được đánh giá dựa trên nhiều tiêu chuẩn như cùng thực hiện một nhiệm vụ, thường xuyên tương tác với nhau, …
Để giải quyết một vấn đề trong thực tế, cần phải tổng quát hóa vấn đề đó thành các khái niệm toán học Trong bài toán trên, ta giả định “người”, “nhóm người”, “mối quan hệ” tương ứng với “đỉnh”, “cụm các đỉnh”, “cạnh” trong lý thuyết đồ thị Nhóm các đỉnh có các cạnh kết nối giữa chúng ta gọi là một MXH
hay đồ thị Nhà quản lý muốn tìm kết quả của phương trình (2), hay tìm các
cộng đồng của MXH Để tìm được kết quả mong muốn, cần áp dụng một thuật toán tìm kiếm, giúp tìm kiếm nhanh chóng, tạo sự tin cậy đối với các cộng đồng được tìm ra
Hình 1.5 biểu diễn ví dụ với ba vai trò dựa trên độ tương tự của tiểu sử của 06 người thực hiện Ba vai trò gồm trợ lý, chuyên gia, người quản lý được coi là ba phân vùng của 06 người tham gia vào quy trình Một người có thể có nhiều vai trò khác nhau trong quy trình, mỗi hoạt động chỉ được thực hiện bởi
duy nhất một người
Hình 1.5 Mô hình tổ chức được phát hiện từ các nhật ký sự kiện
Trang 22- Phương pháp giải quyết:
Phương pháp để giải quyết bài toán trong luận văn dựa trên những kết quả nghiên cứu của các nhà khoa học Wil M.P van der Aalst et al và Diago R Ferreira et al Điểm mới trong đề xuất của Tác giả là áp dụng giải thuật tìm kiếm cộng đồng chồng chéo trong MXH Đề xuất này xuất phát từ hiện tượng chồng chéo nhiệm vụ giữa những người thuộc cùng một tổ chức trong thực tế Tuy nhiên, để không làm mất tính tổng quát cấu trúc tổ chức phân cấp nhưng vẫn phản ánh được sự chồng chéo của các cộng đồng trong thực tế, Tác giả sử dụng giải thuật Phân vùng theo cạnh của Ahn et al., 2010
Tổng quát các bước giải quyết:
(1) Tiền xử lý dữ liệu: Loại bỏ các thông tin bị lỗi, nhiễu, những thông tin không có giá trị khai phá, chuyển về định dạng chuẩn XES 1.0
(2) Xây dựng MXH: Sử dụng các độ đo để xây dựng MXH từ tập nhật ký
sự kiện
(3) Phân tích MXH: Sử dụng chiến lược “Chia để trị” hay áp dụng giải
thuật tìm kiếm cộng đồng để tìm ra các cộng đồng chồng chéo trong MXH
(4) Kết quả: Từ các cộng đồng đỉnh chồng chéo, tìm ra các cộng đồng người có sự chồng chéo nhiệm vụ
(Chi tiết đề xuất giải quyết bài toán trong Chương 4 luận văn này)
1.4 Ý nghĩa của luận văn:
1.4.1 Về mặt khoa học:
- Luận văn đã tổng quát các phương pháp khoa học để giải quyết những thách thức trong bài toán KCTC
Trang 2321
- Trong luận văn, Tác giả tập trung đưa ra các cơ sở khoa học, định hướng nghiên cứu để tìm ra sự chồng chéo nhiệm vụ giữa những người tham gia vào quy trình từ tập nhật ký sự kiện, từ đó đề xuất hướng giải quyết bài toán
- Từ các kết quả nghiên cứu, luận văn đã góp phần làm cơ sở thực tiễn
cho các nghiên cứu khoa học sau này
1.4.2 Về mặt thực tiễn:
- Những thách thức trong thực tế của doanh nghiệp là động lực Tác giả thực hiện nghiên cứu này và định hướng tìm phương pháp giải quyết Do đó, đề xuất trong luận văn có thể là một hướng giải quyết mà các doanh nghiệp có thể
áp dụng
- Nền tảng của phương pháp giải quyết dựa trên nền tảng khoa học, do đó các nhà quản lý, người nghiên cứu có thể tin tưởng, nghiên cứu và phát triển mô hình giải quyết được đề xuất trong luận văn
- Do vấn đề được đặt ra trong luận văn có tính thời sự, các kết quả nghiên cứu có thể được áp dụng vào thực tiễn hiện thời, không bị lạc hậu và có thể đánh giá được hiệu quả của đề xuất
Trang 2422
CHƯƠNG 2 CÁC GIẢI THUẬT TÌM KIẾM CỘNG TRONG MXH 2.1 Cộng đồng mạng xã hội
Hơn một thập kỷ trước, các mạng phức tạp (hay cộng đồng MXH) đã trở thành chủ đề được quan tâm và nghiên cứu trong một số hệ thống lớn Cộng đồng là một nhóm các đỉnh mà có cùng một số thuộc tính và vai trò trong tổ chức Nhóm gồm các đỉnh có nhiều kết nối với nhau nếu chúng thuộc cùng một cộng đồng và ít kết nối đến các đỉnh khác nếu chúng không thuộc cùng một cộng đồng [5] Sự tương tác giữa các phần tử trong MXH hay mạng lưới sinh học được biểu diễn bằng các liên kết và đỉnh Một cộng đồng hay còn gọi là một cụm là một nhóm các đỉnh có nhiều kết nối với nhau hơn các đỉnh khác trong mạng [22] Các mạng lưới thường được biểu diễn theo cấu trúc mô-đun (hay cộng đồng) Một số cộng đồng thường liên quan mật thiết tới các đơn vị chức năng của hệ thống Nhiều hệ thống trong thực tế có thể được biểu diễn dưới dạng mô hình MXH như như mạng điện thoại, các trang MXH, sự di chuyển của động vật, sự tương tác của các phân tử, … Một hiện tượng thường được quan sát thông qua các loại mạng khác nhau là sự hiện diện của các cấu trúc cộng đồng tiềm ẩn Các đỉnh có thể được tập hợp lại thành nhóm sao cho những đỉnh trong nhóm có sự tương tác lẫn nhau và các nhóm khác nhau thường ít khi tương tác
2.1.1 Nguyên nhân hình thành cộng đồng MXH:
Theo nghiên cứu của Pew Internet & American Life Project, hơn 93% cả thiếu niên (12-17 tuổi) và thanh niên (18-29 tuổi) ở Mỹ sử dụng Internet hàng ngày, trong đó có hơn 70% số người dùng các MXH Một trang web tạo ra một cộng đồng xã hội, nơi gồm những người quan tâm đến cùng một chủ đề hay chỉ
là sự quan tâm đến nhau Các thành viên sẽ tạo các tiểu sử cá nhân trực tuyến và một số loại dữ liệu khác Họ giao tiếp với người khác bằng âm thanh, văn bản, tin nhắn, video trực tuyến và các loại dịch vụ khác như MXH Ngày nay, có nhiều chuyên trang về MXH như Facebook, Orkut, Twitter, Bebo, Myspace, Friendster, hi5, Linkedin và Bharatstudent, … Những website này được biết đến như là những mạng lưới cộng đồng Một số nguyên nhân hình thành cộng đồng:
- Đặc điểm: Cộng đồng thường hình thành giữa những người cùng chia sẻ
những đặc điểm giống nhau, ví dụ như một nhóm người cùng thuộc một trường đại học
- Mục đích: Đây là nhóm người làm việc để đạt được một mục đích chung
như cùng chống lại đói nghèo, tăng trưởng nền kinh tế, …
Trang 2523
- Mục tiêu: Đa số người một cộng đồng cùng phấn đấu tới một mục tiêu
cụ thể, hữu hình, không nhất thiết tất tả những người thuộc cộng đồng phải có mục tiêu này như mạng lưới doanh nghiệp toàn cầu đều có mục tiêu là đạt thắng lợi doanh thu
- Sở thích: Các thành viên trong một cộng đồng cùng sở thích hoặc cùng
tham gia vào một hoạt động cụ thể như thể thảo, khiêu vũ, …
- Thói quen: Đây là một cách xác định hành vi của con người hay tổ chức
diễn ra hàng ngày như một người thường xuyên làm một loại công việc vào thời điểm xác định trong ngày, một công ty thường tổ chức ăn mừng khi doanh thu đạt cao và ngược lại, …
2.1.2 Các loại cộng đồng trong MXH [16]:
- Cộng đồng tường minh: Được hình do những đặc trưng chung của nhóm
đã được thiết lập trước như Google+ có chức năng “Circles”, Facebook có chức năng “Smart list” giúp phân loại các nhóm người thực hiện bởi chủ tài khoản
- Cộng đồng không tường minh: Được hình thành do sự tương tác giữa
những người trong cộng đồng, không thấy rõ bằng mắt thường Những người thuộc cùng một cộng đồng sẽ tương tác nhiều hơn với những người thuộc cộng đồng khác Trong luận văn, Tác giả thực hiện tìm kiếm loại cộng đồng này
2.1.3 Các loại cấu trúc cộng đồng:
Cấu trúc cộng đồng được Girvan và New-man nghiên cứu vào năm 2002, ngoài ra chủ đề này còn được đề cập trong các bài nghiên cứu của Danon et al., 2007; Fortunato và Castellano, 2009; Newman, 2004a; Porter et al., 2009; Schaeffer, 2007 Để xác định cấu trúc cộng đồng, phải phân tích các mối quan
hệ dưới dạng cấu trúc hình học giữa các cộng đồng Loại cấu trúc cộng đồng được phân loại theo sự bao phủ các phần tử của các cộng đồng, một số loại cấu trúc điển hình:
Cấu trúc cộng đồng không chồng chéo: Một đỉnh chỉ thuộc vào duy nhất
một cộng đồng [6] Các cộng đồng đỉnh này không có sự liên hệ, tách rời nhau
và chỉ có hoặc không có các cạnh trung gian giữa chúng
Cấu trúc cộng đồng chồng chéo: các cộng đồng trong thực tế có khuynh
hướng chồng chéo các đỉnh, tức là một đỉnh có thể thể thuộc nhiều cộng đồng Đỉnh được gọi là đỉnh chồng chéo nếu thuộc sở hữu nhiều hơn một cộng đồng [7] Phát hiện các cộng đồng nối chồng chéo đang là một thách thức đối với những nhà nghiên cứu bởi sự không có sự phân chia rõ ràng giữa các đỉnh và cộng đồng
Trang 2624 Năm 2013, Yang và Leskovec đã quan sát và tổng kết lại sự tương tác giữa các cá nhân trong cộng đồng: “Các đỉnh chồng chéo có khả năng kết nối với các đỉnh khác cao hơn bởi chúng thuộc nhiều cộng đồng […] Các cộng đồng chồng chéo có mật độ kết nối dày hơn các cộng đồng không chồng chéo” [22]
Hình 2.1 Các loại cấu trúc cộng đồng
T
T Sự mâu thuẫn
Loại cấu trúc Chồng chéo Không chồng chéo
2 Tần suất xuất hiện
Bảng 2.1 So sánh các loại cấu trúc cộng đồng
Bảng 2.1 là sự so sánh giữa hai loại cấu trúc này, sự mâu thuẫn giữa các
cộng đồng chủ yếu trong việc sở hữu các đỉnh Để giải quyết mâu thuẫn cần phải
có phương pháp “hòa giải” phù hợp, tránh mất tổng quát của hai loại cấu trúc
này
2.2 Các phương pháp phát hiện cộng đồng
2.2.1 Ứng dụng: Phát hiện cộng đồng là một nhiệm vụ quan trọng trong
nghiên cứu và cung cấp các thông tin tổng quát về cấu trúc mạng Áp dụng các giải thuật tìm kiếm cộng đồng trong MXH đã và đang được áp dụng trong một
số lĩnh vực khoa học và đời sống [19]:
Trang 2725
- Nghiên cứu tìm kiếm cộng đồng để phát hiện sự lan truyền các dịch bệnh trong các cộng đồng, từ đó có phương pháp kiểm soát các loại dịch bệnh vào năm 2010
- Sử dụng giải thuật tìm kiếm tìm ra nhóm khách hàng có cùng sự quan tâm tới một sản phẩm để đưa ra các đánh giá, nâng cao hiệu quả kinh doanh
- Nghiên cứu quá trình trao đổi chất trong cộng đồng mạng lưới sinh học
để hiểu cơ chế kiểm soát của tế bào
- Phát hiện các cộng đồng giúp nghiên cứu cấu trúc hình học, phân tích chức năng và hành vi của các mạng phức tạp
2.2.2 Các loại giải thuật: Cho đồ thị G(E,V) với E là số cạnh, V là số
đỉnh của đồ thị
a) Phân vùng đồ thị (Graph Partitioning): là cách thức phân chia đồ thị G
thành các đồ thị nhỏ hơn với các đặc trưng riêng Một phân vùng được gọi là tốt nếu số cạnh trung gian giữa phân vùng đó với phân vùng khác là ít Bài toán phân vùng được coi là bài toán NP - khó và đã có nhiều giải thuật được phát triển những năm gần đây Các ứng dụng của giải thuật phân vùng đồ thị trong các lĩnh vực: khoa học tính toán, lập lịch trong các hệ thống đa xử lý, phân cụm
và phát hiện các đồ thị Clique – là đồ thị đầy đủ trong các mạng có quy mô
Giải thuật phân cụm là giải thuật tìm ra các cụm đỉnh bằng cách sử dụng các độ đo giữa các cặp đỉnh Số lượng các cụm được cho trước và làm dữ liệu đầu vào của các kỹ thuật phân vùng Tuy nhiên, số lượng các cộng đồng trong một mạng và kích thước của chúng là không được biết trước, nhưng có thể được
tự động tìm kiếm Flake et al., 2002; Radichii et al., 2004
b) Phân cụm thứ bậc (Hierarchical): Đây là kỹ thuật phát hiện cộng đồng
khá nổi bật, giúp xây dựng cấu trúc phân cấp giữa các cộng đồng Phương pháp này sẽ giả định các cộng đồng trong mạng có sự phân cấp, mỗi đỉnh thuộc các nhóm không kết nối sẽ là nhóm con của nhóm lớn hơn Những giả định này phù hợp với các mạng như mạng lưới tổ chức như một học sinh thuộc cùng một lớp
sẽ là nhóm nhỏ của một trường, … Loại giải thuật này không yêu cầu biết trước
số cụm và kích thước của các cụm đó nhưng các đỉnh thuộc một cộng đồng có thể không được phân lớp chính xác bởi do ảnh hưởng lựa chọn độ đo độ tương
tự giữa các cặp đỉnh Có 02 loại kỹ thuật phân cụm thứ bậc:
- Phân cụm thứ bậc tập hợp (Agglomerative): Hay còn gọi là phân cụm từ dưới – lên, độ phức tạp của giải thuật O(n2
log(n)) Các bước thực hiện:
+ Mỗi đỉnh trong đồ thị được coi là một cụm đơn
Trang 2826 + Tìm các cặp cụm có khoảng cách ngắn nhất (độ tương sự lớn nhất) và tập hợp chúng lại thành một cụm Tính khoảng cách (độ tương tự) giữa cụm mới với các cụm còn lại
+ Lặp lại hai bước trên cho đến khi tất các đỉnh thuộc một cụm duy nhất
Để tính khoảng cách giữa các cụm có nhiều cách khác nhau, có một số phương pháp phổ biến:
Kí hiệu: A, B là hai cụm bất kỳ; a, b lần lượt là các phần tử thuộc cụm A, B
d(a,b) là khoảng cách từ phần tử a tới phần tử b
TT Tên phương pháp Cách tính Tiêu chí
2
Phương thức kết nối toàn bộ
(Complete Linkage Method)
- Tên gọi khác: Phương pháp láng
giềng xa nhất
Max 𝑑 𝑎, 𝑏 : 𝑎 𝜖 𝐴, 𝑏 𝜖 𝐵
Độ tương tự nhỏ nhất hay Khoảng cách xa nhất
3
Phương thức kết nối trung bình
(Average Linkage Method)
- Tên gọi khác: UPGMA
1
𝐴 |𝐵| 𝑑(𝑎, 𝑏)
𝑏∈𝐵 𝑎∈𝐴
Độ tương tự trung bình hay khoảng cách trung bình
Bảng 2.2 Các phương pháp tính khoảng cách hai cụm
Hình 2.2 Các phương pháp phân cụm thứ bậc