Bố cục của luận văn Tìm hiểu một số giải thuật tìm kiếm cộng đồng trong mạng xã hội và áp dụng vào bài toán khai phá quy trình bao gồm phần mở đầu, 4 chương nội dung, phần kết luận nội dung cụ thể như sau: Tổng quan về khai phá quy trình; các giải thuật tìm kiếm cộng đồng trong mạng xã hội; áp dụng các giải thuật tìm kiếm cộng đồng vào bài toán khai phá quy trình; kết quả thực nghiệm và đánh giá.
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ HỒNG HẠNH
TÌM HIỂU MỘT SỐ GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG TRONG MẠNG XÃ HỘI VÀ ÁP DỤNG VÀO
BÀI TOÁN KHAI PHÁ QUY TRÌNH
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
TÓM TẮT LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2016
Trang 2i
MỤC LỤC
DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT iii
DANH MỤC CÁC BẢNG iv
MỞ ĐẦU 5
CHƯƠNG 1.TỔNG QUAN VỀ KHAI PHÁ QUY TRÌNH 8
1.1 Khai phá quy trình 8
1.1.1 Sự cần thiết của KPQT 8
1.1.2 Mục tiêu của KPQT 8
1.1.3 Mô hình quy trình và nhật ký sự kiện 8
1.1.4 Các bài toán KPQT 8
1.1.5 Các khía cạnh của KPQT 8
1.1.6 Các ứng dụng của KPQT: 9
1.1.7 Một số thách thức đối với lĩnh vực KPQT 9
1.2 Khía cạnh tổ chức trong KPQT 9
1.3 Bài toán toán khai phá khía cạnh tổ chức 9
1.4 Ý nghĩa của luận văn 10
1.4.1 Về mặt khoa học 10
1.4.2 Về mặt thực tiễn 10
CHƯƠNG 2 CÁC GIẢI THUẬT TÌM KIẾM CỘNG TRONG MXH 11
2.1 Cộng đồng mạng xã hội 11
2.1.1 Nguyên nhân hình thành cộng đồng MXH 11
2.1.2 Các loại cộng đồng trong MXH 11
2.1.3 Các loại cấu trúc cộng đồng 11
Trang 3ii
2.2 Các phương pháp phát hiện cộng đồng 11
2.2.1 Ứng dụng 11
2.2.2 Các loại giải thuật 12
2.3 Các giải thuật tìm kiếm cộng đồng chồng chéo 12
2.4 Lựa chọn giải thuật tìm kiếm trong luận văn 12
CHƯƠNG 3 ÁP DỤNG GIẢI THUẬT TÌM KIẾM CỘNG ĐỒNG CHỒNG CHÉO VÀO BÀI TOÁN KPQT 14 3.1 Phương pháp nghiên cứu 14
3.1.1 Tính hiệu quả của đề xuất 14
3.1.2 Định dạng dữ liệu đầu vào các độ đo: 14
3.2 Giải pháp thực hiện 14
3.2.1 Đề xuất mô hình giải quyết 14
3.2.2 Các bước thực hiện 15
CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ VÀ KẾT LUẬN 17
4.1 Công cụ, môi trường thực nghiệm 17
4.1.2 Phần mềm và tập dữ liệu đầu vào 17
4.2 Chương trình thực nghiệm 17
4.3 Kết quả thực nghiệm và đánh giá 17
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TƯƠNG LAI 21
TÀI LIỆU THAM KHẢO 22
Trang 4XES eXtensible Event Stream
XML EXtensible Markup Language
Trang 5iv
DANH MỤC CÁC BẢNG
Bảng 2.1 Sự mâu thuẫn của hai cấu trúc giữa chồng chéo
và phân cấp 11 Bảng 4.3 Đánh giá kết quả chương trình thực nghiệm 17 Bảng 4.4 Đánh giá chất lượng các cộng đồng 20
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 3.2 Mô hình áp dụng giải tìm kiếm cộng đồng vào KPQT 14 Hình 3.5 Định dạng dữ liệu txt lưu đồ thị 15
Trang 65
MỞ ĐẦU
Trong môi trường cạnh tranh hiện nay, yếu tố cốt lõi của các tổ chức, doanh nghiệp là truy cập thông tin, nghiệp vụ một cách nhanh chóng, hiệu quả và đạt chi phí tối ưu Kinh doanh thông minh là một tập các quy trình
để thu thập, truy cập và phân tích thông tin kinh doanh, giúp nâng cao khả năng ra quyết định kinh doanh của các nhà quản lý Với sự gia tăng các hệ thống tích hợp thông tin từ quá trình kinh doanh như WFM,ERP,CRM, SCM
và B2B, … đã tạo ra cách thức tiếp cận mới trong việc phân tích dữ liệu lớn Khai phá quy trình (KPQT) kinh doanh hay KPQT là cầu nối quan trọng giữa khai phá dữ liệu với quản lý quá trình kinh doanh [12] Các kỹ thuật này giúp trích lọc các thông tin có giá trị hay các thông tin mà các doanh nghiệp cần từ tập nhật ký sự kiện được lưu trong các hệ thống tích hợp thông tin, giúp bổ sung vào các tiếp cận hiện có để quản lý quá trình kinh doanh Bài toán KPQT gồm ba bài toán nhằm cải thiện quy trình kinh doanh và ba khía cạnh bao gồm các kỹ thuật khai phá quan trọng [1]
Khía cạnh tổ chức bao gồm nhiều kỹ thuật có giá trị như khai phá tổ chức, khai phá mạng xã hội, khai phá luật phân phối nguồn tài nguyên, …[8] Trong đó, khai phá mạng xã hội là một trong những kỹ thuật được sử dụng rộng rãi, cho phép phát hiện ra mạng xã hội (MXH) giữa những phòng, đơn vị, cá nhân tham gia vào quy trình kinh doanh từ nhật ký sự kiện Việc phân tích và đánh giá những mối quan hệ này giúp nhà quản lý có cái nhìn chính xác về các quy trình trong doanh nghiệp của
họ Trong mô hình MXH, phòng, đơn vị hay con người
sẽ được biểu diễn dưới dạng các đỉnh, mối quan hệ giữa
các đỉnh được biểu diễn dưới dạng cạnh Vấn đề chồng
Trang 76 chéo nhiệm vụ giữa những người tham gia vào quy trình
là một thách thức mang tính thời sự đối với các doanh nghiệp Hậu quả của vấn đề này mang lại thiệt hại về kinh tế lớn và quy trình kinh doanh hoạt động kém thông suốt Với một doanh nghiệp quy mô lớn, mô hình MXH
sẽ kích thước lớn bao gồm nhiều đỉnh và mật độ kết nối giữa các đỉnh dày đặc Để tìm ra được những người có sự chồng chéo về nhiệm vụ trong MXH có kích thước lớn vẫn là một bài toán khó, đã và đang được khoa học quan tâm, nghiên cứu
Để giải quyết những thách thức trên, tác giả đề xuất phương pháp áp dụng giải thuật tìm kiếm cộng đồng vào bài toán khái phá quy trình Ý tưởng của đề xuất là
sử dụng các kỹ thuật của KCTC để phát hiện mô hình MXH từ tập nhật ký sự kiện Sau đó, sử dụng giải thuật tìm kiếm cộng đồng chồng chéo để tìm ra các cộng đồng
có cấu trúc chồng chéo Hiệu quả của đề xuất này là giúp đơn giản hóa cấu trúc mạng tức là chia một mạng có kích thước lớn thành các mạng có kích thước nhỏ và sự kết nối chặt chẽ hơn [7] Do mục tiêu của luận văn tìm ra các cộng đồng chồng chéo nên Tác giả chỉ tập trung vào các giải thuật tìm kiếm cộng đồng chồng chéo, là loại cấu
trúc cộng đồng phổ biến trong thực tế
Bố cục của luận văn bao gồm phần mở đầu, bốn
chương nội dung, phần kết luận và phương phát triển
tương lai, danh mục tài liệu tham khảo
Chương 1 Tổng quan về KPQT: Giới thiệu tổng
quan về KPQT, trong đó trình bày chi tiết các vấn đề liên quan đến khía cạnh tổ chức và phân tích phương pháp phát hiện MXH từ nhật ký sự kiện Phần chính của Chương này là phát biểu bài toán cần xử lý và đưa ra
Trang 87 phương pháp giải quyết Từ đó, có những nhận định về ý nghĩa thực tiễn, ý nghĩa khoa học của luận văn
Chương 2 Các giải thuật tìm kiếm cộng đồng
trong MXH: Giới thiệu các loại giải thuật tìm kiếm và
đặc biệt là các giải thuật tìm kiếm cộng đồng chồng chéo Sau đó, Tác giả sẽ lựa chọn giải thuật tìm kiếm cộng đồng chồng chéo sẽ áp dụng vào bài toán KPQT Phân tích chi tiết giải thuật Phân vùng theo cạnh của nhóm tác giả Ahn et al đưa ra vào năm 2010 [4]
Chương 3 Áp dụng các giải thuật tìm kiếm cộng đồng vào bài toán KPQT: Đề xuất mô hình giải
quyết bài toán và đưa ra định dạng dữ liệu đầu vào các độ
đo được sử dụng trong mô hình Phân tích chi tiết các bước thực hiện trong mô hình Kết quả của quá trình này tìm ra các cộng đồng cạnh có cấu trúc phân cấp, tương ứng là cộng đồng đỉnh có cấu trúc chồng chéo
Chương 4 Kết quả thực nghiệm và đánh giá:
Đưa ra các yêu cầu về dữ liệu, phần cứng, phần mềm và
mã nguồn cần thiết để xây dựng chương trình thực nghiệm theo mô hình đề xuất Dựa trên bảng số liệu thu được sau khi chạy chương trình với các tệp dữ liệu dùng làm mẫu thử nghiệm, tác giả sẽ sử dụng các tiêu chuẩn và
độ đo để phân tích chi tiết các thông số trong bảng Từ
đó, đánh giá các kết quả thu được dựa vào sự phân tích này
Trang 98
CHƯƠNG 1.TỔNG QUAN VỀ KHAI PHÁ QUY
TRÌNH 1.1 Khai phá quy trình
KPQT giúp trích lọc và phân tích dữ liệu để tìm
ra mối liên quan giữa những đối tượng dữ liệu KPQT là lĩnh vực “một mặt nằm giữa thông minh điện toán và khai phá dữ liệu, mặt khác nằm giữa mô hình và phân tích quy trình”
1.1.1 Sự cần thiết của KPQT:
- Trực quan hóa quy trình kinh doanh
- Hỗ trợ ra quyết định
- Tạo ra sự khách quan, giảm thiểu rủi ro
1.1.2 Mục tiêu của KPQT: là phát hiện, phân
tích và hiểu các quy trình kinh doanh dựa trên các bản ghi các hoạt động tại thời một thời điểm xác định, thông
tin này được lưu trong các tập nhật ký sự kiện
1.1.3 Mô hình quy trình và nhật ký sự kiện:
a) Mô hình quy trình (MHQT): Một MHQT là sự
biểu diễn hình học của một quy trình kinh doanh, mô tả
sự ràng buộc giữa các công việc cần được thực hiện trong những kế hoạch kinh doanh cụ thể
b) Nhật ký sự kiện: Là nguồn thông tin được lấy
từ nhiều nguồn khác nhau như phỏng vấn, khảo sát, giám
sát công việc, ….sẽ được lưu trong các HTTT
Trang 109
1.1.6 Các ứng dụng của KPQT:
Một số ứng dụng như EmiT, ARIS PPM (Process Performance Manager), PISA, …
1.1.7 Một số thách thức đối với lĩnh vực KPQT
- Mục đích sử dụng rõ ràng
- Các bản ghi sự kiện bị lỗi và thiếu
- Chất lượng nhật ký sự kiện không đảm bảo
- Phân tích MXH (SNA): bao gồm tập các
phương pháp, kỹ thuật, công cụ nhằm phân tích các MXH Để phát hiện ra MXH, sử dụng các loại độ đo bao gồm: Handover of work, working together, …
Độ đo Handover of work tính số lần chuyển giao nhiệm vụ giữa người i sang người j
1.3 Bài toán toán khai phá khía cạnh tổ chức Đầu vào: Tập dữ liệu sự kiện định dạng XES Đầu ra: Các cộng đồng chồng chồng chéo
Tổng quát các bước giải quyết:
(1) Tiền xử lý dữ liệu: Loại bỏ các thông tin bị lỗi, nhiễu, những thông tin không có giá trị khai phá, chuyển về định dạng chuẩn XES 1.0
(2) Xây dựng MXH: Sử dụng các độ đo để xây dựng MXH từ tập nhật ký sự kiện
(3) Phân tích MXH: Sử dụng chiến lược “Chia
để trị”, hay áp dụng giải thuật tìm kiếm cộng đồng để tìm
ra các cộng đồng chồng chéo trong MXH
(4) Từ kết quả thu được trong bước 3, tìm ra cộng đồng người có cấu trúc chồng chéo
Trang 11Tác giả tập trung đưa ra các cơ sở khoa học, định hướng nghiên cứu để tìm ra sự chồng chéo trong cấu trúc
tổ chức từ tập dữ liệu sự kiện, từ đó đề xuất hướng giải quyết bài toán
Từ các kết quả nghiên cứu, luận văn đã góp phần làm cơ sở thực tiễn cho các nghiên cứu khoa học sau này
1.4.2 Về mặt thực tiễn:
Những thách thức trong thực tế của doanh nghiệp
là động lực Tác giả thực hiện nghiên cứu này và định hướng tìm phương pháp giải quyết
Nền tảng của phương pháp giải quyết dựa trên nền tảng khoa học, do đó các nhà quản lý, người nghiên cứu có thể tin tưởng, nghiên cứu và phát triển mô hình giải quyết được đề xuất trong luận văn
Do vấn đề được đặt ra trong luận văn có tính thời
sự, các kết quả nghiên cứu có thể được áp dụng vào thực tiễn hiện thời, không bị lạc hậu và có thể đánh giá được hiệu quả của đề xuất
Trang 1211
CHƯƠNG 2 CÁC GIẢI THUẬT TÌM KIẾM CỘNG
TRONG MXH 2.1 Cộng đồng mạng xã hội:
2.1.1 Nguyên nhân hình thành cộng đồng MXH:
đặc trưng chung của nhóm đã được thiết lập
- Cộng đồng không tường minh: Được hình thành
do sự tương tác giữa những người trong cộng đồng, không thấy rõ bằng mắt thường
2.1.3 Các loại cấu trúc cộng đồng:
Chồng chéo Không chồng chéo
1 Đặc điểm
Một số đỉnh trong mạng có thể thuộc nhiều hơn 1 cộng đồng
Mỗi đỉnh chỉ thuộc 1 cộng đồng duy nhất
Phát hiện ra các cộng đồng phân cấp các đỉnh
Bảng 2.1 Sự mâu thuẫn của hai cấu trúc giữa chồng chéo
và phân cấp
2.2 Các phương pháp phát hiện cộng đồng
2.2.1 Ứng dụng: Nghiên cứu sự lây lan dịch
bệnh và cách phòng chống, nhu cầu của khách hàng, quá trình trao đổi chất của tế bào, Trực quan hóa một mạng phức tạp
Trang 132.3 Các giải thuật tìm kiếm cộng đồng chồng chéo
- Giải thuật tìm kiếm đồ thị clique (Clique Percolation Method - CPM)
- Giải thuật phân vùng đồ thị dựa trên thông tin của cạnh (Link based algorithms)
- Phân cụm mờ (Fuzzy)
- Tối ưu hóa và mở rộng hàm địa phương (Local Exapansion and Optimization)
- Giải thuật tìm kiếm cộng đồng dựa trên các tác
tử và miền động (Agent and Dynamic based Algorithm)
2.4 Lựa chọn giải thuật tìm kiếm trong luận văn
* Các bước thực hiện: Xét đồ thị G 𝑀, 𝑁 vô hướng, không trọng số Trong đó: 𝑀 là tổng số cạnh, 𝑁 là tổng
|𝑛+ 𝑖 ∩𝑛 + 𝑗 |
|𝑛+ 𝑖 ∪𝑛 + 𝑗 |
0
,𝑘=𝑙 ,𝑘≠𝑙
Trang 14Bước 3: Thực hiện gom cụm đối với các cạnh:
Sử dụng kỹ thuật gom cụm từ dưới – lên (bottom-up) và phương thức kết nối đơn để kết nối các cụm
Ngưỡng cắt tốt nhất là ngưỡng cắt mà giá trị mật
độ phân vùng trung bình D đạt cực đại
* Ưu, nhược điểm của giải thuật:
- Ưu điểm: tìm ra các cộng đồng chồng chéo
- Nhược điểm: gây phân tách cộng đồng, kết quả
chưa đảm bảo độ chính xác
Trang 1514
CHƯƠNG 3 ÁP DỤNG GIẢI THUẬT TÌM KIẾM
CỘNG ĐỒNG CHỒNG CHÉO VÀO BÀI TOÁN
KPQT 3.1 Phương pháp nghiên cứu
3.1.1 Tính hiệu quả của đề xuất: Giải quyết vấn
đề kích thước dữ liệu lớn; Đưa ra kết quả có độ tin cậy
cao; Trích lọc thông tin có giá trị
3.1.2 Định dạng dữ liệu đầu vào các độ đo:
Nhật ký sự kiện định dạng XES, độ đo Handover of
work, giải thuật phân vùng theo cạnh của Ahn et al., 2010
3.2 Giải pháp thực hiện
3.2.1 Đề xuất mô hình giải quyết:
Hình 3.2 Mô hình áp dụng giải tìm kiếm cộng đồng vào KPQT
(1)
(4) (3)
(5) (6)
Trang 1615
3.2.2 Các bước thực hiện:
Bước 1 Thu thập dữ liệu:
+ 03 tệp định dạng XES tương ứng với 03
chương của cuốn sách Process Mining của tác giả Will
M.P Van der Alast trên http://www.processmining.org
+ 01 tệp định dạng XES trên trang
http://data.4tu.nl
Bước 2 Xử lý và làm sạch dữ liệu:
Trong giới hạn luận văn, những thông tin không
chứa thông tin người thực hiện hoạt động nên sẽ không
được sử dụng để khai thác Do đó, Tác giả đã loại bỏ loại
thông tin này bằng phương pháp thủ công
Bước 3 Xây dựng ma trận mối quan hệ:
Gọi i, j là những người tham gia vào quy trình;
𝑀ℎ là ma trận sinh ra sau khi sử dụng độ đo
Handover of work;
𝑀ℎ 𝑖, 𝑗 là một phần tử của ma trận 𝑀ℎ Ta có:
𝑀ℎ 𝑖, 𝑗 = số lần người i chuyển giao nhiệm vụ j và ngược lại
0 người 𝑖 và j không có sự chuyển giao nhiệm vụ
Bước 4 Cách thức lưu đồ thị trong tệp txt:
Hình 3.5 Định dạng dữ liệu txt lưu đồ thị
Bước 5 Xây dựng ma trận kề:
Trang 1716 Gọi 𝑀𝑎 là ma trận đỉnh kề được xây dựng danh
cạnh có giá trị D<=0, thường không có giá trị để khai
thác nên loại bỏ Trong đó:
D=1: cộng đồng được phát hiện là một đồ thị
đầy đủ; D=0: mỗi cộng đồng là một cây; D<0: các đồ thị
con trong cộng đồng không có sự kết nối; D= - 23: là giá
trị nhỏ nhất của một cộng đồng có hai cạnh không kết
nối
+ Đối với cộng đồng đỉnh: Những cộng đồng có
giá trị khai thác là những cộng đồng không tầm thường
(Nontrivial community) [4], có chứa từ ba đỉnh trở lên
Sue
Trang 1817
CHƯƠNG 4 KẾT QUẢ THỰC NGHIỆM, ĐÁNH
GIÁ VÀ KẾT LUẬN
4.1 Công cụ, môi trường thực nghiệm
4.1.2 Phần mềm và tập dữ liệu đầu vào:
- Quá trình xây dựng chương trình:
+ Tải công cụ lập trình NetBeans IDE 8.0.2 và cài đặt
+ Tạo chương trình: Viết mã nguồn tiền xử lý tệp XES nhằm xây dựng mô hình MXH là đồ thị vô hướng, không trọng số Xây dựng ma trận kề từ danh sách đỉnh, diễn dưới dạng ma thưa (Sparse Matrix) làm đầu vào cho chương trình Link Clustering
4.2 Chương trình thực nghiệm
Các thông tin được hiển thị trong chương trình
thực nghiệm: thông tin đầu vào của tệp xes bao gồm số
trường hợp, số sự kiện, số người tham gia vào quy trình; hiển thị danh sách đỉnh kề bao gồm ký hiệu các đỉnh, số lượng đỉnh và cạnh; hiển thị danh sách các cộng đồng tìm thấy bao gồm danh sách các cộng đồng mà các đỉnh
thuộc vào
4.3 Kết quả thực nghiệm và đánh giá
Sau khi cài đặt chương trình, luận văn đã thực hiện thử nghiệm với 04 tệp xes Kết quả cụ thể như sau:
độ trun
g bình