1. Trang chủ
  2. » Thể loại khác

CÁC ĐỘ ĐO TRONG PHÂN CỤM VÀ ÁP DỤNG VÀO PHÁT HIỆN MÔ HÌNH TỔ CHỨC TRONG KHAI PHÁ QUÁ TRÌNH KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin

50 25 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 1,4 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Dựa trên quá trình tìm hiểu một số nghiên cứu về việc phát hiện mô hình tổ chức [4, 9, 10, 12], kết hợp với việc tìm hiểu một số thuật toán phân cụm quan trọng và các phương pháp đánh gi

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Huy Thành

CÁC ĐỘ ĐO TRONG PHÂN CỤM VÀ ÁP DỤNG

VÀO PHÁT HIỆN MÔ HÌNH TỔ CHỨC

TRONG KHAI PHÁ QUÁ TRÌNH

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Hà Nội - 2014

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Huy Thành

CÁC ĐỘ ĐO TRONG PHÂN CỤM VÀ ÁP DỤNG VÀO PHÁT HIỆN MÔ HÌNH TỔ CHỨC TRONG KHAI PHÁ QUÁ TRÌNH

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS TS Hà Quang Thụy

Cán bộ đồng hướng dẫn: ThS Lê Hoàng Quỳnh

Hà Nội - 2014

Trang 3

VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Huy Thanh Pham

EVALUATION MEASURES FOR CLUSTERING AND USING TO DISCOVER ORGANIZATIONAL

MODEL IN PROCESS MINING

Major: InformationTechnology

Supervisor: Assoc Prof Quang Thuy Ha

Co-Supervisor: Master Hoang Quynh Le

HA NOI - 2014

Trang 4

LỜI CẢM ƠN

Trước tiên, tôi xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo PGS TS Hà Quang Thụy và ThS Lê Hoàng Quỳnh, những người đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ tôi trong suốt quá trình thực hiện đề tài khóa luận

Tôi xin gửi lời cảm ơn sâu sắc tới các thầy cô trong Khoa Công nghệ thông tin đã truyền đạt kiến thức quý báu cho tôi trong suốt bốn năm vừa qua, những kiến thức tôi nhận được trên giảng đường sẽ là hành trang quan trọng giúp tôi vững bước trong tương lai

Tôi cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh viên trong phòng thí nghiệm KT-Sis lab đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt nghiệp khóa luận

Tôi gửi lời cảm ơn tới tập thể lớp K55CD và K55CLC đã ủng hộ, khích lệ và luôn sát cánh bên tôi trong suốt quá trình học tập và rèn luyện tại trường

Cuối cùng,tôi muốn gửi lời cảm ơn sâu sắc tới bạn bè, người thân đặc biệt là cha

mẹ và em gái tôi, những người luôn ủng hộ con đường tôi đã lựa chọn, giúp đỡ và động viên tôi vượt qua những khó khăn trong cuộc sống

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 13 tháng 05 năm 2014

Sinh viên

Phạm Huy Thành

Trang 5

TÓM TẮT

Theo W.M.P Van der Aalst, 2011 [10], khai phá quá trình trong những năm gần đây đang

nổi lên như một lĩnh vực khoa học mới tập trung vào việc phân tích các quá trình bằng việc sử

dụng dữ liệu sự kiện Lĩnh vực này đang thu hút được sự quan tâm từ rất nhiều các nhà khoa học

trên thế giới Tuy nhiên hầu hết những tiếp cận này mới chỉ quan tâm và tập trung vào việc phát

hiện khía cạnh luồng điều khiển mà bỏ qua một số khía cạnh quan trọng khác trong đó nổi bật là

khía cạnh tổ chức [9] Một trong những bài toán quan trọng trong khai phá khía cạnh tổ chức là

bài toán phát hiện mô hình tổ chức

Dựa trên quá trình tìm hiểu một số nghiên cứu về việc phát hiện mô hình tổ chức [4, 9, 10,

12], kết hợp với việc tìm hiểu một số thuật toán phân cụm quan trọng và các phương pháp đánh

giá phân cụm [1, 2, 5, 6, 7, 8], khóa luận trình bày về các độ đo trong phân cụm và việc áp dụng

chúng vào bài toán phát hiện mô hình tổ chức trong khai phá quá trình Đồng thời, khóa luận

cũng đưa ra mô hình giải quyết bài toán với một số độ đo phân cụm được đề cập và tiến hành cài

đặt thực nghiệm trên bộ dữ liệu mẫu từ ProM Kết quả thực nghiệm cho thấy mô hình tổ chức

ứng với giá trị K = 8 là phù hợp nhất Khi đó giá trị các độ đo Silhouette, Dunn, Modularity và

CPLw đạt giá trị tương ứng là 0.84327, 1.90155, 0.01075 và 0.04619

Từ khóa: Khai phá quá trình, phát hiện mô hình tổ chức, độ đo chất lượng phân cụm

Trang 6

ABSTRACT

According to W.M.P Van der Aalst, 2011 [10], process ming, recently, emerged as a new research field that focuses on the analysis of processes using event data This field are attracting attention of many scentists around the world How ever, most of these approach only focused on discovering event-control aspect and neglected some other important aspects, especially organizational aspect [9] One of important problem in organiztional aspect mining is discovering organizational model

Based on learning some researches of discovering organizational structure [4, 9, 10, 12], associating knowledge about some important clustering algorithms and some clustering evaluation measures [1, 2, 5, 6, 7, 8], this thesis presents some clustering evaluation measures and using them to discover organiztional model in process mining Also, this thesis proposes solving problem model for some of mentioned measures and implements experience on sample data collection from ProM Experience result shows the organizational model which has value K

= 8 is the best In that case, the Silhouette, Dunn, Modularity and CPL w values are 0.84327, 1.90155, 0.01075 and 0.04619 respectively

Key words: Process ming, organiztional model discovering, clustering evaluation measures

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan mô hình giải quyết bài toán phát hiện mô hình tổ chức áp dụng các độ đo trong phân cụm, thực nghiệm áp dụng thuật toán K-medoids và dựa trên các độ

đo phân cụm được trình bày trong khóa luận là do tôi thực hiện dưới dự hướng dẫn của PGS TS Hà Quang Thụy và ThS Lê Hoàng Quỳnh

Tất cả các bài báo, khóa luận, tài liệu, công cụ, phần mềm của các tác giả khác được

sử dụng trong khóa luận này đều được chỉ dẫn tường minh về tác giả và đều có trong danh sách tài liệu tham khảo

Hà Nội, ngày 13 tháng 05 năm 2014

Sinh viên

Phạm Huy Thành

Trang 8

MỤC LỤC

Chương 1

BÀI TOÁN PHÁT HIỆN MÔ HÌNH TỔ CHỨC TRONG KHAI PHÁ QUÁ TRÌNH 2

1.1 Giới thiệu chung về khai phá quá trình 2

1.2 Nhật ký sự kiện 4

1.3 Các bài toán trong khai phá quá trình 6

1.4 Bài toán phát hiện mô hình tổ chức 8

1.5 Tóm tắt chương 1 8

Chương 2 SỬ DỤNG CÁC ĐỘ ĐO ĐỂ ĐÁNH GIÁ CHẤT LƯỢNG PHÂN CỤM TRONG BÀI TOÁN PHÁT HIỆN MÔ HÌNH TỔ CHỨC 9

2.1 Cấu trúc cộng đồng trong mạng lưới tổ chức 9

2.1.1 Khái niệm cấu trúc cộng đồng 9

2.1.2 Các độ đo khoảng cách trong mạng xã hội 10

2.1.3 Các cách tính khoảng cách giữa các tổ chức 10

2.2 Các thuật toán phân cụm trong phát hiện mô hình tổ chức 12

2.2.1 Thuật toán AHC 12

2.2.2 Thuật toán K-means 13

2.2.3 Thuật toán K-medoids (PAM) 14

2.3 Các độ đo chất lượng phân cụm 14

2.3.1 Độ đo bóng (Silhouette) 15

2.3.2 Độ đo Davies – Bouldin 16

2.3.3 Độ đo Dunn 16

2.3.4 Độ đo Modularity 17

2.3.5 Độ đo theo độ dài đường đi CPL ( Cluster Path Lengths) 17

2.4 Tóm tắt chương 2 22

Chương 3 MÔ HÌNH GIẢI QUYẾT BÀI TOÁN 23

Trang 9

3.1 Phát biểu bài toán phát hiện mô hình mạng tổ chức từ nhật ký sự kiện 23

3.2 Mô hình giải quyết bài toán 24

3.3 Phân tích mô hình 24

3.3.1 Thu thập nhật ký sự kiện 24

3.3.2 Sử dụng thuật toán K-medoids phát hiện mô hình tổ chức 26

3.4 Tóm tắt chương 3 27

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 28

4.1 Mô tả thực nghiệm 28

4.1.1 Mô tả dữ liệu 28

4.1.2 Các công cụ và phần mềm sử dụng 29

4.1.3 Môi trường thực nghiệm ( Phần cứng và hệ điều hành ) 30

4.1.4 Các module chính trong chương trình 30

4.2 Kết quả thực nghiệm và đánh giá 31

4.2.1 Kết quả thực nghiệm 31

4.2.2 Đánh giá kết quả thực nghiệm 36

KẾT LUẬN VÀ ĐỊNH HƯỚNG NGHIÊN CỨU TIẾP THEO 38

Trang 10

DANH SÁCH HÌNH VẼ

Hình 1 1 Ngữ cảnh khai phá quá trình 3

Hình 1 2 Ba bài toán trong khai phá quá trình dưới dạng input và output bao gồm: Phát hiện quá trình (a), Kiểm tra sự phù hợp (b) và Tăng cường mô hình (c) 7

Hình 1 3 Một nhật ký sự kiện và 2 mô hình quá trình được xây dựng từ nó dưới dạng lưới Petri 6

Hình 2 1 Cấu trúc cộng đồng trong mạng xã hội 9

Hình 2 2 Cách tính khoảng cách giữa hai cụm theo single linkage 11

Hình 2 3 Cách tính khoảng cách giữa hai cụm theo complete linkage 11

Hình 2 4 Cách tính khoảng cách giữa hai cụm theo average linkage 12

Hình 2 5 Ví dụ về 3 cụm A, B, C với số lượng và cách liên kết bên trong khác nhau 19

Hình 3 1 Bài toán phát hiện mô hình tổ chức dưới dạng input và output 23

Hình 3 2 Mô hình giải quyết bài toán phát hiện mô hình tổ chức sử dụng các độ đo phân cụm 24

Hình 3 3 Meta-model của chuẩn XES 25

Hình 4 1 Một phần được trích ra từ nhật ký sự kiện trong thực nghiệm 29

Hình 4 2 Mô hình mạng xã hội mô tả quan hệ giữa các cá nhân 33

Hình 4 3 Hình mô tả các module trong chương trình 31

Hình 4 4 Biểu đồ giá trị Silhouette 36

Hình 4 5 Biểu đồ giá trị Dunn 36

Hình 4 6 Biểu đồ giá trị Modularity 36

Hình 4 8 Biểu đồ giá trị CPL w 36

Hình 4 8 Kết quả mô hình tổ chức ứng với K = 8 37

Trang 11

DANH SÁCH BẢNG BIỂU

Bảng 1 1 Một đoạn trong nhật ký sự kiện mỗi dòng tương ứng với mỗt sự kiện 5

Bảng 4 1 Bảng thống kê môi trường thực nghiệm (phần cứng và HĐH) 30

Bảng 4 2 Một phần trích từ bảng ma trận kề theo độ đo WorkingTogether 32

Bảng 4 3 Bảng mô hình tổ chức tương ứng với giá trị K ( số lượng cụm) 35

Trang 12

LỜI MỞ ĐẦU

Ngày nay, hầu hết các tổ chức đều ghi lại quá trình kinh doanh của mình dưới dạng

các nhật ký sự kiện Những nhật ký này có thể được sử dụng để phát hiện khía cạnh luồng điều khiển bằng các kỹ thuật phát hiện quá trình nhằm đưa ra các mô hình quá trình để

phân tích và chẩn đoán nhằm cải thiện quá trình sản xuất Tuy nhiên, trong thực tế, các quá trình không hoàn toàn bị điều khiển bởi các hệ thống mà thay vào đó, nó luôn có sự tham gia của con người và những hành vi của con người cũng đóng vai trò rất quan trọng đối với hiệu suất của các quá trình Do đó việc khai thác vào khía cạnh tổ chức như việc phát hiện cấu trúc tổ chức hay mạng lưới xã hội sẽ giúp những người quản lý nắm rõ được cấu trúc tổ chức và giúp cải thiện quá trình kinh doanh

Trong khóa luận này, chúng tôi tập trung vào khía cạnh tổ chức nhưng cụ thể là bài toán phát hiện mô hình tổ chức từ nhật ký sự kiện dựa trên việc áp dụng các độ đo phân cụm khác nhau Việc áp dụng các độ đo này có thể cho phép chúng ta có một đánh giá tốt hơn về kết quả của bài toán và đưa ra mô hình tổ chức phù hợp nhất

Nội dung của khóa luận được chia thành các chương sau:

Chương 1: Giới thiệu khái quát về lĩnh vực khai phá quá trình, khái niệm về nhật

ký sự kiện và bài toán phát hiện mô hình tổ chức từ nhật ký sự kiện trong khai phá quá

trình

Chương 2: Chương này trình bày về việc sử dụng các độ đo phân cụm vào bài toán

phát hiện mô hình tổ chức bao gồm việc giới thiệu về cấu trúc cộng đồng trong mạng tổ chức, một số thuật toán phân cụm và các độ đo chất lượng phân cụm tiêu biểu Ngoài ra ,

chúng tôi cũng đưa ra một độ đo đề xuất dựa trên việc chỉnh sửa độ đo CPL (Clusters

Path Length) cho phù hợp với dạng đồ thị có trọng số của mô hình tổ chức

Chương 3: Trinh bày về mô hình giải quyết bài toán và phân tích các bước trong

mô hình giải quyết Ngoài ra, chúng tôi sẽ trình bày những vấn đề mắc phải và cách giải quyết chúng

Chương 4: Trình bày thực nghiệm với bộ dữ liệu mẫu và đưa ra đánh giá với kết

quả thu được

Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển

tương lai

Trang 13

Chương 1 BÀI TOÁN PHÁT HIỆN MÔ HÌNH TỔ CHỨC

TRONG KHAI PHÁ QUÁ TRÌNH

1.1 Tổng quan về khai phá quá trình

Trong thập kỉ vừa qua, khai phá quá trình nổi lên như là một lĩnh vực nghiên cứu mới tập trung vào phân tích quá trình sử dụng dữ liệu sự kiện Một trong những nguyên nhân chính khiến khai phá quá trình ngày càng được quan tâm là bởi vì ngày càng có nhiều dữ liệu sự kiện được ghi nhận lại, do đó cung cấp thông tin ngày càng chi tiết về

lịch sử của quá trình Mục tiêu của khai phá quá trình là nhằm phát hiện, giám sát và cải

thiện các quá trình thực tế bằng cách trích lọc tri thức từ các nhật ký sự kiện đã có sẵn

trong các hệ thông thông tin ngày nay [11] Các ứng dụng của khai phá quá trình đã được

áp dụng vào rất nhiều miền ứng dụng khác nhau, trong đó nổi bật nhất là quản lý quá trình kinh doanh

Các kỹ thuật khai phá dữ liệu cổ điển như phân lớp, phân cụm, học luật kết hợp, khai phá dãy không tập trung vào các mô hình quá trình kinh doanh và thường chỉ được

sử dụng để phân tích một bước cụ thể trong quá trình tổng thể [11] Trong khi đó, khai

phá quá trình tập trung vào các quá trình end-to-end và ngày càng phát triển bởi sự tăng

lên mạnh mẽ của dữ liệu sự kiện cũng như sự xuất hiện của các kỹ thuật phát hiện quá trình và kiểm tra sự phù hợp mới

Sự quan tâm tăng lên trong phân tích quá trình đã thúc đẩy việc thành lập Đội đặc

nhiệm IEEE về khai phá quá trình (IEEE Task Force on Process Mining: IEEE-TFoPM)

Gần đây Đội đặc nhiệm về khai phá quá trình đã đưa ra tuyên ngôn về khai phá quá trình Tuyên ngôn này được hỗ trợ bởi 53 tổ chức và 77 chuyên gia về khai phá quá trình [11]

Hình 1.1 cho thấy khai phá quá trình thiết lập các liên kết giữa các quá trình thực

tế và dữ liệu ở một bên và các mô hình quá trình ở bên kia Hệ thống thông tin ngày nay phải đối mặt với sự gia tăng không ngừng cả về mặt số hóa và vật lý ( công nghệ vật liệu) Nhất là về mặt số hóa, hệ thống thông tin ngày nay ghi lại nhật ký với số lượng rất lớn các sự kiện Các hệ thống WFM ( Workforce Management ) như Staffware hay Cosa,

Trang 14

Hình 1 1 Ngữ cảnh khai phá quá trình [11]

các hệ thống BPM ( Business Process Management ) như BPM|One của Pallas Athena, SmartBPM của Pegasystems, cung cấp một lượng thông tin chi tiết và rất lớn về các hoạt động đã được thực hiện trong quy trình sản xuất kinh doanh Và với lượng thông tin

vô tận chứa các tri thức hữu ích đó, yêu cầu đặt ra là làm sao chúng ta có thể sử dụng chúng để thu nhận được những thông tin cần thiết và hỗ trợ, cải thiện thực tiễn quá trình sản xuất kinh doanh Từ những thực tế đó, ba bài toán của khai phá quá trình theo W.M.P

Van der Aalst [10] bao gồm: phát hiện quá trình, kiểm tra sự phù hợp và tăng cường mô

hình cho phép chúng ta khai thác các tài nguyên tri thức đó và sử dụng chúng cho cải

thiện sản xuất kinh doanh Nội dung cụ thể của 3 bài toán này sẽ được trình bày ở phần

sau, tuy nhiên trước hết chúng tôi xin đề cập đến khái niệm nhật ký sự kiên – điểm xuất

phát cho mọi công việc trong khai phá quá trình

Trang 15

1.2 Nhật ký sự kiện

Như đã nói ở phần trước, nhật ký sự kiện là dữ liệu đầu vào cho khai phá quá trình, bao gồm mọi bài toán của nó Nhật ký sự kiện là kết quả ghi nhận lại của hệ thống khi có một người dùng nào đó tương tác với hệ thống Một nhật ký sự kiện bao gồm nhiều trường hợp Mỗi trường hợp gồm nhiều các sự kiện xảy ra nối tiếp nhau Các sự kiện trong trường hợp khác nhau có thể xảy ra xen kẽ nhau Trường hợp và sự kiện có nhiều thuộc tính

Từ cấu trúc nhật ký sự kiện trong Bảng 1.1., có thể đưa ra nhận định rằng một quá

trình ( process ) có thể bao gồm nhiều trường hợp (cases), chúng thể hiện một phiên làm việc của người dùng trong hệ thống Một trường hợp có thể chứa nhiều sự kiện ( events ) được sắp xếp theo trình tự, mỗi sự kiện chứa mốt số thuộc tính ( attriubutes) Chẳng hạn như ở ví dụ trên, các trường hợp được phân biệt bởi các Case id ( 1,2,3 ) và các sự kiện bên trong các trường hợp được phân biệt bằng các Event id Mỗi sự kiện có các thuộc tính như mốc thời gian (Timestamp), tên hành động (Activity), người thực hiện (Resource) hay chi phí (Cost), Tuy vậy, không phải lúc nào tất cả các sự kiện đều chứa

cùng một tập thuộc tính Các sự kiện liên quan đến cùng một hoạt động thì có cùng tập các thuộc tính

Một cách tổng quát hóa nhật ký sự kiện về nhật ký sự kiện đơn giản được W.M.P Van der Aalst định nghĩa trong [10] theo toán học như sau:

 Cho A là một tập những hành động trong nhật ký sự kiện, một vết hay trường

hợp(trace) là một chuối các hành động, tức là σ Một nhật ký sự kiện đơn giản L là một đa tập (multi-set) trên tập A tức L B( )

Trong đó khái niệm đa tập trên tập A có thể hiểu như là nhật ký sự kiện đơn giản L

là một tập hợp của các vết σ, trong đó mỗi dấu vết σ được thể hiện kèm chỉ số số lần dấu

vết đó được thực thi trong nhật ký sự kiện

Ví dụ: A = {a,b,c,d,e} có ba vết = (a,b,c,d) xảy ra 3 lần, = ( a,c,b,d) xảy ra 2

lần , và = (a,e,d) xảy ra 1 lần Khi đó nhật ký sự kiện L được biểu diễn dưới dạng như

sau:

L = [ (a,b,c,d)3, (a,c,b,d)2, (a,e,d)]

Tuy nhiên, có thể dễ dàng cách biểu diễn nhật ký theo dạng như vậy chỉ quan tâm vào khía cạnh luồng sự kiện và đã bỏ qua các thuộc tính của sự kiện khác

Trang 16

Bảng 1 1.Một đoạn trong nhật ký sự kiện mỗi dòng tương ứng với mỗt sự kiện [10]

Nhật ký sự kiện được dùng để sản xuất 3 kiểu khai phá quá trình bao gồm : phát

hiện quá trình, kiểm tra sự phù hợp và tăng cường mô hình Nội dung cụ thể của 3 bài

toán này sẽ được trình bày ở phần tiếp theo

Trang 17

1.3 Các bài toán trong khai phá quá trình

Theo van der Aalst [10] khai phá quá trình bao gồm 3 bài toán: phát hiện quá trình,

kiểm tra sự phù hợp và tăng cường mô hình quá trình

Phát hiện quá trình

Phát hiện quá trình là bài toán đầu tiên trong khai phá quá trình Kết quả của bài toán này là một mô hình quá trình được biểu diễn bằng một ngôn ngữ mô hình hóa (dưới

dạng BPMN, BPEL, UML, lưới Petri, ) Điểm xuất phát của bài toán là nhật kí sự kiện

“đơn giản”, tức là từ nhật kí sự kiện ban đầu, ta lược bỏ đi những thuộc tính không cần thiết cho việc phát hiện mô hình Hình dưới đây mô tả một nhật ký sự kiện và hai mô hình quá trình tiềm năng nhằm mô tả hành vi được quan sát của nó dưới dạng lưới Petri

Hình 1 2 Một nhật ký sự kiện và 2 mô hình quá trình được xây dựng từ nó dưới

dạng lưới Petri [11]

Trang 18

Kiểm tra sự phù hợp

Bài toán thứ hai là bài toán kiểm tra sự phù hợp của mô hình Ở bài toán này một

mô hình quá trình hiện có được so sánh với một nhật ký sự kiện của cùng một quá trình Quá trình kiểm tra sự phù hợp có thể được dùng để kiểm tra xem quá trình thực tế (hành

vi quan sát được) - được ghi lại trong một nhật ký, có thống nhất với mô hình (hành vi được mô hình hóa) và ngược lại

Tăng cường mô hình

Cuối cùng là bài toán tăng cường mô hình Bài toán này hướng tới việc cải tiến hay

mở rộng mô hình bằng cách khai thác các khía cạnh khác trong nhật kí sự kiện mà trước

đó đã bị lược bỏ trong bài toán phát hiện quá trình Chẳng hạn như thời gian, nguồn của

sự kiện, v.v…

Hình 1 3 Ba bài toán trong khai phá quá trình dưới dạng input và output bao gồm:

Phát hiện quá trình (a), Kiểm tra sự phù hợp (b) và Tăng cường mô hình (c) [10]

Trang 19

1.4 Bài toán phát hiện mô hình tổ chức

Hầu hết những phương pháp nghiên cứu khai phá quá trình đều tập trung vào việc phát hiện luồng điều khiển, xây dựng một mô hình quá trình dựa trên nhật ký sự kiện trong khi các khía cạnh khác thường bị bỏ qua, chẳng hạn khía cạnh: thời gian liên quan

đến thuộc tính thời gian (timestamp), tổ chức liên quan đến thuộc tính nguồn (resource),

Tuy nhiên, trong thực tế, các quá trình không hoàn toàn bị điều khiển bởi các hệ thống mà thay vào đó, nó luôn có sự tham gia của con người và những hành vi của con người cũng đóng vai trò rất quan trọng đối với hiệu suất của các quá trình Do đó việc khai thác vào khía cạnh tổ chức như việc phát hiện cấu trúc tổ chức hay mạng lưới xã hội cũng đóng một vai trò hết sức quan trọng, bởi nó sẽ giúp những người quản lý nắm rõ được cấu trúc

tổ chức và giúp cải thiện quá trình kinh doanh [9] Đó là lý do bài toán khai phá khía cạnh

tổ chức được đưa ra

Một trong những vấn đề quan trọng nhất trong khai phá khía cạnh tổ chức là việc phát hiện cấu trúc tổ chức để phục vụ cho việc phân tích Cấu trúc tổ chức sẽ được phát hiện dưới dạng các mô hình mạng lưới thể hiện mối quan hệ giữa các cá nhân, các nhóm, với nhau

1.5 Tóm tắt chương 1

Trong chương này, khóa luận đã giới thiệu một cái nhìn khái quát về khai phá quá trình, bài toán phát hiện mô hình tổ chức trong khai phá quá trình và các khái niệm liên quan Một trong những khái niệm quan trọng cũng được khóa luận đề cập tới trong

chương này là nhật ký sự kiện Nhật ký sự kiện là đầu vào cho mọi bài toán trong khai

phá quá trình, bao gồm cả bài toán phát hiện mô hình tổ chức

Trong chương tiếp theo, khóa luận sẽ trình bày chi tiết về các độ đo trong phân cụm

và sử dụng chúng vào bài toán phát hiện mô hình tổ chức

Trang 20

Chương 2

SỬ DỤNG CÁC ĐỘ ĐO ĐỂ ĐÁNH GIÁ CHẤT LƯỢNG PHÂN CỤM TRONG BÀI TOÁN PHÁT

HIỆN MÔ HÌNH TỔ CHỨC

2.1 Cấu trúc cộng đồng trong mạng lưới tổ chức

2.1.1 Khái niệm cấu trúc cộng đồng

Hình dưới đây mô tả cấu trúc cộng đồng trong mạng xã hội

Hình 2 1 Cấu trúc cộng đồng trong mạng xã hội [3]

Các cộng đồng được đại diện bởi các hình tròn.Các node cùng một cộng đồng có mối liên kết chặt chẽ với nhau bởi các liên kết có trọng số cao và liên kết ra bên ngoài bởi các liên kết có trọng số thấp được thể hiện trên hình vẽ bằng đường nối giữa các node đậm hay nhạt

Trang 21

2.1.2 Các độ đo khoảng cách trong mạng xã hội

Handover of work metric:

Độ đo này xác định mức độ chuyển giao công việc giữa các cá nhân bằng việc trích lọc từ nhật ký sự kiện theo thứ tự thực hiện công việc trong từng trường hợp, trong đó hành động đầu tiên được hoàn thành bởi một cá thể nào đó, sau đó quy trình được tiếp tục với hành động tiếp theo và được hoàn thành, cứ như vậy một trường hợp được hoàn thành với sự chuyển giao công việc giữa các cá thể

Working together metric:

Hai cá nhân A và B làm việc cùng nhau khi họ thực hiện các hành động trong cùng một trường hợp Độ đo này đơn giản chỉ đếm số lượng các trường hợp mà 2 cá nhân làm việc cùng nhau

Similar task metric:

Kỹ thuật này tập trung vào hành động chung, mục tiêu của kỹ thuật này là xác định xem các cá thể thực hiện bao nhiêu hành động giống nhau trong nhật ký sự kiện Để thực hiện kỹ thuật này, mỗi một cá thể sẽ được thống kê số lần thực hiện các hành động cụ thể, sau đó các cá thể được so sánh với nhau để tìm ra sự tương đồng

Reassignment metric:

Kỹ thuật này phát hiện mức độ ủy thác hành động từ cá nhân này đến cá nhân khác

Ví dụ như nếu cá thể A thường ủy thác công việc cho cá thể B và không có việc B ủy thác công việc cho A thì có thể A là cấp trên của B

2.1.3 Các cách tính khoảng cách giữa các tổ chức

Khoảng cách giữa các tổ chức ( hay các cụm ) được tính dựa trên khoảng cách giữa

Trang 22

các cá nhân bên trong chúng Có ba cách tính khoảng cách thường được sử dụng là: single linkage, complete linkage và average linkage

Single linkage:

Khoảng cách giữa hai cụm được tính bằng khoảng cách giữa cặp phần tử gần nhất của chúng

Hình 2 2.Cách tính khoảng cách giữa hai cụm theo single linkage

Ví dụ như trên hình: khoảng cách giữa hai cụm sẽ được tính bằng khoảng cách giữa hai phần tử A3 và B1

Trang 23

Ví dụ như trên hình: khoảng cách giữa hai cụm sẽ được tính bằng khoảng cách giữa hai phần tử A2 và B2

Average linkage:

Khoảng cách giữa hai cụm được tính bằng trung bình của tất cả các khoảng cách của các phần từ giữa hai cụm

Hình 2 4.Cách tính khoảng cách giữa hai cụm theo average linkage

Ví dụ như trên hình: khoảng cách giữa hai cụm sẽ được tính bằng trung bình khoảng cách giữa tất cả các phần tử giữa hai cụm

2.2 Các thuật toán phân cụm trong phát hiện mô hình

tổ chức

Mặc dù có rất nhiều thuật toán phân cụm với các cách tiếp cận khác nhau, tuy nhiên

theo [10], hai thuật toán thông dụng thường được sử dụng là AHC và K-means Sau đây

tôi xin trình bày nội dung của hai thuật toán này và một biến thể của thuật toán K-means

là K-medoids sẽ được dùng cho nội dung thực nghiệm ở chương sau

2.2.1 Thuật toán AHC

Thuật toán AHC là một trong hai loại của thuật toán phân cụm phân cấp bao gồm:

Trang 24

 Tích đống (Agglomerative hierarchical clustering hay AHC ) là hướng tiếp cận từ

dưới lên với khởi tạo ban đầu mỗi phần tử thuộc về một cụm riêng của nó và tiến hành gộp dần các phần tử lại trong quá trình lặp

Phân chia (Divisive hierarchical clustering ) là hướng tiếp cận từ trên xuống,

khởi tạo ban đầu với chỉ một cụm và tiến hành chia nhỏ cụm đó để tạo các cụm mới trong quá trình lặp

Tuy nhiên, với mục tiêu phát hiện mô hình tổ chức từ các đơn vị cá thể ( người thực hiện) , thuật toán AHC sẽ hữu ích hơn thuật toán còn lại Nội dung cụ thể của thuật toán như sau [3]:

Cho trước mạng gồm N node:

Bước 1.Mỗi node được coi như là một cụm ( N cụm gồm 1 phần tử )

Bước 2 Tìm cặp cụm gần nhau nhất và gộp chung chúng thành một cụm

Bước 3.Tính lại khoảng cách giữa cụm mới với các cụm cũ

Bước 4 Lặp lại bước 2 và 3 cho đến khi tất cả các phần tử đã được gộp lại thành

một cụm duy nhất N phần tử hoặc đã đạt số lượng cụm yêu cầu

2.2.2 Thuật toán K-means

Thuật toán K-means cũng là một thuật toán quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của nó là tìm cách phân nhóm các đối tượng (

objects ) cho trước vào K cụm ( K là số cụm và được xác định trước ) sao cho tổng bình

phương khoảng cách giữa các đối tượng đến tâm nhóm ( centroid ) là nhỏ nhất.

Nội dung thuật toán cụ thể như sau [2] :

Cho trước mạng lưới gồm N node và số cụm k

Bước 1 Khởi tạo: Chọn ra ngẫu nhiên k node làm trọng tâm {c i } i = 1, , k

Bước 2 Với mọi node, tính khoảng cách giữa nó với các trọng tâm của các cụm

Gán nó vào cụm có trọng tâm gần nó nhất

Bước 3 Cập nhật lại các trọng tâm mới

Trang 25

=

∑ ∊

Bước 4 Lặp lại bước 2 và 3 cho đến khi không có sự thay đổi giữa các cụm

2.2.3 Thuật toán K-medoids (PAM)

Thuật toán này là một biến thể của K-means nhưng phù hợp hơn cho việc phát hiện

mô hình tổ chức bởi chỉ phụ thuộc vào khoảng cách giữa các node

Nội dung thuật toán [1]:

Cho trước mạng gồm N node và số cụm k:

Bước 1 Khởi tạo: Chọn ngẫu nhiên k phần tử từ N node làm các trọng tâm

Bước 2.Gán mỗi node với cụm có trọng tâm gần nó nhất

Bước 3 Với mỗi trọng tâm M

Bước 3.1.Với mỗi node không phải trọng tâm O

Bước 3.2.Hoán đổi M và O và tính toán lại hàm mục tiêu cho sự hoán

chuyển này

Bước 4 Chọn sự hoán chuyển có hàm mục tiêu đạt nhỏ nhất

Bước 5.Lặp lại các bước từ 2 đến 4 cho đến khi không có sự thay đổi về trọng tâm

Hàm mục tiêu được tính như sau:

2.3 Các độ đo chất lƣợng phân cụm

Theo [5] và [8], các độ đo chất lượng phân cụm được phân thành 3 loại là:

Đánh giá trong ( internal evaluation): Kết quả phân cụm được đánh giá dựa trên

chính dữ liệu được phân cụm bằng cách sử dụng các đại lượng đánh giá sự gắn kết cụm như mật độ ( density), khoảng cách giữa các phần tử bên trong cụm hay khoảng cách giữa các cụm với nhau, Hướng tiếp cận của loại này dựa trên tiêu

Ngày đăng: 06/01/2021, 07:10

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Alan P. Reynolds, Graeme Richards, Victor J. Rayward-Smith (2004): The Application of K-Medoids and PAM to the Clustering of Rules. IDEAL : 173-178 [2] Anil K. Jain: (2010) Data clustering: 50 years beyond K-means. PatternRecognition Letters 31(8): 651-666 Sách, tạp chí
Tiêu đề: IDEAL" : 173-178 [2] Anil K. Jain: (2010) Data clustering: 50 years beyond K-means. "Pattern "Recognition Letters
Tác giả: Alan P. Reynolds, Graeme Richards, Victor J. Rayward-Smith
Năm: 2004
[3] Christian W. Günther and Eric Verbeek (2012). XES: Standard Definition (Version 1.3). Technical Report, Eindhoven University of Technology Sách, tạp chí
Tiêu đề: Technical Report
Tác giả: Christian W. Günther and Eric Verbeek
Năm: 2012
[4] Claudia Sofia da Costa Alves(2010): Social Network Analysis for Business Process Discovery. Master Thesis, the Technical University of Lisbon Sách, tạp chí
Tiêu đề: Master Thesis
Tác giả: Claudia Sofia da Costa Alves
Năm: 2010
[5] Darius Pfitzner, Richard Leibbrandt, David M. W. Powers (2009): Characterization and evaluation of similarity measures for pairs of clusterings.Knowl. Inf. Syst.19(3): 361-394 Sách, tạp chí
Tiêu đề: Knowl. Inf. Syst
Tác giả: Darius Pfitzner, Richard Leibbrandt, David M. W. Powers
Năm: 2009
[7] Faraz Zaidi, Daniel Archambault, Guy Melanỗon (2010): Evaluating the Quality of Clustering Algorithms Using Cluster Path Lengths. ICDM 2010: 42-56 Sách, tạp chí
Tiêu đề: ICDM 2010
Tác giả: Faraz Zaidi, Daniel Archambault, Guy Melanỗon
Năm: 2010
[8] Maria Halkidi, Yannis Batistakis, Michalis Vazirgiannis (2001): On Clustering Validation Techniques. J. Intell. Inf. Syst. 17(2-3): 107-145 Sách, tạp chí
Tiêu đề: J. Intell. Inf. Syst
Tác giả: Maria Halkidi, Yannis Batistakis, Michalis Vazirgiannis
Năm: 2001
[9] Minseok Song, Wil M. P. van der Aalst (2008): Towards comprehensive support for organizational mining. Decision Support Systems 46(1): 300-317 Sách, tạp chí
Tiêu đề: Decision Support Systems
Tác giả: Minseok Song, Wil M. P. van der Aalst
Năm: 2008
[10] Wil M. P. van der Aalst (2011): Process Mining - Discovery, Conformance and Enhancement of Business Processes. Springer, pp. 7-10, 221-230 Sách, tạp chí
Tiêu đề: Springer
Tác giả: Wil M. P. van der Aalst
Năm: 2011
[11] Wil M. P. van der Aalst (2012): Process Mining:Overview and Opportunities. ACM Trans. Management Inf. Syst. 3(2): 7 Sách, tạp chí
Tiêu đề: ACM Trans. Management Inf. Syst
Tác giả: Wil M. P. van der Aalst
Năm: 2012
[12] Wil M. P. van der Aalst, Hajo A. Reijers, Minseok Song (2005): Discovering Social Networks from Event Logs. Computer Supported Cooperative Work 14(6): 549- 593 Sách, tạp chí
Tiêu đề: Computer Supported Cooperative Work
Tác giả: Wil M. P. van der Aalst, Hajo A. Reijers, Minseok Song
Năm: 2005
[6] Eréndira Rendón, Itzel Abundez, Alejandra Arizmendi and Elvia M. Quiroz (2011): Internal versus External cluster validation indexes. Issue 1, Volume 5. 27-33 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w