1. Trang chủ
  2. » Thể loại khác

Phát triển các kỹ thuật tiên tiến khai phá mẫu từ nhật ký sự kiện, xây dựng phần mềm và khung ứng dụng thử nghiệm tại doanh nghiệp Việt Nam

345 25 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 345
Dung lượng 12,89 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA H À NỘIBÁO CÁO TỔNG KẾT KẾT QUẢ THựC HIỆN ĐÊ TÀI KH&CN CẤP ĐẠI HỌC QUỐC GIA Tên đề tài: Phát triển các kỹ thuât tiên tiến khai phá mẫu từ nhật ký sự kiện, xây dựng pha

Trang 3

ĐẠI HỌC QUỐC GIA H À NỘI

BÁO CÁO TỔNG KẾT KẾT QUẢ THựC HIỆN ĐÊ TÀI KH&CN

CẤP ĐẠI HỌC QUỐC GIA

Tên đề tài: Phát triển các kỹ thuât tiên tiến khai phá mẫu từ nhật ký

sự kiện, xây dựng phan niêm khung ím g dụng thử nghiệm tại doanh nghiệp Việt Nam

Chủ nhiệm đề tài: PGS TS Hà Quang Thụy

Hà N ội, tháng 8-2017

Trang 4

PH Ầ N I T H Ô N G T IN C H U N G

1.1 Tên đề tài: Phát triển các kỹ thuât tiên tiên khai phá mẫu từ nhật ký sự kiện, xây d ự n g phì

niêm và khung ímg dụng thử nghiệm tại doanh nghiệp Việt Nam

1.2 M ã số: QG.15.22

1.3 D an h sách ch ủ trì, th à n h v iê n tham gia th ự c h iệ n đê tài

TT Chức d an h , học vị, họ và tên Đ ơ n vị công tác V ai trò thự c h i ệ n đề tài

1.6 N h ữ n g th ay đổ i so với th u y ế t m in h b an đ ầ u (nếu có): Không

(Vê mục tiêu, nội dung, phưcmg pháp, kêí quả nghiên cứu và tô’chức thực hiện; Nguyên nhân; ) kiên của Cơ quan quản lý)

1.7 T ổng k in h p h í được p h ê d u y ệ t của đề tài: 400 triệu đồng

PH Ầ N II TỔNG Q U A N KẾT QUẢ NGHIÊN c ứ u

1 Đ ặt vân đê

Q uy trinh nghiệp vụ (business process) đã trở thành m ột thành p h ầ n tài nguyên chiiến lược tạo lợi th ế cạnh tran h của các d o an h nghiệp tại các nền kinh tế p h á t triển Theo các b áo cáo

1

Trang 5

cạnh tra n h toàn cầu hàng năm của Diễn đ à n kinh tế th ế giới [WEF1317], tại các nên kinh tế

đ in h h ư ó n g đổi mới (innovation-driven econom y) p h át triển nhất, các doanh nghiệp tạo lập lợi th ế cạnh tranh bằng cách sản xuất ra các sản phẩm độc đáo d ự a trên các công nghệ tiên tiến n h ấ t và/hoặc các quy trình nghiệp vụ tinh vi nhất Khai phá quy trình (process mining),

m ột cầu nối giữa khoa học quy trình và khoa học d ữ liệu, là m ảng ghép cuối cùng đê hoàn thiện to àn bộ chu trình tự động hóa quản lý quy trình n g hiệp vụ (business process

m anagem ent), được coi như ''đ ư a khoa học d ữ liệu tới h àn h đ ộ n g " ("Process M ining: D ata science in Action" [Aalstló]) Khai phá quy trình đã trở th àn h m ột lĩnh vực nghiên cứu - triển khai thu h ú t sự quan tâm đặc biệt của cộng đồng nghiên cứu, m à n ò n g cột là nhóm công tác v ề khai phá quy trình của IEEE (The IEEE Task Force on Process M ining) Cải tiến quy trin h nghiệp vụ nhằm rú t ngắn thời gian hoàn thành dịch v ụ công là m ột m ục tiêu được đặt ra trong bốn nghị quyết của C hính p h ủ về cải thiện m ôi trư ờ n g kinh d o an h , nâng cao năng lực cạnh tra n h quốc gia trong bốn năm vừa qua [NQCP19] N hư vậy, việc nghiên cứu

và triển khai về khai p há quy trình trong đề tài này không chỉ p h ù hợp với xu th ế nghiên cứu - triể n khai về khai phá quy trình trên th ế giới m à còn p h ù h ợ p vói chủ trư ơ n g cải tiến quy trìn h nghiệp vụ của C hính p h ủ ta hiện nay và đây là m ột công việc hết sức cần thiết

Mô h ìn h quy trình nghiệp vụ và khai p h á quy trình nghiệp v ụ liên quan m ậ t thiết tới thái

độ và n ă n g lực thực hiện h àn h động nghiệp vụ của con người, vì vậy, khai p h á quy trình là

m ột nội d u n g nghiên cứu đầy thách thức Trong Tuyên ngôn về khai phá q u y trình, nhóm công tác về khai phá quy trình của IEEE đã chỉ ra mười m ột thách thức chính trong nghiên cứu - triển khai về khai phá quy trình [Manifesto] Ba thách thức trong m ười m ột thách thức đ ó được đề tài này địn h hư ớng tập tru n g nghiên cứu là (i) Xử lý các n h ậ t ký sự kiện

p hứ c tạp bao gồm nhiều tính năng khác nhau, (ii) Xử lý trôi khái niệm (Concept Drift), (iii)

C ung cấp sự hỗ trợ nghiệp vụ; đồng thời, đề tài cũng được đ ịnh hư ớng vào việc th ử nghiệm

áp d ụ n g khai p h á quy trình vào thực tiễn q u ản lý quy trình n g hiệp vụ tại d o an h nghiệp Việt

N am T rên cơ sở khung nhìn m ột vết sự kiện n h ư m ột xâu văn b ản trên bảng chữ các hành động^ m ộ t nhật ký sự kiện là m ột tập các xâu văn bản n h ư thế, đề tài đề xuất m ột giải p h áp

p h ân cụ m nhật ký sự kiện d ự a trên biểu diễn đồ thị vết sự kiện, m ột mô h ình học khái niệm

dự a trê n logic m ô tả đ ể xử lý trôi khái niệm và m ột khung p h á t hiện quy trìn h tương tác bảy giai đoạn Đề tài cũng tiến h àn h khảo sát các quy trình nghiệp vụ tại Tập đoàn điện lực Việt N a m và đ ư a ra m ột số n h ận xét p h ù họp

Nội d u n g còn lại trong báo cáo tổng quan kết quả nghiên cứu này được tổ chức n h ư sau

M ục 2 trìn h bày m ục tiêu nghiên cứu của đề tài về các giải p h áp liên quan tới ba thách thức trên đ â y về khai p há quy trình P hư ơng p h áp nghiên cứu của đề tài được giói thiệu trong

M ục 3 M ục 4 tập trung trình bày về các kết quả nghiên cứu chính của đề tài Đ ầu tiên, m ột

m ô b in h phân cụm nhật ký sự kiện d ự a trên biểu diên đồ thị vết sự kiện đư ợc trình bày Tiếp theo, m ột số kỹ thuật học khái niệm d ự a trên logic m ô tả xử lý vấn đề trôi khái niệm cũng n h ư m ột số thuật toán p h â n lớp văn b ả n trong n h ật ký sự kiện được giới thiệu Trên

cơ s ở tiến hành m ột khảo sát sơ bộ về q u ản lý quy trình n g hiệp vụ tại Tổng Công ty Điện lực H à Nội, m ột khung mô h ình p h át hiện quy trình tương tác bảy giai đoạn ứ n g d ụ n g cho các d o a n h nghiệp Việt N am được giới thiệu M ục 5 tóm tắt về kết quả đ ạt được, các h ạn chế tro n g th ự c hiện đề tài cũng n h ư d ự kiến về công việc nghiên cứu tiếp theo

2

Trang 6

2 M ục tiêu

Đề tài đ ịn h h ư ớ n g vào ba m ục tiêu sau đây:

- N ghiên cứu, p h á t triển ba th u ật toán, giải p h á p tiên tiến khai p h á m ẫu dãy, m ẫu tb

ký sự kiện

- N ghiên cứu các công cụ và p h ư ơ n g p h áp đo iư ờ ng liên q u an tói các kiêu miấu cũn

n h ư các kỹ th u ậ t tiên tiến khai p h á m ẫu từ n h ậ t ký sự kiện Tính tư ơ n g đ ồ n g củ vết sự kiện với xâu văn bản cho p h ép áp d ụ n g các công cụ và p h ư ơ n g p h á p đ lường m ới cho các m ẫu và kỹ th u ậ t mới

- Thu th ập d ữ liệu thực nghiệm , h iểu và tiền xử lý d ữ liệu thự c nghiệm Cộỉng đồn khai p h á q u y trình th ế giới có công b ố các tài nguyên công cộng đ ể tiến h à ĩìỉì thụ nghiêm kiểm chứng và đ án h giá Liên hệ với các nhà khoa học trên th ế g iớ i, đặ biệt là n h ó m của GS Bart Baesens1 ở U niversity of Leuve (K atholieke Uni versite Leuven) đ ể có thêm các bộ d ử liệu n h ậ t ký sự kiện

- Thực n g h iệm các kỹ th u ật khai p h á m ẫu được đề xuất cũng n h ư các kiểu m ẫu đ nghị đ ể đ á n h giá độ tín cậy của các m ẫu và kỹ thuật đư ợc đ ề x uất Đ á n h giá ké quả thực nghiệm

- Công b ố quốc tế đ ể nhân được đ á n h eiá của cộng đồng n g h iên cứ u về các kết qu nghiên cứu

4 T ô n g kết k ế t q u ả n g h iê n cứu

H ai báo cáo chuyên đ ề 1 và 2 của nhóm thực hiện đ'ê tài (Phụ lục 3 Các báo cáo chuyên đề

đã giới thiệu chi tiết về các khái niệm nền tảng trong khai phá q u y trinh K hai p h á quỵ trìrứ bao gồm ba bài to án chính là p h á t hiện (mô hình) quy ưình, kiểm tra sự p h ù hợp của me

h ìn h quy trình với n h ậ t ký sự kiện và tăng cường m ô h ìn h quy trình Đề tài này tập trunc vào bài toán p h á t h iện quy trình (process discovery), tro n g đó n h ậ n đ âu v ào là một nhật k)

sự kiện và cho đ ầ u ra là m ột m ô hình quy trình tương ứ n g với n h ậ t ký sự k iện đầu vào Mc

h ìn h quy trình đ ầ u ra cần đ áp ứ n g m ột số tính chất, tro n g đó b ố n tín h chất cốt yếu nhất là

1 https://feb.ku l e u v e n b e / b a r t b a e s e n s

3

Trang 7

độ phu hợp (fitness), độ chính xác (precision), độ khái q u át (generalization) và độ đon giản (simplicity) N h ậ t ký sự kiện thu th ậ p được từ các hệ thống th ô n g tin nghiệp vụ thường rất phức tạp cho n ên kết quả thực hiện các th u ật toán phát hiện q u y trình (mô hình quy trìn h nghiệp vụ) cho ra các m ô h ìn h q u y trình thư ờng rất phứ c tạp, rối rắm và không đáp ứ n g được các yêu cầu theo bốn đ ô đo m ục tiêu trên đây Đế n ân g cao hiệu quá của các thuật toán

p h át hiện quy trình, n h ậ t ký sự kiện đầu vào cần được tinh ch ỉnh dựa trên việc áp dụng các giải pháp p h át h iện m ẫu tiền xử lý, phân cụm vết sự kiện và x ử lý trôi khái niệm

N hư đã được giới thiệu, theo khung nhìn coi môi vết sự kiện n h ư m ột xâu văn bản và m ột

n h ật ký sự kiện n h ư m ột tập các xâu văn bản, nội dung n g hiên cứu chính của đề tài là đề xuất các mô h ìn h và giải p h á p áp d ụ n g các th u ật toán khai p h á dữ liệu văn bản vào việc tình chỉnh n h ật ký sự kiện đ ầu vào Kết quá của đề tài tập tru n g các m ô h ìn h và giải p h á p phân cụm vết sự kiện, xử lý vấn đ ề trôi khái niệm và p h á t hiện m âu p h ổ biến từ nhật ký sự kiện Đồng thời, đ'ê tài cung cấp m ộ t khung p h át hiện quy trình có tương tác và khảo nghiệm việc áp d ụ n g khai phá quy trình tại doanh nghiệp Việt N am

4.1 Phân cụm v ế t sự kiện trong n h ậ t ký sự kiện

N hư đã được trìn h bày, p h â n cụm v ết sự kiện tro n g n h ật ký sự kiện là m ột nhóm giải p h á p nâng cao chất lư ợ ng n h ật ký sự kiện đầu vào cho thuật toán p h á t hiện quy trình nghiệp vụ Dựa trên khung nh ìn vết sự kiện n h ư m ột xâu v ăn bản v à n h ậ t ký sự kiện sự m ột bộ (dãy) xâu văn bản, tiếp cận trước đây của các tác giả trong các công trình liên q u an thường sử dụng các biểu d iễ n văn bản theo tần số đặc trư ng (từ, n-gram ), và trong m ột vài trường hợp, giải pháp phát h iện m ẫu p h ổ biến có thể được tiến h àn h trước đó đ ể giảm bó t kích thước của xâu văn bản

Khác vói cách tiếp cận chung n h ư vậy, nhóm nghiên cứu áp d ụ n g ph ư ơ n g p h áp biếu d iên

đồ thị khoảng cách đối với xâu v ăn bản do c c A ggarw al và p Zhao [A ggarw all3] do đồ thị khoảng cách th ể hiện được m ối liên kết "đồ thị" giữa các hành động trong quy trình Cho m ột tập văn bản A (nhật ký sự kiện L là m ột tập các "văn bản" vết sự kiện) với tập các đặc trư ng văn b ả n c (tập các h àn h động T trong các quy trình nghiệp vụ), biểu diễn đồ thị

khoảng cách bậc k của m ộ t văn b ả n D được lấy ra từ tập d ữ liệu DeA được định n g hĩa Ơ(A, D, k) = (/V(A),/1(D, k)) ữ o n g đó, N(À) là tập các n ú t được xác định trong tập d ữ liệu A

và A(D, k ) là tâp các cung trong v ăn bản Tập /V(A) và A(D, k ) đư ợc xác đ ịn h n h ư sau:

- /V(A): là tập các n ú t của đồ thị, ở đây, m ỗi n ú t là m ộ t đặc trung (từ) trong toàn bộ tập

d ữ liệu A SỐ lượng đặc trư ng trong tập d ữ liệu có th ể lớn và th ứ tự các đặc trư ng là không đổi khi biểu diễn trên mọi văn bản trong A

- A(D, k): là tập các cung có trọng số N ú t i sẽ nối tới n ú t i nếu đặc trư n g 2 đứng trư óc

đặc trư ng i không q u á k vị trí Ví dụ, k = 1 được hiểu là th ứ tự tu ần tự các đặc trưng Trọng SỐ của cung (i, j) là số lần đặc trư ng i đứ ng trước từ j không quá k vị trí tro n g

văn bản

Trong [A ggarw all3], c c A ggarw al và p Zhao đã chứng tỏ biểu diễn đồ thị là m ột biểu diễn văn bản đ ả m bảo độ hiệu quả cao đối vói các th u ật toán p h ân cụm, p h ân lớp văn bản

Do đó, nhóm thự c hiện đề tài đã đ'ê xuất m ột m ô hình p h ân cụm nhật ký sự kiện ban đ ầ u

th àn h m ột số n h ậ t ký sự kiện thành phần (cụm vết sự kiện) th u ầ n n h ất hơn làm đầu vào đối với th u ậ t toán p h á t hiện quy trình

4

Trang 8

Hình L K hung p h á t hiện quy trình sử d ụ n g phân

cụm nhật ký sự kiện theo biểu d iê n đỏ thị khoảng cách [ QG 15.22-03]

T rong [QG/15.22-03]2, n hóm n g hiên

cứu đ ề xuất m ột m ô hình p h â n cụm vết

sự k iện theo biểu d iễn đồ thị khoảng

cách [A ggarw all3] N h ư m ô tả tại H ìn h

1, n h ậ t ký sự kiện th u thập được, được

chuyển sang d ạn g đ ơ n giản, với m ối sự

kiện chi giữ lại th uộc tính "h o ạt đ ộ n g "

Khi đó, mỗi trư ờ n g hợp trong n h ậ t ký

sự kiện được ch u y ển đổi th àn h m ộ t vết

sự kiện, là m ộ t xâu các hành động đư ợc

thực hiện theo th ứ tự thời gian Q ua

thực nghiệm trê n n h ật ký sự kiện

prB m ó với hai th u ậ t toán p h â n cụm k- i Ptocess Moữen

m odes và k-m eans, biểu diễn đ ồ thị • +

k h o ản g cách bậc 2 cho các giá trị độ

p h ù hợp (fitness), độ chính xác

(precision) tốt n h ấ t so với các bậc khác

Đ iều này là h o àn toàn với đ á n h giá

thực nghiệm của c c A ggarw al v à p

Zhao Sử d ụ n g biểu diễn theo đ ồ thị

k h o ản g cách bậc 2 cho vết sự kiện, độ

p h ù h ợ p và độ chính xác đ ều cao hơn

hắn so với biểu d iễn theo vecctor

D ựa trên m ô h ìn h p h ân cụm n h ậ t ký sự kiện được p h á t biểu tro n g [QG 15.22-0:3]/ tror [N h u n g l 7], n hóm nghiên cứu tiến h à n h các thực nghiệm công p h u h ơ n th e o nhiều phưon

p h áp biếu diễn v ết sự kiện (túi h à n h động, k-gram , lặp cực đại, đồ thị k h o ản g cá(ch) Tit

h à n h thực nghiệm theo hai th u ật to án p h ầ n cụm k-m eans và DBScan trên ba n h ật k ý sự kiệ Lfull, prAmó, và p rlĩm ỗ , kết quả cho th ấy biểu diễn theo đồ thị k h o ả n g cách v ế t sự kiệ củng cho kết quả tố t nhất H ơ n n ữ a, th u ậ t toán k-m eans có ư u th ế h o n đối với các n h ậ t k

sự kiện có số chiều biểu diễn thấp (Lfull) trong khi đó DBScan là ch ứ n g tỏ ưu t h ế đối V( các n h ậ t ký sự kiện có số chiều biểu d iễn cao (prAm ỗ, prH m ó) N hóm n g h iê n cứu đĩang tie tục tiến hành thực nghiệm với biểu d iễn vết sự kiện theo độ đo tư ơ n g tự G oogle tro n g nhc

ký sự kiện

4.2 X ử lý trôi kh á i níệin dựa trên m ô hình học khái niệm theo logic m ô tả

N h ư đ ã được ư ìn h bày trong th u y ế t m in h đề tài, trôi khái niệm (conceipịdri/t) đ ư ợ c Tuyê:

n g ô n khai p h á q u y trình đ á n h giá là m ộ t trong m ười m ột thách tKưcTtrõng khai p h á qu trình Mở rông ra, trôi khái niệm h iện là m ột chủ đề nghiên cứu thời sự tro n g lu ồng nghiêi

cứu về xử lý dòng d ử liệu (data streams), m à điển hìn h là xử lý trôi khái n iệ m dòng d ữ liệi

theo thòi gian T rong chủ đề n g hiên cứu này, tiếp cận xử lý trôi khái niệm d ự a trên bản thi học (ontology) và w eb ng ữ nghĩa n h ậ n được sự quan tâm đặc biệt của c ộ n g đồng nghiêi

2 Báo cáo này sừ dụng các tên ký hiệu sản phẩm khoa học cùa đề tài được mô tà tại Phần III của báo cáo đê ch dân tham chiếu tới các â'n phẩm đó.

Trang 9

M,

M-ỌKC

Z ^ =

cứu [Wang 11, D ehghanló, Lécuél7], đồng thời, tiếp cận sử d ụ n g phân lớp d ữ liệu trong xử

lý trôi khái niệm đã chứng tỏ được tính h ữ u d ụ n g [Wang03, VVangll, D ehghanló, Lécuél7] Trong m ột vài năm gần đây, bài toán xử lý trôi khái niệm trong các hệ thống tổ chức tri thức

(knowledge organisation systems) theo tiếp cận web ng ữ nghĩa (senmantic web) d ự a trên nền

tảng logic m ô tà (desciption logic) đã thu h ú t được sự q u an tâm của nhiều nhóm n g hiên cứu

M ột số kết q uả nghiên cứu theo địn h hư ớng này đã được công bố, chẳng hạn n h ư [VVangll,

D ehghanló, Lécuél7] Trong w eb n g ữ nghĩa, d ữ liệu được diễn giải trong các b ả n thể học

và d ãy có th ử tự của dữ liệu được biểu diễn dưới dạng luồng b ản th ể h ọ c [Lécuél7]

Trong khai p h á quy trình, nhật ký sự kiện là m ột kiểu d ữ liệu dòng các ữ ư ờ n g hợp (dạng

cô đọng là v ết sự kiện), ư o n g đó, các vết sự kiện là m ộ t d ữ liệu dòng, đồng thời, dòng các vết theo thời gian trong n h ật ký sự kiện là đ ậ m nét hơn đặc trư n g dữ liêu d ò n g trong n h ật

ký sự kiện Điều đó cho thây tiếp cận xử lý trôi khái niệm tro n g nhật ký theo k h u n g nh ìn bản th ể học và w eb ngữ nghĩa là có cơ sở khoa học và có tính khả thi cao

H ỉnh 2 trình bày bốn

kiểu trôi khái niệm

điển hìn h đối với các

quy trình nghiệp vụ

và đư ợc th ể hiện

trong n h ật ký sự kiện Hình 2 Bốn kiêu trôi khái niệm trong khai phá quy trình: (a) trôi

Bốn kiểu trôi khái đột ngột, (b) trôi dần, (c) trôi định kỳ, (d) trôi gia tăng

quy trìn h là trôi đột

ngột (Sudden drift), trôi dần (Gradual drift), trôi địn h kỳ (Recurring drift) và trôi gia tăng

(Incremental drift) Trôi đột ngột xảy ra theo các kịch bản khi gặp tình huống khẩn câp, kh ủ ng

h o ản g hoặc thay đổi về luậl hoặc b ất kỳ m ột thay đổi độ t n g ộ t (disruptive change) của tổ

chức Thể h iện trôi đột ng ộ t trong n h ậ t ký sự kiện là quy trình m ới (M2) khác b iệt với quy

trình hiện có (Mi) Trôi đần xảy ra khi tổ chức cải tiến quy trình nhằm tạo m ột lợi th ế cạnh

tranh, tuy nhiên, quy trìn h cũ (Mi) được tiến h à n h song song với quy trình m ới (M2) trong

m ột giai đo ạn Ví d ụ như, tổ chức cải tiến m ột quy trình giao hàng cho khách hàng, với đơn hàng mới đ ư ợ c tiến hành theo quy trình m ới còn với đ ơ n hàng đang có được tiến hành theo

quy trìn h cũ Trường h ợ p này tương ứ ng với tiếp cận tiếp n h ận n h ập pha {phase-in approach, còn đ ư ợ c gọi là tiếp cận từng phần: piecemeal approach) m ột hệ thống mới trong tổ chức Trôi

định kỳ tư ơ ng ứ ng với kịch bản có m ột tập quy trình thay th ế n hau theo chu kỳ thời gian

H iệu ứ n g m ù a là v í dụ điến hình cho trôi đ ịn h kỳ, theo đó mỗi m ột m ùa có th ể sử dụng m ột

quy trìn h nghiệp vụ tương ứng Trôi gia tăng tư ơng ứ ng vói kịch bản đ ể ch u y ển đối quy

trình cũ (Mi) tói quy trình mới (Mn) qua n h iều th ế hệ quy trinh trung gian (Mỉ, M3, Mn-

1) m à sự chuyển đổi quy trình từ th ế hệ cũ sang th ế hệ mới là rấ t nhỏ bé Kịch b ả n này tương ứng v ó i việc cải tiến từ ng bước quy trình n g h iệp vụ, được tiến hành theo thay đổi duy trì

(sustaining change) của tổ chức.

Theo R P J c Bose và cộng sự [Bosell], ba v ấn đề cơ bản n h ấ t trong xử lý trôi khái niệm

là (i) p h á t h iệ n điểm thay đổi và đây là vấn đề cơ bản n h ấ t trong xử lý trôi khái niệm trong khai p h á q u y trình, (ii) định vị và m ô tả đặc trư n g v ù n g nhật ký sự kiện nằm giữa hai điểm

6

Trang 10

thay đổi liền kề, (iii) p h á t hiện m ô h ình quy trình tư ơng ứ n g từ n g v ù n g n h ậ t ký sự kiện c được p h át h iện và đặc trư n g hóa.

Theo M ahdie D ehghan và cộng sự [D ehghanló], tồn tại hai p h ư ơ n g p h á p h iện đ ại p h á t hiệ trôi khái niệm d ự a trên p h ân lớp là p h ư ơ n g p h á p bộ p h â n lớp đ o n và p h ư ơ n g p h á p nhói

bộ phân lóp Các tác giả giới thiệu m ột th u ậ t toán p h á t h iện trôi khái niệm d ự a trên phá lóp khi sử d ụ n g chỉ d ấ u về số lượng và kh o ản g cách lỗi (N u m b er and D istance of Error NDE) P hù h ọ p với tình h u ố n g trôi khác niệm trong các h ệ thống tổ chức tri thức, bộ họ khái niệm cân được đ iều chỉnh tại n h ữ n g điểm thay đổi theo d ò n g thời gian các v ết d ữ liệ trong n h ậ t ký sự kiện

Tham gia vào dòng n g hiên cứu xử lý trôi khái niệm trong n h ậ t ký sự kiện th eo tiếp cận we

n g ữ nghĩa d ự a trên nên tảng logic m ô tả, đ ề tài đ ã tiến h à n h k h ảo sát và đ ề x u ấ t các gií

p háp học khái niệm d ự a trên tiếp cận của logic m ô tả n h ằm áp d ụ n g vào các giải p h á p phí hiện các điểm thay đổi khái niệm trong n h ật ký sự kiện Các điểm th ay đổi đ ã đ ư ợ c xác đ ịn trở thành các mốc p h â n hoạch n h ậ t ký sự kiện đ ầu vào th àn h các n h ậ t ký s ự kiện thàn phần T huật toán p h á t hiện quy trình được tiến h àn h trê n tập các n h ậ t ký sự kiện thàn

p hần và các m ô h ìn h q u y trình kết quả được tích hợp th àn h m ô h ìn h kết q u ả đ ầ u ra tư ơn

ứ ng với n h ậ t ký sự kiện xuất phát Đề tài đ ã th u được m ộ t số k ết quá bư ớc đ ầ u theo tie cận này

Trong [QG.15.22.1, QG.15.22.7], nhóm nghiên cứu p h ân tích về tính tương đ ồ n g đối với cá logic mô tả không tư ơ ng xứng và đề xuất áp d ụ n g vào bài toán học khái n iệm tro n g bướ định vị và đặc trư ng hóa các v ù n g n h ậ t ký sự kiện theo k h u n g n h ìn của R p J c Bose CỘIV

sự [B osell] D ựa trên k h u n g n hìn của H ennessy-M ilner, công trìn h đ ã thu đ ư ợ c các kết qu bất biến tro n g nhận d iện các đặc trư ng của v ù n g n h ật ký sự kiện đ ư ợ c q u a n tâm

Theo định h ư ớ n g xây d ự n g các bộ p h ân lớp trong xử lý trôi khái niệm n h ư đ ư ợc đề cậ] trong [D ehghanló], n h ó m nghiên cứu đề x u ất m ột th u ật toán p h â n lớp đ a n h ã n d ự a trêi tiếp cận p h â n cụm bán giám sát Các kết q u ả về p h ân lớp đ a n h ãn d ự a trên p h â n cụ m bái giám sát đ ư ợ c trình bày trong [QG 15.22.3-6] D ự báo là m ộ t p h ư ơ n g p h áp đ ã đư ợc á p dụn< nhiều trong x ử lý trôi khái niệm trong dòng d ữ liệu N hóm nghiên cứu bước đ ầ u triến kha nghiên cứu về d ự báo d ữ liệu d ò n g thời gian [QG.15.22.2] và kỳ vọng kết q u ả n g h ièn cứi này có tiềm n ăn g đ ư a vào trong xử lv trôi khái niệm trong khai p h á quy trìn h

4.3 M ộ t khung p h á t hiện quy trình tương tấc năm giai đoạn ứng dụng cho các doanh nghiệp V iệt N am

4.3.1 K hung ba pha p h á t hiện m ô hình quy trình

Trong [QG.15.22.8.1], n h ó m nghiên cứu đã đề x u ất m ột k h u n g ba p h a p h á t hiện m ô hình quy trình n h ư m ô tả ở H ìn h 3 K hung này kết h ợ p m ột k h u n g hai p ha p h á t hiện mô hình quy trình [Bosel2, [Bosel4]] với p ha thực hiện các giải p h á p n ân g cấp chất lư ợng m ò hình quy trình sau khi được p h á t hiện [Fahlanđl3, Fahlandl5] Pha 1 tiến h àn h các thao tác làm đơn giản hóa n h ật ký sự kiện đ ầ u vào dự a trên các th u ật toán p h â n cụm, x ử lý màu, xử lý

trôi khái niệm (concept drift), xử lý tính không đầy đủ đối với tập vết s ự kiện [Bosel2,

[Bosel4]] T rong [QG.15.22-03], chúng tôi đề x u ất m ột p h ư ơ n g p h á p biểu d iễ n vết sự kiện

d ự a trên đồ thị khoảng cách đ ể p h ân cụm vết sự kiện và n h ận được kết quả k h ả quan Trong

7

Trang 11

Pha 3 tiến h à n h việc

hơn mà v ẫn đ ảm Hình 3 K hung ba pha phát hiện quy trình [Q G 15.22.8.1]

bảo được tính p h ù

họp với quy trìn h nghiệp vụ tư ơ ng ứ ng với nhật ký sự kiện đâu vào Các giải p h áp tổng hợp lưới Petri [Badouell5] cũng nên được xem xét áp d ụ n g khi tổng h ợ p các mô hìn h q u y trình kết quả trong Pha 3

4.3.2 M ộ t khung bảy pha p h á t hiện quy trình ắp dụng cho doanh nghiệp V iệt N am

Đ ểh ư ớ n g tói m ộ t khung p h á t h iện quy trình áp d ụ n g tại các d o an h nghiệp Việt Nam , n h ó m thực hiện đề tài đ ã liên hệ với hai doanh nghiệp Việt N am là Công ty cổ p h ần Công nghệ phần m ềm H ài H òa (gọi tắt là C ông ty Hài Hòa) và C ông ty Công nghệ Thông tin Điện lực

Hà Nội (gọi tắt là Công ty CNTT Điện lực H à Nội) thuộc Tổng Công ty Điện lực thành p h ố

Hà N ộ (gọi tắt là Điện lực H à Nội)i

Công ty Hài H òa triển khai xây d ự n g các p h ầ n m ềm công nghiệp và n hóm sản phẩm điển hình là các hệ thống quản lý d ự án (bao gồm các hệ thống tích h ợ p q u ản lý d ự án) Trong quá trìn h thực h iện đề tài, do y êu cầu bảo m ật các tập tin n h ậ t ký ghi n h ận d ữ liệu về quy trình quản lý d ự án tại các đối tác triển khai p h ần m ềm của Công ty H ài H òa cho nên đề tài không thu n h ậ n được m ột tập tin nhật ký ghi n h ận d ữ liệu thực tiễn về quy trình quản lý

d ự án

Công ty CNTT Điện lực H à N ội được Tổng Giám đốc Điện lực H à Nội giao nhiệm vụ xây

dự ng hệ thống p h ần mềm đ ể q u ả n lý sự tuân thủ về trình tự, thủ tục và tiến độ theo các quy trình, quy đ ịn h đ ã được ban h à n h nhằm n ân g cao hiệu quả các m ặt h o ạt động của Tổng Công ty và h ư ớ n g tới tính chuyên nghiệp hóa của các bộ p h ận chức năng (xem "T huyết

m inh nhiệm vụ" trong Phụ lục 3 Các báo cáo chuyên đề) T huyết m inh nhiệm vụ và hai quy trìn h q u ản lý (quy trình q u ả n lý công tác đấu thầu, quy trình quản lý cấp p h á t th an h toán v ố n đ ầu tư xây dựng) cho thấy Điện lực H à Nội đ ã b ắt đ ầu q u an tâm tới việc triển khai

hệ th ô n g q u ản lý quy trình k inh do an h (Business Process M anagem ent: BMP) tại Tổng C ông

ty C ò n g ty CNTT Điện lực H à N ội đ ã đề nghị m ột m ô hình kiến trúc hệ thống p h ần m ềm quản lý các quy trình nghiệp vụ tại Điện lực H à Nội (H ình 4) N hóm nghiên cứu của đê tài

8

Trang 12

Mobile Apps Trinh duyệt Web

I https/ web services I

Hệ thống quán lý tuân thủ qưy trình

Giao điện Tiện ích chung

Quản trị hệ ttiổng & Quản lý Cõng viẽc

Thiết kể Quy trinh nghiệp vụ

T h i/C thi

Quy trinh nghiệp vụ

Giám sát thực hiện quy trinh

SharePoint Common Services

Workflow Met adata Policies Search

Security tRM Collaboration Library Srv.

CÓ giới thiệu với Công

quy trình kin h doanh

tại Đ iện lực H à Nội

khai p h á d ử liệu tại

các tập tin ghi n h ận từ các hệ thống thông tin hầu n h ư chưa được đề cập

Trong bối cảnh tại nhiều d o an h nghiệp V iệt N am , n h ật ký sự kiện chưa th ự c sự đ ư ợ c quai tâm trong p h á t hiện tri thức, kh u n g p h á t h iện quy trinh ba giai đoạn (H ình 3) cần đ ư ợ c b( sung m ột SỐ th àn h p h ần đ ể việc khai phá q u y trình được áp d ụ n g th u ận lợi tại d o a n h nghiẻỊ

và đ ạt đư ợc k ết quả n h ư kỳ vọng Thứ nhất, thành p h ần thu th ập d ữ liệu tro n g các tập tir

n h ật ký từ các hệ thống thông tin tác nghiệp đ ể xâv d ự n g n h ật ký sự kiện cần đ ư ợ c b ố sung Thứ hai, tư ơ n g tác người d ù n g trong việc p h â n tích n h ậ t ký sự kiện đ ầ u vào, m ô h ìn h qu} trình hiện tại và các thông tin bổ sung đ ư ợ c M de Leoni và cộng sự [Leoniló] đ ề x u ất car được tích h ọ p vào hệ thống N h ư được d iễn tả trong [Leoniló], m ột đặc tru n g p h ụ thuộc các đặc trư n g độc lập phứ c và m ột bộ lọc đư ợc sử d ụ n g đ ể hỗ trợ việc tình ch ỉn h n h ậ t ký sụ kiện đầu vào T hứ ba, hiệu chính m ô h ìn h q u y trình kết quả h ư ớ n g tác động (Im pact-driver process m o d el repai) n h ư A Polyvyanyy và cộng sự [Polyvyanyyló] đ ề x u ấ t cần đư ợc tiến hành

K hung p h á t hiện quy trình bảy pha áp d ụ n g cho các doanh n g hiệp Việt N a m đ ư ợ c m ô tả

tại H ình 5 ơ p h a đ ầu tiên X â y dựng n h ậ t k ý sự kiện, việc xây d ự n g n h ậ t ký s ự k iện đ ầu vào

cho p h át h iện quy trình đư ợc tiến hành Đ ầu tiên, việc th u thập d ữ liệu n h ậ t ký từ hệ thống

H ình 4 M ột mô hình kiến trúc hệ thống ph ần mềm quản ỉỷ các quy

trình nghiệp vụ tại Điện lực Hà N ội [C ông tỵ C N TT Điện lực Hà Nội)

9

Trang 13

Các táp tin nhặt kỷ tir các hệ thổng thõng tin

1 Xây dựng nhật hỷ sự kiện

Nhặt

SI P kiên

2 Xác định trường hợ

phân tích

p s ứ dụng

Phân tích sù dụng tnpởng hop

§

Nều phán tích cắn ảirợc xảc

định lại

thông tin tác n g hiệp

liên quan tới mô

h ìn h quy trình đư ợc

tiến hành Sau đó,

việc chuẩn hóa theo

chuẩn IEEE 1849-

2016 XES S tan d ard 3

đối với d ữ liệu thu

được ở bước trê n để

[Leoniló] Đầu vào

của quá trình con

b ao gói vào quá

trình con này Đ ầu ra của quá trình con này là m ột n h ật ký sự kiện đ ã đư ợc tinh chỉnh và

m ộ t s ố kết quả p h â n tích đóng vai trò n h ư tri thức đ ín h kèm cho bài toán p h â n cụm d ữ liệu

sau này Pha 5 P hân cụm tiến h àn h p h ân cụm theo m ộ t th u ật toán phân cụm được chọn lựa

tiến h à n h trên m ộ t biểu diễn vết sự kiện theo đồ thị khoảng cách [QG.15.22-03] Các cụm vết sự kiện (các n h ật ký sự kiện con) kết quả từ p h a 5 là đ ầu vào cho th u ậ t toán p h á t hiện

q u y trìn h v'ê sau Trong pha 6 P h á t hiện quy trình, m ộ t th u ật toán p h á t h iện quy trình được

áp d ụ n g trên các nhật ký sự kiện con và thu đư ợc các m ô hình quy trình tương ứng Tại

bước 7 Tích hợp và chỉnh sửa m ô hình, các m ô h ìn h quy trình con được tích hợp th ành m ột

m ô h ìn h quy trìn h chung Áp d ụ n g các thủ tục chính sửa m ô hình [Polyvyanyyló] lên mô hìn h (quy trình chung thu được m ộ t m ô hình quy trình kết quả tương ứ n g với hệ thống thông; tin tác n g h iệp được quan tâm

Hình 5 Khung phát hiện quy trình bảy bước áp dụng cho doanh

nghiệp Việt Nam

3 h t t p : / y w w x e s - s t a n d a r d o r g /

10

Trang 14

5 Đ á n h giá về các k ết q u ả đ ã đ ạt được và k ế t lu ậ n

Đề tài tập tru n g giải q u y ết bài toán tính chỉnh n h ật ký sự kiện đ ầu vào của th u ậ t toán ph, hiện quy trìn h n h ằm nâng cao chất lượng của m ô h ìn h quy trình đ ầ u ra p h ù hợp, chính xá tổng quát hóa và đ ơ n giản h ó a tương ứ n g vói n h ậ t ký sự kiện đ ầ u vào D ựa trê n tiếp cậ

m ột vết sự kiện n h ư m ột xâu văn bản, đề tài đ ã đề x u ấ t các giải p h á p tính chỉnh n h ậ t ký s kiện theo h ư ớ n g (i) m ô h ìn h p h â n cụm vết sự kiện d ự a trên biểu diễn đồ thị k h o ản g cácl(ii) m ô hình học khái niệm theo logic mô tả đ ể xử lý v ấn đ'ê trôi khái niệm và m ô h ìn h phâ lớp văn bản n h ằm p h á t h iện m ẫu trong n h ậ t kv sự kiện, (iii) k h u n g p h á t hiện q u y trìn h bả pha định h ư ớ n g áp d ụ n g tại các doanh ng hiệp Việt N am (trên cơ sở khảo sát tình trạ n g nhú

ký sự kiện tại C ông ty H ài H òa và Điện lực H à Nội) Kết quả n g h iên cứu của đ ề tài đư c công b ố tại m ột bài tạp chí ISI [QG.15.22.1], sáu bài báo công bố quốc tế khác (bô'n bài Scopi Book Chapter (có hai bài ISI-conference indexed), một bài báo Taylor & Francis, m ột bài bá Springer) và ba bài gửi Hội thảo quốc tế "Việt Nam học lần thứ năm" (một bài báo cáo tại Hội thảo Kết quả đã đạt được của đê tài đáp ling yêu cầu được đặt ra trong Thuyết minh đề tài

Đề tài có hạn chế không nhỏ là một bộ phận kết quá nghiên cứu của đề tài như (i) hoc khái niệr dựa trên logic mô tá xử lý trôi khái niệm, (ii) khung ứng dụng khai phá quy trình tại Tập đoàn điệ lực Việt Nam mói ở mức độ tiềm năng giải quyết ữực tiếp các bài toán đặt ra mà chưa đi tới các m hình kiểm chứng được trong thực tiễn Đây cũng là những nội dung nghiên cứu được thực tiếp tie theo của nhóm thực hiện đề tài

Tài liệ u th am k h ảo

[A ggarw all3] C haru c A ggarw al and Peixiang Zhao Towards graphical models for tex

processing Knowl Ini Syst 36(1), pp 1-21, 2013.

[BadouellS] Eric Badouel, Luca Bernardinello, Philippe D arondeau Petri Net Synthesis

Springer, 2015

[B osellj R P Jagadeesh C h an d ra Bose, Wil M p van d er Aalst, In d re Zliobaite, M ykoli

Pechenizkiy Handling Concept Drift in Process M ining CAiSE 2011: 391-405, 2011.

[Bosel2] R P Jagadeesh C h an d ra Bose Process M ining in the Large: Preprocessing, Discovery

and Diagnostics PhD Thesis, Eindhoven U niversity of Technology, The N eth erland s

2012.

[Bosel4] R P Jagadeesh C h an d ra Bose, Wil M p van d er Aalst, In d re Zliobaite, Mykolc

Pechenizkiy Dealing W ith Concept Drifts in Process Mining IEEE Trans N eural N etw

Learning Syst 25(1)154-171, 2014

[Bosel4] R P jag ad eesh C h an d ra Bose, Wil M p van d er Aalst, In d re Zliobaite, M ykola Pechenizkiy D ealing W ith Concept Drifts in Process M ining IEEE Trans N eural Netw Learning Syst 25(1): 154-171, 2014

11

Trang 15

[D elìghanló] M ahdie D ehghan, H am id Beigy, Poorya ZareM oodi A novel concept drift

detection method in data streams using ensemble classifiers In tell D ata Anal 20(6): 1329-

1350 (2016)

[Fahlandl3] D irk Fahland, Wil M p van der Aalst Simplifying discovered process models in a

controlled manner Inform ation Systems 38 (2013): 585-605, 2013.

[Fahlandl5] D irk Fahland, Wil M p van der Aalst Model repair - aligning process models to

reality Inf Syst 47 (2015): 220-243, 2015.

[Lécuél7] F reddy Lécué, Jiaoyan Chen, Jeff z Pan, H uajun Chen Learning from Ontology

Streams with Semantic Concept Drift CoRR abs/1704.07466, 2017.

[Leonil6] M assim iliano de Leoni, Wil M p van d er Aalst, M arcus Dees A general process

mining framework for correlating, predicting and clustering dynamic behavior based on event logs Inf Syst 56 235-257, 2016.

[Manifesto] Wil van d er Aalst et al Process M ining Manifesto IEEE Task Force on Process

M ining, 2012

[N hungl7] H ong-N hung Bui, Tri-Thanh N guyen, Q uang-T huy Ha A n experimental study of

trace clustering solution based on distance graph model Transactions on C om putational

Collective Intelligence (submitted, p aper TCCI-S-17-00031).

[Polyvyanyyl6] A rtem Polyvyanyy, Wil M p Van D er Aalst, A rth u r H M Ter H ofstede,

M oe T W ynn Impact-Driven Process Model Repair CM Trans Softw Eng M ethodol 25,

4, Article 28, October 2016

[Wang03] H aixun W ang, Wei Fan, Philip s Yu, Jiaw ei H an M ining concept-drifting data

streams using ensemble classifiers KDD 2003 226-235.

[W a n g ll] Shenghui Wang, Stefan Schlobach, Michel c A Klein Concept drift and how to

identify it J Web Sem 9(3): 247-265, 2011.

[WEF1317] Klaus Schwab The Global Competitiveness Report 2012-2013, 2013-2014, 2014-

2Ữ15, 2015-2016, 2016-2017, W orld Economic Forum , 2013-2017.

6 T ó m tắt k ế t quả (tiếng V iệt và tiến g A nh)

6.1 T óm tắ t tiếng Việt

Tên đ ề tài: P hát triển các kỹ th u ật tiên tiến khai phá m ẫu từ n h ật ký sự kiện, xây d ự n g p h ần

m ềm và k h u n g ứ ng d ụ n g th ử nghiệm tại d o an h nghiệp Việt Nam

p h áp biếu diên văn b ản theo đồ thị khoảng cách do c c A ggarw al và p Zhao đề xuất vào biểu đ iê n vết sự kiện Theo luồng nghiên cứu về xử lý trôi khái niệm dựa trên w eb n g ữ nghĩa theo logic mô tả và học phân lớp, đề tài đã đề xuất áp d ụ n g tính tương đồnơ đối vói các logic mô tả không tương xứng vào bài toán học khái niệm trong việc đ ịnh vị và đặc

Trang 16

trư n g hóa các v ù n g n h ậ t ký sự kiện giữa h ai đ iể m th ay đổi liên tiếp M ột th u ậ t toán phi lóp đa n h ã n d ự a trên p h â n cụm b á n giám sá t đ ã đư ợc đ'ê xuâ't Đ ề tài cũ n g đ ề nghị m

k h u n g p h á t hiện quy trìn h bảy p h a áp d ụ n g tác các d o a n h n g h iệ p Việt N am , từ pha ử

th ập d ữ liệu h ình th àn h n h ậ t ký sự kiện b a n đ ầ u tới p h a h iểu ch ỉnh, n ân g cấp m ô hìn h qi trình kết quả

N hóm thực hiện đề tài đ ã công b ố b ả y bài b áo q u ố c tế (01 bài tạ p chí ISI, 02 bài h ộ i nghị I;

và Scopus Book C hapter, 02 bài S copus Book C h ap ter, 01 bài tạ p chi T aylor & Francis, 01 b tạp chi Springer) và ba bài gửi H ội th ảo quốc t ế V iệt N am học Tân th ứ V (01 b ài trìn h bày t

H ội thảo) Ba nghiên cứ u sinh (NCS P hạm Thị N g â n đ ã bảo vệ lu ậ n án cấp cơ sở) v à sáu h( viên cao học (tất cả đã đ ư ợc cấp b ằn g Thạc sỹ) th a m g ia n g h iên cứ u tro n g k h u ô n k h ổ của E tài

c c A ggarw al và p Z h ao 's d istance g ra p h text rep re se n ta tio n m e th o d for representatioi

ev en t traces, a clustering solution ev en t logs h a s b een p ro p o sed Joining in th e researchin stream on conceipt d rift processing b ased on u s in g senm antic w eb w ith d esc rip tio n lugi and learning, a m ethod for using th e b isim ilarity for p ara c o n siste n t d escrip tio n logics fo conceipt learning has b een p ro p o sed , w hich re su lts for location a n d c h aracteratio n even sublogs A sem isupervised clu sterin g b ased m u ltilab el classification alg o rith m h a s b ed proposed For application process m in in g in V ietn am ese com panies, a seven p h ase proces discovery fram e has b een p ro p o sed The fram e sta rts by the d a ta collection for e v e n t log and ends w ith the p hase of process m o d els re p e a rin g an d im p ro v in g

Seven p ap ers (01 ISI-journal in dexed paper, 02 ISI-conference in d ex ed a n d Scopus-bool chapter indexed papers, 02 ISI-conference in d ex ed and S copus-book c h a p te r indexec papers, 02 Scopus-book chapter in d ex ed p a p e rs, 01 Taylor & Francis jo u rn a l paper, 0! Springer journal paper) have been p u b lish e d at in tern a tio n a l jo u rn a ls and conferences anc three p ap ers have been subm itted to the 5th V ietn am ese in tern a tio n a l W o rk sh o p (01 papei has been p resen ted at the W orkshop) T hree P hD stu d e n ts (P ham Thi N g an has passed thi

d ep artm en t level assession) and six m aster s tu d e n ts (all of them receip t m a ster degree) takt

p a rt in the project's activities

13

Trang 17

Khung khai phá khía cạnh tổ chức tại doanh nghiệp.

Khung phát hiện quy trình tương tác năm giai đoạn

Mô đun phần mềm phân cụm theo biểu diễn vết dựa trên đồ thị

3 Công bố khoa học:

hai (02) bài báo quốc

tế (01 ISI indexed),

một bài báo quốc gia

01 bài báo ISI-joumal 01 bài báo ISI-joumal indexed

01 bài báo quốc tế khác 04 bài báo Scopus-indexed

01 bài báo Tạp chí quốc tế Taylor &Francis

01 bài báo quốc tế Springer

01 bài đăng tạp chí quốc gia 01 Tạp chí KH ĐHQGHN (Báo cáo

03 học viên làm luận văn 06 luận văn Thạc sỹ (4 cám ơn đ'ê tài):

Lưu Văn Ba, Trần Thị Phương, Dương Thị Thảo, Nguyễn Thị Tươi, Nguyễn Thạc Đan Thanh, Doãn Thị

Huvên Trang (đã bảo vê thành công)

Ghi địa chỉ

và cảm ơn sự tài trợ của ĐHQGHN đúng quy định

Đ ánhgiáchung

(Đạt, không đạt)

1 Công trình côn% bỗ'trên tạp chí khoa học quốc tê'theo hệ thong ISI/Scopus

1.1 rO G 15.22.ll Linh Anh Neuven, Thi Hong Khanh Đã in Ghi địa chỉ

ĐHQGHN,

ĐạtNguyên, Ngoc-Thanh Nguven, OuaníỊ-Thuv Ha

Bisimiỉarity for Paraconsistent Description Logics.

14

Trang 18

Journal of Intelligent & Fuzzy Systems, 32(2): 1203-

1215, 2017, DOL 10.3233/JIFS-169120, ISI (SCIE)

journal, Scopus Journal

Nguven and Ouang-Thuv Ha An Experimental Study

on Cholera modeling in Hanoi Lecture Notes in

Computer Science, Volume 9622, pages 230-240,2016,

DOI:10.1007/978-3-662-49390-8_22, ISI-conference,

Scopus Book C hap ter, DBLP

1.3 ÍOG.15.22.31 Ouane-Thuv Ha Hong-Nhuns Bui, Tri-

Thanh Ne;uven A trace clustering solution based on

ĐHQGHN,

QG.15.22

Vượt

using the distance graph model Lecture Notes in

Computer Science, Volume 9622, pages 313-322,2016,

DOI.-10.1007/978-3-319-45243-2_29, ISI-conference,

Scopus Book C hapter, DBLP

1.4 ÍOG.15.22.41 Thi-Ngan Pham Van-Ouang Nguven, Đã in Ghi địa chi

ĐHQGHN,

QG.15.22

VượtDuc-Trona Dinh, Tri Thanh Neuven and Ouane-

Thuv Ha MASS: a semi-supervised multi-label

classification algorithm with specific features Studies in

Computational Intelligence, Vol 710 (ACIIDS 2017),

pages 37-47, DOI:10.1007/978-3-319-56660-3_4,

Scopus B ook C h ap ter

1.5 FOG.15.22.5l Thi-Ngan Pham, Van-Hien Tran, Tri-

Thanh Neuven and Ouana-Thuv Ha Exvloitinọ

ĐHQGHN,

QG.15.22

Vượt

Distance graph and Hidden Topic Models for Multi-label

Text Classification Studies in Computational

Intelligence, Vol 710 (ACIIDS 2017), pages 321-331,

4 Bài báo quốc tế Springer song không thuộc hệ thống ISI/Scopus: 02

ĐHQGHN,

QG.15.22

Đạt

Nguven & Ouang-Thuv Ha A semi-supervised

multi-label classification framework with feature reduction and

enrichment Journal of Information and

On the possibility of correct concept learning in

15

Trang 19

description logics Vietnam Journal of C om puter

Science (2017): 1-12, 2017; doi:10.1007/s40595-

017-0094-4; Springer

5 Bài báo ữên các tạp chí khoa học của ĐHQGHN, tạp chí khoa học chuyên ngành quốc gia hoặc

báo cáo khoa học đăng trong kỷ yếu hội nghị quốc tế: 01

5.1 [QG.15.22.8] Bài báo trên các tạp chí khoa học của

ĐHQGHN (báo cáo tổng kết Đề tài QG.15.22)

Báo cáo này Ghi địa chỉ

ĐHQGHN,cả

QG.15.22

Đạt

6 Báo cáo khoa học kiến nghị, tư vấn chinh sách theo đặt hàng của đơn vị sử dụng: 03

6.1 ÍOG.15.22.9.11 Hà Ouang Thuv, Nguvễn Trí Thành,

Phan Xuân Hiếu, Trần Trong Hiếu, Lê Thi Phương

Thoa.Trần Mai Vũ, Lê Hoàne Ouỳnh, Bùi Hồng

Báo cáo tại Hội thảo Nhân đăng

Ghi địa chỉ ĐHQGHN,

QG.15.22

Vượt

Nhung, Ngô Thi Oanh, Lai Thi H uvền Trang Môt mô

hình phát hiện quy trình nghiệp vụ trong đại học sáng

nghiệp ở Việt Nam Hội thảo Việt Nam học lần thứ V

(Tiểu ban 4), Hà Nội, Việt Nam VS4.0291

6.2 ÍOG.15.22.8.21 Hà Ouang Thuv, Phan Xuân Hiếu,

N suvễn Trí Thành Trần Mai Vũ, Neuvễn Thành

Có trong danh sách tóm tắt và đang thẩm đinh

Ghi địa chi ĐHQGHN,cả

QG.15.22

Vượt

Công, Nguyễn Thị Hoàn, Nguyễn Quỳnh Nga Một sô

ứng dụng khoa học d ữ liệu cho quản lý quan hệ khách hàng

tai Viêt Nam Hôi thảo Viêt Nam hoc rân thứ V (Tiểu

ban 5Ì Hà Nôi Viêt Nam VS5.301P

6.3 ÍOG.15.22.8.31 Hà Ouane Thuv, Nguvễn Viêt Hà,

Phạm Bảo Sơn, Lê Sỹ Vinh, Phạm H ồng Thái, Nguyễn

Quang Vinh, Vũ Bá Duy Tăng cường năng lực hội nhập

và cạnh tranh quốc tê'vé đào tạo Công nghệ thông tin tại

Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Hội

thảo Việt Nam học lần thứ V (Tiểu ban 3), Hà Nội,

Việt Nam VS3.1051

Có trong danh sách tóm tắt và đang thẩm đinh

Ghi địa chỉ ĐHQGHN,cả

7.1 Quản lý quy trình nghiệp vụ và khai phá quy ữình tại

Tổng Công ty Điện lực Hà Nội: Đã họp bàn, trao đổi

tài liệu; trước m ắt tiển khai quản lý hai quy trình

nghiệp vụ (quy trình thực hiện công tác đấu thầu, quy

trình tính toán đầu tư xây dựng) có d ữ liệu quy trình

[QG.15.22.9

1], Mục 4.3.2 Báo cáo này,

Các ân phẩm khoa học (bài báo, báo cáo KH, sách chuyên khảo ) chỉ đươc chấp nhân nếu có ghi nhận địa chỉ và cảm om tài trợ của Đ H Q G H N theo đúng quy định.

Bản phô tô toàn văn các ấn phẩm này phải đưa vào Iphụ lục các minh chứng của báo cáo Riênp sách chuyên khảo cần có bản phô tồ bìa, trang đâu và trang cuôĩ có ẹhi thông tin mã sô'xuất

16

Trang 20

(Sản phẩm KHCN, luận án, luận văn)

1 Bài báo công b ố trên tạp chí khoa học quốc tế theo hệ

thống ISI/Scopus (0 1 ISI journal paper, 04 Scopus book

5 SỐ lư ợng bài báo trên các tạ p chí k h o a học của

Đ H Q G H N , tạp chí khoa học chuyên n g à n h quốc gia

hoặc báo cáo khoa học đ ăn g trong kỷ yếu hội nghị quốc

tế (Bài b áo cáo tổng kết đề tài này)

Trang 21

6 Báo cáo khoa học kiến nghị, tư vấn chính sách theo đặt

h à n g của đ ơ n vị sừ d ụ n g (03 báo cáo H ội thảo Việt N am

học lần th ứ năm )

7 K ết quả d ự kiến được ứ ng d ụ n g tại các cơ q u an hoạch

đ ịn h chính sách hoặc cơ sở ứ n g d ụ n g KH&CN: Tôhg

Công ty Điện lực Hà Nội ve quản lý quy trình nghiệp vụ và

khai phá quy trình tại Tôhg Công ty Điện lực Hà Nội

d u y ệt

(triệu đông)

K in h p h í thực h iệ n

v iết tổng q u an tài liệu, chủ nhiệm đề tài,

v iết báo cáo tổng kết)

Nội d u n g và kết quả n g h iên cứu của đề tài có ý nghĩa đối với việc nâng cao chất lư ợng các

m ô h ìn h quv trình n g h iệp v ụ tại cơ q u an ch ính qu y ền và các do an h nghiệp Việt N am D ù cho tr ìn h độ quản lý quy trình nghiệp v ụ tại V iệt N am v ẫn ở m ức rấ t thấp, tuy nhiên, n g h iên

Trang 22

cứ u về khai p h á q u y trìn h tro n g q u ả n lý quy trìn h n g h iệ p v ụ tại Việt N am là rất có ý ri'

k h o a học và thực tế

Đ ề tài đ ạt đư ợc kết q u ả đ á p ứ n g m ục tiêu tro n g th u y ế t m in h đề tài, tu y nhiên, quá t

th ự c hiện đề tài cho th ấ y các kết q u ả nói trên còn bộc lộ các h ạ n ch ế cần khắc p h ụ c và n cấp đ ể áp d ụ n g th à n h công vào q u ản lý quy trìn h n g h iệ p v ụ tại V iệt N a m trên thự c tế

n g h ị Đại học Q uốc gia H à N ội ủ n g hộ hỗ trợ các h o ạt đ ộ n g tiếp theo từ k ế t quả đ ề tài

P H Ầ N VII P H Ụ LỤC (M IN H C H Ứ N G CÁC SẢ N P H Ẩ M n ê u ở P H A N III)

M inh chứng các sản p h ẩ m n ê u ở P h ần III đư ợc tập h ợ p v à o các quyển P h ụ lục 1 và Phụ

2 k èm theo Báo cáo tổ n g kết này

(Thủ trưởng đcm vị ký tên, đóng dấu)

T / L HIỆU TRƯỞNG

Đ ơ n vị ch ủ trì đê tài

Hà Nội, ngày 31 tháng 8 năm 2017

Chủ nhiệm đê tà i (Họ tên, chữ ký)

PGS TS H à Q u an g Thụy

Trang 23

Đ Ạ I HỌC QUOC GIA HA NỘI

\CHQGKN

BÁO CÁO TỔNG KẾT KẾT QUẢ TH ựC HIỆN ĐÊ TÀI KH&CN

CẤP ĐẠI HỌC QUỐC GIA

V

Tên đề tài: Phát triêh các kỹ thuẫt tiên tiến khai phá mẫu từ nhật ký

sự kiện, xây dựng phan niêm và khung ứ ng dụng thử nghiệm tại doanh nghiệp Việt Nam

Chủ nhiệm đê tài: PGS TS Hà Quang Thụy

Phụ lục 1 Thuyết minh và báo cáo tiến độ

Hà N ội, tháng 8-2017

Trang 25

LỤ C

Ạ JC 2 T H U Y É T M I N I I Đ È T À I VÀ C Á C B Á O C Á O T Ĩ É N Đ Ộ

5.22.0.1] T h u y ế t m inh đề tài K H & C N năm 2015: P h á t triển các k ỹ thuật tiên tiến khai

p h ó m ẫ u từ n h ậ t kỷ s ự kiện, x â y d ự n g p h ầ n m ềm và k h u n g ứng d ụ n g th ử n g h iệm tại

d o a n h ngh iệp Việt N am

5.22.0.2] Báo cáo tiến độ Q G 1 5 2 2 _ 2 8 -0 1 -2 0 1 6

5.2 2 0 3 ] B áo cáo tiến đ ộ Q G 15.22 30-1 2 -2 0 1 6

Trang 27

MẦU 05/K H C N

(ban hành kèm theo Quy>ết định s ẻ 3839 /Q Đ -Đ H Q G H N ngày 24 th ả n g io năm 2014

của Giám đốc Đ ại học Q uốc g ia Hà N ội)

Tiếng Việt: Phát triển các kỹ thuật tiên tiến khai phá mẫu từ nhật ký sự kiện, xây dựng phần

m ềm và khung ứng dụng thử nghiệm tại doanh nghiệp V iệt Nam

Tiếng Anh: Developing novel techniques for pattern m ining in event-logs, im plem enting

tools and proposing an application frame in a Vietnamese company

2 - M ã số (được cap khi Hồ sơ trúng tuyển):

3 - Thòi g ian thự c hiện: 24 tháng, từ tháng 03/2015 đến tháng 02/2017

4 - Thông tin vể chủ nhiêm đề tài

Điện thoại:

Tên tổ chức đang công tác: Trường Đại học Công nghệ, ĐHQGHN

Địa chỉ tổ chức : 144 Xuân Thủy, c ầ u Giấy, H à Nội

5 - Thư ký đề tài (nếu có)

Điện thoại:

Tèn tổ chức đang công tác: Trường Đại học Công nghệ, ĐHQGHN

Địa chỉ tổ chức : 144 Xuân Thủy, c ầ u Giấy, H à Nội

6 - Đon vị chủ trì đề tài

Tèn tổ chức chủ trì đề tài: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội

Trang 28

E-mail: uet@ vnu.edu.vn

Website: http://w w w uet.vnu.edu.vn

Địa chỉ: 144 Xuân Thủy, c ầ u Giấy, Hà N ội

7 — Xuât xứ của đê tài (xét chọn, tuyển chọn, hợp tác )

Xét chọn theo Quyểt định số 4042/Q Đ -Đ H Q G H N ngày 31/10/2014 của Giám đốc ĐHQGHN về việc thành lập Hội đồng đánh giá thuyết minh đề tài khoa học và công nshệ cấp ĐHQGHN năm 2015

8 - Các đơn vị phối họp chính thực hiện đề tài (nếu có)

1 Công ty cổ phần công nghệ phần mềm Hài Hòa

Tên tô chức chủ quản

Địa chỉ: 15 D uy T â n ,c ầu Giấy, Hà Nội

9 - Các cán bô thưc hiên đề tài• • •

(Ghi những ngirời có đóng góp khoa học và thực hiện nhĩmg nội dimg chinh thuộc đơn vị chù trì và đơn vị Ị hợp tham gia thực hiện để tài, không quả 10 ngiỉời kê cà chù trì đề tài)

Sít Họ và tên, học hàm

học vị

Tổ chức công tác

Nội dung công việc tham gia gian làm Thòi

việc cho

đề tài

(Sổ tháng quy đồi2)

PGS.TS

Trường ĐHCN, ĐHQGHN

Tổ chức thực hiện đề tài; nghiên cứu, đề xuất dạng mẫư, phưcnm pháp khai phá mẫu từ nhật ký

sự kiện (NKSK); xây dựna khung ứng dụng KPQT tại Việt Nam

Trường ĐHCN Nghiên cứu, đề xuất dạng mầu,

phương pháp khai phá mẫu từ NKSK; tổ chức phát triển mô đun phần mềm; xây dựng khuna ứna dụns; KPQT tại Việt Nam

10

TS

Trường ĐHCN Nghiên cứu, đề xuất dạng mẫu,

phương pháp khai phá mẫu từ NKSK, xây dựng khung ứng dạng KPQT tại Việt Nam

Trang 29

Nguyễn Việt Cường

TS

Trường ĐHCN Nehièn cứu, khảo sát ứne dụng

KPQT, các phương pháp khai phá mẫu từ NKSK tại Nhật Bản

6

TS

Chù tịch cổ phần công nghệ phần mềm Hài Hòa

Xây dựng khung ứng dụng KPQT tại Việt Nam

10

ThS NCS

Viện CNTT (ĐHQGHN),NCS tạiTrường ĐHCN

Nghiên cứu phương pháp khai phá mẫu từ NKSK; phát triển

mô đun phần mềm

10

NhungThS NCS

HV Ngân hàng, NCS tại Trường ĐHCN

Nghiên cứu, đề xuất dạng mẫu;

nahiên cứu phương pháp khai phá mẫu từ NKSK; phát triển

mô đun phần mềm

10

II M Ụ C TIÊ U , N Ộ I DUNG VÀ SẢN PH Ẩ M D ự K IÉN• 7 • •

10 - Mục tiêu

(Bám sát và cụ thể hóa mục tiêu theo đặt hàng)

- N ghiên cứu, phát triển ba thuật toán, giải pháp tiên tiến khai phá mẫu dãy, mẫu thứ tự

11.1 ỉ.K h á i niệm khai phá quy trình

K hai phả quy trình (process mining) là m ột chuyên ngành nghiên cứu mới nổi, được

phát triển mạnh mẽ trong m ột thập niên gần đây Theo V an der Aalst, 2011 [Aalstl 1], khai phá quy trình là một lĩnh vực nghiên cứu liên kết học máy và khai phá dừ liệu (machine learning and data mining) ở một bên với mô hình hóa và phân tích quy trình (process

m odeling and analysing) ở bên kia, nhằm chiết xuất các tri thức có giá trị, liên quan đến quy

trình nghiệp vụ từ các nhật ký sự kiện (event log), bổ sung các phương pháp tiếp cận quản lý

quy trình nghiệp vụ (bussiness process management) Khai phá quy trình là m ột cầu nối quan

trọng của khai phá dừ liệu với mô hình hóa và phân tích quy trình nghiệp vụ, một thành phần chủ chôt của quản lý quy trình nghiệp vụ Xavier Sala-I-M artín và cộng sự vào năm 2014 [M OB14] đánh giá rằns doanh nghiệp tại các nưó'c kinh tế phát triển cần không ngừng đổi

mới việc thiêt kê và phát triển các sàn phảm và các quv trình liên tiến (cutting-edge) để duy

Trang 30

trì lợi thế cạnh tranh và tiến tới các hoạt động có giá trị gia tăng cao hơn; và nhận định cho thấy ý nehĩa thực tiễn quan trọng của khai phá quy trình.

Theo M ichael H am m er, 2010 [HamlO], quản lý quy trình nghiệp vụ được thể 1 theo hai phương diện là quản lý và công nghệ, về phương diện quản lý, quản lv quy ti nghiệp vụ là cách tiếp cận một cách hệ thống nhằm giúp các tổ chức, doanh nghiệp tiêu ch hóa và tối ưu hóa các quy trình hoạt động với mục đích giảm thiểu chi phí, tăng cường c lượng hoạt động nhằm đạt được các mục tiêu cần thiết, về phương diện công nghệ, quải quy trình nghiệp vụ là m ột bộ công cụ trợ giúp các tổ chức, doanh nghiệp trong việc thiết

mô hình hóa, triển khai, giám sát, vận hành v à cải tiến các quv trì nil nghiệp vụ linh hoạt, thể coi quản lý quy trình nghiệp vụ là công nghệ thúc đẩy sự họp tác giữa công nghệ th< tin và người dùng nhằm xây dựng các ứng dụng có khả năng tích hợp con người, quy trình thông tin trong tổ chức, doanh nghiệp

là một khái niệm con của thông minh kinh doanh (bussiness intelligence: BI); m ối quan này được chỉ ra trên Hình 1

Có ba kiểu khai phá quy trình là phát hiện (discovery), phù hợp (conform ance) và tă

cường (enhancem ent) [A alstl 1] Kỹ thuật p h á t hiện (nói rõ hơn là p h á i hiện quv trình) c

kết quả đầu ra là một mô hình quy trình tương ứng với một nhật ký sự kiện đầu vào Bài to phát hiện quy trình có dáng vẻ của bài toán phát hiện mẫu trong khai phá dừ liệu nói chur

Kỹ thuật p h ủ hợp (nói rõ hơn là kiểm tra p h ù hợp) cho kết quả đầu ra là m ột giá trị đo độ p

hợp cùa m ột cặp đầu vào gồm có một nhật ký sự kiện và m ột mô hình quy trình Kiểm 1

phù hợp còn nhận đầu vào là m ột nhật ký sự kiện và một tập luật kinh doanh Kỹ thuật tã,

cường đưa ra m ột phiên bản mở rộng hoặc cải tiến của một mô hình quy trình đầu vào khi

dụng một tập thể hiện các quy trình thực sự xẩy ra đã được ghi lại trong m ột nhật ký sự ki- đầu vào Dù là bất kỳ kiểu nào trong phát hiện, phù họp hay tănơ cường, kết quả khai phá qi trình luôn luôn có giá trị đónơ góp vào hoạt động bổ sunơ tài nguyên quy trình doanh n g h i ệ Ị

11.1.2 Tinh hình nghiên cứu ở ngoài nước

Có hai yếu tố chính làm cho khai phá quy trình nơày càng nhận đư ợc nhiều sự qu;

tâm của cộng đồng nơhiên cứu hàn lâm cũng như công nghiệp M ộ t m ặt, ngàv càng có nhi<

dữ liệu sự kiện được ghi nhân lại trong các hệ thống thông tin, giúp cung cấp tốt hơn c;

Trang 31

thông tin chi tiết về quy trình thực tế, và m ặt khác, xuất hiện noày càng nhiều các ỵêu cầu đặt

ra đối với việc hỗ trợ và cải tiến các quy trình nghiệp vụ trong môi trườnơ kinh doanh có tính cạnh tranh cao với nhiều thay đổi nhanh chóng như hiện nay Sự hấp dẫn cùa khai phá quy trình dẫn đen sự ra đời của Đ ội đặc nhiệm IEEE về khai phá quv trình (IEEE Task Force on Process Mining: IEEE-TFoPM ) vào năm 2009 Ke từ khi được ủ y ban kỹ thuật khai phá dữ liệu (Data M ining Technical Committee - DM TC) thành lập, đội đặc nhiệm IEEE về khai phá quy trình ngày càng thu hút ngày càng đông đảo cộng đồna hàn lâm - công nghiệp, bao gồm nhiều nhà cuns cấp phần mềm, nhiều công ty tư vấn và nhiều cơ sở nghiên cứu hàn lâm

H ình 2 Các kỹ thuật khai phá quy trình trích xuất tri thức từ nhật ký sự kiện để phát hiện, giám sát và cải tiến quy trình [A alstl 1]

IEEE-TFoPM tổ chức/đồng tổ chức nhiều hội nghị thường niên về khai phá quy trình, bao go m các hội nghị khoa học về thông minh quy trình nghiệp vụ (Business Process Intelligence - BPI: BPI 2009-2013) và các hội nghị chính thường niên IEEE Com putational Intelligence and Data M ining (IEEE-CIDM ) Công bo khoa học về khai phá quy trình đang theo xu thế tăng nhanh trong các năm gần đây Đồng thời, kỳ thuật khai phá quy trình ngày được trưởng thành và được hỗ trợ bởi một loạt công cụ, trong đó điển hình nhất là bộ công cụ ProM N hiều nhóm nghiên cứu khắp nơi trên thế giới đã đóng góp vào sự phát triển của bộ công cụ ProM và hàng nahìn tổ chức đã tải bộ cô n s cụ này [A alstl ] ]

5

Trang 32

Van der Aalst và cộng sự (gồm 77 chuyên gia thuộc 53 tổ chức hàn lâm - công nghi

đã ra Tuyên ngôn khai phá quu trình vào năm 2011 [M aneftol2] Tuyên ngôn khai phá I

trình nhấn mạnh ba yếu tố đặc trưng của khai phá quy trình T hứ nhất, khai phá quy tt

không hạn che chỉ là phát hiện mô hình dạng dòng điều khiển m à còn bao gồm các bài t phát hiện, kiểm tra phù hợp, tăng cường quy trình và một số bài toán liên quan khác, đ< thời, mục tiêu khai phá dữ liệu không chỉ dòng điều khiển mà còn các kiểu thông tin k

(Hình 2) Thứ hai, khai phá quy trình không phải là m ột dạng cụ thể của khai p h á dữ liệu

đó cần phải đề xuất các phương pháp và thuật toán riêng cho khai phá quy trình Thứ ba, k phá quy trình không chỉ được thực hiện ngoại tuyến mà còn được thực hiện trực tuyến (oni

analysis) đê tăng cường quy trình nghiệp vụ có tính thời gian thực.

Tuyên ngôn khai phá quy trình nêu lên 6 nguyên tắc hướng dẫn và 11 thách thức với khai phá quy trình Sáu nguyên lý hướng dần trong Tuyên ngôn khai phá quy trình là

Dữ liệu sự kiện nên được đối xử như “công dân hạng nhất” ; (ii) Trích xuất nhật ký sự k nên được điều khiển bằng truy vấn; (iii) Truy nhập đồng thời, chọn lọc và cấu trúc dòng đ khiên cơ bản đa dạng nên được hỗ trợ; (iv) Sự kiện nên liên quan tới các yếu tổ mô hình;

Mô hình nên được xử lý trừu tượng hóa m ột cách có mục đích của thực tiễn; (vi) Khai ị: quy trình nên là m ột quá trình liên tục

Hai thách thức đầu tiên trong 11 thách thức đối với khai p há quy trình có liên quan

dừ liệu sự kiện:

- Dữ liệu sự kiện: (i) được phân bố trên nhiều nguồn; (ii) "định hướng đổi tượr

(object centric) cụ thể mà không phải là "định hướng quy trình" {process centri

(iii) "không đầy đủ" (incomplete); (iv) chứa ngoại lai (outliers) hoặc nhiễu (nois (v) chứa nhiều mức cô đọng (granularity) khác nhau; (vi) được xuất hiện tro

nhiều ngữ cảnh; v.v

- Nhật ký sự kiện phức tạp với các đặc trưng đa dạng, có thể: (i) quá lớn tạo gâv kh khi xử lý; (ii) quá nhỏ mà không cho phép cung cấp thông tin tin cậy; (iii) khó kh

do chấp nhận giả thiết "thế giới mờ" (open w orld assum ption); v.v.

Các kỹ thuật khai phá m ẫu từ nhật ký sự kiện được thực hiện trong đề tài này là thu vào nhóm các giải pháp kỹ thuật thích ứng với hai thách thức trên đây

T r o n g n ư ớ c (Phán tích, đảnh giá tình hình nghiên cím trong nước thuộc lĩnh vực nghiên cứu cùa để t

những kêt quả nghiên cừu liên quan đến để tài mà các cản bộ tham gia đã thực hiện Nett có các để tài cù lĩnh vực đã và đang dược thực hiện ờ cấp khác, nơi khác thì phái phán tích nêu rõ các nội đung liên quan C

đê tài này; Nêu phái hiện có đê tài đang tiến hành mà có thể phổi hợp nghiên cứu được thì cằn ghi rõ- Tên lài, Tên Chủ trì và đơn vị chù trì để tài đó).

Thông mi nil quy trình, một lẽ tất yếu, được ứng dụnơ để tạo ra lợi thế cạnh tranh cl mọi tổ chức, mọi quốc gia trên thế giới [MOB14], Hiện tại, nước ta đã bắt đầu quan tâm t việc tăng tốc các quy trình quản lý dựa trên việc sử dụng công nghệ thông tin, chẳng hi ngành thuế phấn đấu giảm thời gian khai thuế cùa doanh nghiệp từ 500 g iờ xuốno còn 2( giờ Tuy nhiên, do thông m inh kinh doanh ở nước ta còn ở một trình độ rất thấp, đặc biệt nh

ký sự kiện vừa không phô biển vừa chưa được khai thác cho thông minh quy trình, cho n< nghiên cứu về khai phá quy trình ở Việt Nam còn ờ mức rất sơ khai và chưa có các kết qi nghiên cứu đáng kể

Ngoài nhóm nghiên cứu thuộc Phòng Thí nghiệm Công nghệ Tri thức (K TLab) t Trường ĐHCN, ĐHQGHN (như được giới thiệu dưới đây), hiện tại có nhóm nghiên cứu CI PGS TS Hoàng Hữu Hạnh tại Trường Đại học Khoa học (Đại học Huế) có quan tâm nghié

cứu vê khai phá quy trình M ột luận văn Thạc sỹ với đề tài ”N ghiên cứu về khai phá quá trừ.

Trang 33

và ứnị dụng'■ do học viên Nguyễn Anh Dũng thực hiện dưới sự hướng dẫn của PGS TS

H oàna Hữu Hạnh đã được hoàn thành Có liên quan tới thông minh quy trình, trong giai đoạn 2010-2014, nhóm nghiên cứu của PGS TS Hoàng Hữu H ạnh tập trung thực hiện đề tài

N afostsd " ủ n g dụng khái niệm Web ngữ nghĩa trong quản lý tiến trình công tá c ' (m ã sô

102.02-2010.14) với các kết quả nghiên cứu là có điểm khác biệt so với khai phá quy trình

Phòng Thí nghiệm Công nghệ Tri thức có quá trình lâu dài nghiên cứu và triển khai về khai phá dừ liệu và đạt được các kết quả nghiên cứu đáng ghi nhận Nói riêng, trong giai đoạn 2009-2014, người viết thuyết m inh đề cương (chủ trì đề tài dự kiến) PGS Hà Q uang Thụy công hố được 28 bài báo về chủ đề khai phá dữ liệu (01 bài báo tạp chí TKDE (S C I)

[XCDL11], 01 bài báo tạp chí F u n d a m e n ta In fo rm a tic a e (ISI) [T H Q L H 14], 01 bài báo

tạp ch: PLOS ONE (ISI) [N M H Q 13], 06 bài báo hội nghị IS I-covered conferences, 12 bài báo thuộc Scopus-index và 4 bài báo quốc tế - quốc gia khác) M ục B trong danh sách tài liệu tham khảo chỉ dẫn một sổ công trình nghiên cứu của KTLab từ năm 2011 tới nay Các kết quả nđ iiên cứu nói trên thuộc lĩnh vực nghiên cứu khai phá dữ liệu, tập trung vào khai phá

dữ liệu văn bản - web - phương tiện xã hội, bao gồm các nghiên cứu về các giải pháp khai phá mẫu và phân cụm là các kết quả có liên quan trực tiếp tới nội dung của đề tài Đ iều đó cho thày thế mạnh về năng lực khoa học của nhóm nghiên cứu trong việc thực hiện đề tài về khai phá mẫu trong phát hiện quy trình

Hơn nữa, từ năm 2013, các nhà khoa học thuộc KTLab đã hướng dẫn các nghiên cứu sinh, học viên cao học và sinh viên đại học nghiên cứu theo các chủ đề thuộc khai phá quy trình Có sáu khóa luận tốt nghiệp cử nhân về khai phá quy trình thec các nội dung (i) phát hiện mô hình quy trình bằng phương pháp m iền trạng thái (Process Discovery Using State- Based Regions), (ii) kiểm tra sự phù hợp bằng phương pháp phát lại (token replay) và so sánh dấu vết (ComparingFootprints); (iii) kiểm tra sự phù hợp của nhật ký sự kiện (event log) với luật kiinh doanh theo lôgic thời gian tuyến tính (Linear Time Logic) đã được hoàn thành Bổn (4) luận văn Thạc sỹ có m ục tiêu nghiên cứu và phát triển các thuật toán nâng cao phát hiện quy trình và kiêm tra độ phù hợp đang được tiến hành, ở mức cao hưn, hai nghiên cứu sinh Hoàng Vũ và Bùi Thị Hồng N hung đang thực hiện luận án Tiến sỹ theo các nội dung nghiên cứu về các chủ đề liên quan trực tiếp tới nội dung của đề tài này; hai nghiên cứu sinh này cùng với hai nghiên cứu sinh Trần Mai Vũ và Lê Hoàng Quỳnh là các thành viên của nhóm thực hiện đề tài

Đồng thời, Phòng Thí nghiệm KTLab đã và đang xúc tiến hợp tác với Công ty cổ phần

I công nghệ phần mềm Hài H ò a1 (đứng đầu là TS N guyễn N hật Quang) trong việc khởi động

m ột vài trường họp nghiên cứu ứng dụng thử nghiệm về khai phá quy trình tại V iệt Nam , trong đó có cải tiến các quy trình quản lý dự án trong lĩnh vực xây dựng công trình giao thông Các trường hợp nghiên cứu thử nghiệm này được phát triển từ hoạt động triển khai phiên bản đầu tiên hệ thống thông tin quản lý dự án của Công ty cổ phần công nghệ phần mềm Hài Hòa Trong quy trình nâng cấp, phần mềm hệ thống thông tin dự án sẽ được tích hợp thêm một vài thành phần khai phá quy trình Chính vì lý do đó, Công ty cổ phần công nghệ phần mềm Hài Hòa là một tổ chức phối hợp chính thực hiện đề tài và TS Nguyễn N hật Quang là m ột thành viên của đề tài

Từ năm 2012, theo gợi ý củã Giáo sư B art Baesens2 tại Catholic University o f Leuven (KU Leuven), nhóm thực hiện đề tài đã cộng tác với nhóm nghiên cứu của Giáo sư đề xuất các dự án VLIR-UOS về khai phá quy trình N ăm 2014, hai bên phối hợp đề xuất m ột đề tài

N afosted-Flander với tiêu đề “Phát triên các kỹ thuật khai p h á quy trình tiên tiến nhằm cải

1 h ttp ://\v \v \v h a rro o n v so ft.c o ro v n /

2 http://www.econ.kuleuven.be/public/NDBAD 13/

7

Trang 34

tiên quy trình nghiệp vụ và triển khai áp dụng thử nghiệm tại Việt Nam ” và đ ang đợi kết

phê duyệt KU Leuven là một trường đại học của Bỉ có danh tiếng trên thể giới, thuộc 101-150 đại học hàng đầu thế giới theo xếp hạng của Đại học Giao thông T hư ợ ng Hải (Tr

Q uốc)3 và thuộc tốp 50-70 tổ chức khoa học hàng đầu thế giới theo xếp hạng củ a SCIm a Giáo sư.Bart Baesens và nhóm nghiên cứu là một nhóm nghiên cứu m ạnh về thông minh trình nghiệp vụ, thông minh web và khai phá web Nhiều công trình nghiên cứ u về th

minh quy trình nghiệp vụ được công bố trên các ấn phẩm khoa học có uy tín cao M ụ c A

liệu tham khảo có chứa một sổ kết quả nghiên cứu về khai phá quy trình cùa Bart Baesen: cộng sự (trong đó có nhiều công trình công bố trong hai năm 2012-2014) thể h iện trình cao của đối tác quốc tế về các nội dung nghiên cứu trong đề tài Việc cộng tác k h o a học đối tác nhóm nghiên cứu của Giáo sư.Bart Baesens tại KU Leuven đã v à đang tạ o cơ hội nhóm nghiên cứu có thêm điều kiện thâm nhập sâu vào các chủ đề thời sự của k h ai phá <trình và tiếp nhận được sự chuyển giao khoa học - công nghệ trình độ tiên tiến thế giớ: phía đối tác

11.2 Đ ịnh h ư ớ n g nội dung cần nghiên c ứ u của đề tài, luận giải về s ự cần thiết, tỉnh cấị bách, ỷ nghĩa lý luậ n và thực tiễn

(Trên cơ sở đánh giá tình hình nghiên círu trong và ngoài nước, phân tích những công trình nghiên cíni có quan, những kêt quà mới nhát trong lĩnh vực nghiên cừu, cằn nêu rõ nhĩmg van đề còn ton tại, từ đó nêu â mục tiêu nghiên cứu và hướng giài quyết mới, những nội dung cần thực hiện - trà lời câu hỏi đề tài ngì cím giài quyết vân đề gì, những thuận lợi khó khăn cẩn giải quyết).

Như đã trình bày ở trên, hai thách thức to lớn đối với khai phá quy trình x u ấ t phát

dữ liệu sự kiện N ảy sinh hai vấn đề nổi bật liên quan tới hai thách thức này T hử nhât, n

ký sự kiện quá lớn tạo ra các khó khăn đối với các công cụ khai phá quy trình hiện có, che hạn, công cụ ProM 5.2 không làm việc được với m ột số bộ dữ liệu sẵn có N guyên lý "chia

trị" hiện đang được quan tâm nghiên cứu [A a lstl3, A alstl3a, BA12] Thứ hai, các sự k

trong nhật ký sự kiện quá cụ thê với mức trừu tượng rất thấp M ột hướng giải pháp được qi tâm là tông hợp các sự kiện cỏ mức trìru tượnơ thảp (cá nhàn cụ thể) thành sự k iện ở mức chức Ví dụ, khi phân tích quv trình chẩn đoán và điều trị cho m ột nhóm bệnh nhàn thì khô quan tâm các xét nghiệm cá nhản được ghi trong hệ thống thông tin của phòng x ét nghií của bệnh viện m à các bản ghi này cần được trừu tượn® hóa ở mức cao hơn

Nội dung nghiên cứu được định hướng trong đề tài ià vấn đề nâng m ức trừu tượng c

dừ liệu sự kiện [BA09] và phát hiện mẫu là m ột hướng điển hình giải quyết vấn đề nâng m

trừu tượng của dừ liệu sự kiện Theo R p Jagadeesh Chandra Bose [Bose 12], m ẫ u (patter

là một yêu tô có tính thường xuyên trong nhật ký sự kiện M ầu hàm ý sự tươnơ quan- mạ giữa các yếu tố (ví dụ như các hành động, tài nguyên, v.v.) tham gia vào m ẫu v à biểu di câu trúc thủ vị nào đó về các khía cạnh của quá trình mà khôno phải là m ột bản tóm tắt quá trình này H ình 3 trình bày ba kiểu mẫu điển hình: mẫu hành động tro n g các trường hi (Hình 3(i)), phân cụm các trường hợp (Hình 3 (ii)), mẫu trườns hợp tiến hóa quv trình (Hì) 3(i)) Phát hiện m ầu không chỉ là một giải pháp nâng mức trừu tượnơ đối với dừ liệu sự ki

m à còn tăng cường hiệu lực của các bài toán phát hiện quy trình, kiểm tra phù hợp và tăi cường quy trình trong khai phá quy trình N hiều côns trình nghiên cửu liên quan đã đư< công bổ, chẳng hạn [BA09, BA09a, BA09b, BA10, BA12, BA12a, BA13, B A Z P 1 1, Bosel LBA10] Luận án Tiến sỹ của R p Jagadeesh Chandra Bose [Bose 12] là một nghiên Cl điên hình bao gói nhiều giải pháp khai phá mẫu dãy trons khai phá quv trình Tác giả luận ; đưa ra ý tưởng nâng cấp các kết quả nghiên cứu được thực hiện trong luận án không chỉ '

khai phá mẫu dãy (sequence patterns) mà còn về khai phá mẫu thứ tự bộ phận (partial or ả

3 http://www.arwTi.org/

4 http://www.scima<io.es/

Trang 35

Theo R P Jagadeesh Chandra Bose [B osel2], ba hướng nổi bật trong khai phá m ẫu

trong khai phá quy trình là trừu tượng hóa sự kiện (Abstractions o f Events) [BA09, BA 13], phân cụm vết ( Trace Clustering) [BA09a, BA09b, BA10, BA12a] và tiến hóa quy trình

(Concept Drift) [B A Z P11, B A I3], Hình 3 mô tả các tình huống tương ứng với ba hướng khai

phá m ẫu từ nhật ký sự kiện

K ỹ thuật trừu tượng hóa sự kiện giải quyết vấn đề về dữ liệu sự kiện nội tại vết quy

trình q u á cụ thể hoặc/và có nhiều mức trừu tượng trong nhật ký sự kiện nhằm đạt tới tới mức

trừu tượng dữ liệu tương ứng với bài toán khai phá quv trình K ỹ thuật phân cụm vết giải quyết việc nhóm các vết quy trình tương tự nhau thành các cụm K ỹ thuật tiến hỏa quy trình

giải quvết vấn đề nhận biết sự thay đổi của các quy trình doanh nghiệp theo thời gian Cả ba

kỹ thuật cũng góp phần giải quvết vấn đề cô đọn2 nhật ký sự kiện

Mục tiêu đề tài đã tường minh nội dung định hướng đề tài tới các kỹ thuật khai phá

Trang 36

mẫu trên đây: (i) Đ ịnh nghĩa các dạng mẫu dãy, mẫu thứ tự bộ phận m ới có thể khai phá đ

từ nhật ký sự kiện; (ii) Phát triển các thuật toán, giải pháp tiên tiến khai phá m ẫu từ nhậl

sự kiện dựa trên (i) xây dựng các biểu diễn dừ liệu mới (tronơ đó có biểu diễn dựa trên đồ

và cải tiên các thuật toán giải pháp hiện đại trên cơ sở cách biểu diễn mới; (ii) cải tiến thuật toán, giải pháp hiện đại từ các miền írnơ dụns khác vào miền ứng dụng khai phá mẫi nhật ký sự kiện; (iii) X ây dự ns được một khung ímg dụng thử nghiệm khai phá quy trình doanh nghiệp Việt N am làm cơ sở luận giải về khả năng ứng dụng khai phá quy trình thực tiễn doanh nghiệp V iệt Nam

v ề m ặt khoa học, các kết quả nghiên cứu của đề tài, đặc biệt là các công bố quốc được kỳ vọng đóng góp m ột số kỹ thuật, giải pháp tiên tiến khai phá mẫu từ nhật ký sự ki tham gia vào dòng giải pháp xử lý các nhật ký sự kiện lớn, phức tạp v ề m ặt ứng dụns, kết quả nghiên cứu của đề tài, đặc biệt là khung ứng dụng thử nghiệm khai phá quv trình doanh nghiệp Việt N am được kỳ vọnơ như các đóng góp mang tính dẫn dát đối với sự p triển của thông minh quy trình ở nước ta

11.3 L iệt kê danh m ụ c các công trình nghiên cứu, tài liệu có liên quan đến đề tà i đã tr dẫn k h i đảnh giá tổn g q ua n

A Tài liệu tham khảo nước ngoài

[A alstllỊ W M P Van der Aalst (2011) Process Mining: Discovery, Conformance and Enhancement

Business Processes, Springer.

[A alstlj] Wil M P van der Aalst (2013) Decomposing Petri nets for process mining: A generic approc

Distributed and Parallel Databases 31(4): 471-507.

[Aalst13a] W il M p van der Aalst (2013) A General Divide and Conquer Approach for Process Mini

FedCSIS 2013: 1-10.

[ASJ04] Alan R Hevner, Salvatore T March, Jinsoo Park, Sudha Ram (2004) Design Science

Information Systems Research M IS Quarterly 28(1): 75-105.

[AW04] van der Aalst, w and Weijters, A (2004) Process mining: a research agenda, Computers

I n d u s tr y 53, 3, 231-244.

[ALVS12J Avinash Achar, Srivatsan Laxman, Raajay Viswanathan, p s Sastry (2012) Discover

injective episodes with general partial orders Data Min Know! Discov 25(1): 67-108.

[AZ12] Charu c Aggarwal, ChensXiang Zha (2012) A Survey o f Text Clustering Algorithms Min Text Data 2012: 77-128.

[AZ13] Charu c Aggarwal, Peixiang Zhao (2013) Towards Graphical models for text processing Kno

Inf Syst 36(1): 1-21.

[BA09] R P Jagadeesh Chandra Bose, Wil M p, van der Aalst (2009) Abstractions in Process Mining:

Taxonomy of Patterns B P M 2009: 159-175

[BA09a] R p Jasadeesh Chandra Bose, Wil M p van der Aalst (2009) Trace Clustering Based

Conserved Patterns: Towards Achieving Better Process Models Business Process Managenh

Workshops 2009: 170-181.

[BA09b] R P Jaaadeesh Chandra Bose, Wil M p van der Aalst (2009) Context Aware Trace Clusterii

Towards Improving Process M inin? Results S D M 2009: 401-412.

[BA10] R P Jasadeesh Chandra Bose, Wil M p van der Aalst (2010) Trace Alignment in P ro a

Mining: Opportunities for Process Diagnostics BPM 2010: 227-242.

[BA 12] R.p Jagadeesh Chandra Bose, Wil M p van der Aalst (2012) Process M ining Applied to the B

Challenge 2012: Divide and Conquer While Discerning Resources Business Process Managemc

Workshops 2012: 221-222

[BA12a]b R p Jagadeesh Chandra Bose, Wil M p van der Aalst (2012) Process diagnostics using tra

alignment: Opportunities, issues, and challenges Inf Syst 37(2): 117-141.

[BA 13] R P Jasadeesh Chandra Bose, Wil M p van der Aalst (2013) Discovering signature patter

from event logs CID M 2013: 111-118.

[BAZP11] R P Jagadeesh Chandra Bose, Wil M.p van der Aalst, Indre Zliobaite and M ykola Pechenizk

(2011) Handling Concept Drift in Process Mining CAiSE 2 0 ] I: 391-405.

[Bose 12] R P Jaoadeesh Chandra Bose (2012) Process Mining in the Large: Preprocessing Discover

and Diagnostics PhD Thesis, Eindhoven University o f Technology, The Netherlands.

Trang 37

[BWBV12] vanden Broucke s , De Weerdt J, Baesens B, Vanthienen J (2012) An improved artificial

negative event generator to enhance process event loss, Lecture Notes in Computer Science, pp 254 -

269, International Conference on Advanced Information Systems Engineering (CAiSE'12) (Gdansk (Poland)).

[BWVB13] vanden Broucke s , De Weerdt J, Vanthienen J, Baesens B (2013) A comprehensive benchmarking framework (CoBeFra) for conformance analysis between procedural process models and

event logs in ProM, Proceedings o f the IEEE Symposium on Computational Intelligence and Data

Mining, CID M 2013 (accepted)

[CJHJ14] Radha Chitta, Rong Jin, Timothy c Havens, Anil K Jain (2014) Scalable Kernel Clustering:

Approximate Kernel k-means CoRR abs/1402.3849.

[CVB13] Caron F, Vanthienen J, Baesens B (2012) Rule-Based business process mining applications for

management, Proceedings o f the International Symposium on M anagement Intelligent Systems, pp 273

- (Salamanca, Spain).

[CVB13] Caron F, Vanthienen J, Baesens B (2013).Comprehensive rule-based compliance checking and

risk management with process mining decision support systems, Decision Support Systems, vol 54, no

3, pp 1357- 1369.

[CVB 13a] Caron F, Vanthienen J, Baesens B (2013) A comprehensive investigation of the applicability of

process mining techniques for enterprise risk management, Computers in Industry, voir 64, pp 464

-475.

[GCA13] Jorge Munoz-Gama, Josep Carmona, Wil M p van der Aalst (2013) Conformance Checking in

the Large: Partitioning and Topology B P M 2 0 I3 : 130-145.

[GCA13Ị Jorge Munoz-Gama, Josep Carmona, Wil M p van der Aalst (2013) Conformance Checking in

the Large: Partitioning and Topology BPM 2013: 130-145.

[GMBHV08] Goedertier, s., Martens, D., Baesens, B., Haesen, R and Vanthienen, J (2008) Process

mining as first-order classification learning on logs with negative events, Business Process

Management Workshops, 42-53.

[GMVB09] Goedertier, s., Martens, D., Vanthienen, J and Baesens, B (2009) Robust Process Discovery with Artificial Negative Events, Journal o f Machine Learning Research, 10, 1305-1340.

[G W M V 11] Goedertier s , De Weerdt J, Martens D, Vanthienen J, Baesens B (2011) Process discovery in

event logs: an application in the telecom industry, Applied Soft Computing, vol 11, no 2, pp 1697 -

[LBA10] Jiafei Li, R p Jagadeesh Chandra Bose, Wil M p van der Aalst (2010) M ining Context-

Dependent and Interactive Business Process Maps Using Execution Patterns Business Process

Competitiveness Report 2013-2014: Full Data Edition), The World Economic Forum.

[PLP09] Darius Pfitzner, Richard Leibbrandt, David M w Powers (2009) Characterization and evaluation

o f similarity measures for pairs of clusterings KnoM’l Inf Svst 19(3): 361-394.

[WBVB10]De Weerdt J, De Backer M, Vanthienen J, Baesens B (2010) A critical evaluation study of

model-log metrics in process discovery, Business Process Management Workshops, vol 66, pp 158 -

169, Workshop on Business Process Intelligence (BPI2010) (New Jersey, US).

[WBVB11] De Weerdt J, De Backer M, Vanthienen J, Baesens B (2011) A robust F-measure for

evaluating discovered process models, SSCI2011CIDM , pp 148 - 155 (Paris, France,).

[WBVB12] De Weerdt J, De Backer M, Vanthienen J, Baesens B (2012) A multi-dimensional quality

assessment o f state-of-the-art process discovery algorithms using real-life event loẹs, Information

Systems, vol 37, no 7, pp 654 - 676.

[WBVB13] De Weerdt J, vanden Broucke s , Vanthienen J, Baesens B (2012) Active trace clustering for

improved process discovery, IEEE Transactions on Knowledge and Data Engineering, (accepted)

11

Trang 38

[WCVB13] De Weerdt J, Caron F, Vanthienen J, Baesens B (2013) Getting a grasp on clinical patl

data: an approach based on process mining, Emerging Trends in Knowledge D iscovery and

M ining (LNAI 7769), pp 22 - 35, PAKDD 2012 International Workshops: DMHM, GeoDoc, 3<

and DSDM (Kuala Lumpur (Malaysia)).

[WSVB13] De Weerdt J, Schupp A, Vanderloock A, Baesens B (2013) Process mining for the rr

faceted analysis o f business processes - A case study in a financial services organization Compute

Industry, vol 64, pp 57 - 67.

B Tài liệu tham khảo của nhóm nghiên cứu

[AQLH12] All Rezaei Divroodi, O uang-T huv H a, Linh Anh Nguyen, and Hung Son Nặuyen (2012)

C-Leamability in Description Logics I C C C I2012 (Part I, LNAI 7654): 230-238, Ho Chi M inh <

Vietnam, November 27-30, 2012.

[CHI 1] Cù Thu Thủy H ả Q u ang T huv (2011) Phát hiện tập mục dữ liệu sporadic không tuyệt đố

ngưỡng mờ, Tin học và Điều khiển học, 27(2): 142-150.

[CHI la] Cu Thu Thuv H a Q uang T huv (2011) Mining Fuzzy Perfectly Sporadic Itemsets with

Thresholds, Proceedings o f the 13th National Conference on Information Technology o f Vietnam: '

275 (in Vietnamese).

[DMTQ11] Duc-Trong Le, Mai-Yu Tran Tri-Thanh Nguyen, O uan g -T h u v H a (2011) Co-refen

Resolution in Vietnamese Documents Based on Support Vector M achines, Ĩ.4LP 2011: 89-93.

[DTQ14] Dinh-Luyen Bui, Tri-Thanh Nguyen O uang-T huv H a (2014) Measuring the Influenci

Bloggers in Their Community Based on the H-Index Family 1CCSAMA 2014 (T v Do et al (e

Advanced Computational M ethods fo r Knowledge Engineering), Advances in Intelligent Systems

Computing 282: 313-324.

[HMNN11] Hoang-Quvnh Le Mai-Vu Tran, Nhat-Nam Bui, Nguyen-Cuong Phan, O u a n g -T h u y (2011) An Integrated Approach Using Conditional Random Fields for Named Entity Recognition

Person Property Extraction in Vietnamese Text, L4LP 2011: 115-118.

[FiNNLl 1] H à Q uang T huv, Nguyễn Ngọc Hóa, Nauyễn Viết Thế, Lương Nguyễn Hoàng Hoa (20

Mô hình giải pháp lọc nội dung hỗ Ượ quản lý và đảm bào an toàn - an ninh trên Internet, Chuyên

các công trình nghiên cứu, phát triển và ứng dụng C N TT & Truyền thõng, V -l (6/26): 260-270

2 0 1 1

[H TM Q 11] Huyen-Trang Pham, Tien-Thanh Vu, Mai-Vu Tran, Q uang-T huv Ha (2011) A Solution

Grouping Vietnamese Synonym Feature Words in Product Reviews, IEEE APSCC ’2017, Jeju, Korei

[NM HQ13] Nigel Collier, Mai-Vu Tran, Hoang-quynh Le Q u ang-T huy H a, Anika Oellrich, Diet Rebholz-Schuhmann (2013) Mining phenotype candidates from the scientific literature with div< hypothesis resolution strategies PL O S O N E 8(10): e72965.

[QTHC11] Q uang-T huy H a Tien-Thanh Vu, Huyen-Trang Pham, Cons-To Luu (2011) An Upgrac

Feature-based Opinion Mining Model on Product Reviews in Vietnamese, A Ả ÍT ’201 J: 173-1

Lanzhou, China.

[QTLH12] O uang-T huv H a Thi-Lan-Giao H oans, Linh Anh Nguyen, Hung Son Nguyen, Andrzej Sz; and Thanh-Luong Tran (2012) A Bisimulation-based Method o f Concept Learning for Knpwle

Bases in Description Logics, SoICT'2012: 241-249 Ha Long, August 23-24, 2012.

[QTTT12] Q uang-T huv H a, Thi-Oanh Ha, Thi-Dung Nguyen, Thuy-Linh Nguyen (2012) Refining

Judgement Threshold to Improve Recognizing Textual Entailment Using Similarity, IC C C I2012 (I

II, LNAI 7654): 335-344, Ho Chi Minli City, Vietnam, Novem ber 27-30.

[TH C Q 11] Tien-Thanh Vu, Huyen-Trang Pham, Cong-To Luu, O u ang-T huv H a (2011) A Feature-ba

Opinion M inina Model on Product Reviews in Vietnamese, Studies in Computational Intelligence Í

[TLQ12] Thi-Ngan Pham, Le-Minh N»uyen, O uang-T huv H a (2012) Named Entitv Recognition Vietnamese documents using semi-supervised learning method o f CRFs with Generalized Expectat

Criteria, L4LP 2012: 85-89, H aN oi, Vietnam, November 13-15, 2012.

[TQ TLH 14] Thanh-Luong Tran, Q uang-T huy H a Thi-Lan-Giao Hoang, Linh Anh Nguyen, Hung s

Nguyen (2014) Bisimulation-Based Concept Learning in Description Logics Fundam Inform 133

Trang 39

[TQTL13] Thanh-Luong Tran, Q uang-T huv H a, Thi-Lan-Giao Hoang, Linh Anh Nguyen, and Hunơ Son

Nguyen (2013) Bisimulation-Based Concept Learning in Description Logics, c s & p 2013: 421-433.

[TQ14] Tri-Thanh Nguyen Q uang-T huv H a (2014) Novel Operations for FP-tree Data Structure and

Their Applications ICCSẢM.4 2014 (T.v Do et al (eds.), Advanced Computational Methods fo r

Knowledge Engineering), Advances in Intelligent Systems and Computing 282: 229-242

[TSQN12] Tien Thanh Vu, Shu Chang, O uang Thuy H a , and Nioel Collier (2012) An Experiment in

Integrating Sentiment Features for Tech Stock Prediction in Twitter, 1EEASMD 2012' 23-38, Mumbai,

India, December 9, 2012.

[TTPQ13] Thi-Naan Pham, Thi-Thom Phan, Phuoc-Thao Nguyen, O uang-T huv H a (2013) Hidden Topic

Models for Multi-Label Review Classification: An Experimental Study, IC C C I2013: 603-611.

[TTQ13] Thi-Tuoi Nguyen, Tri-Thanh Nguyen, Q uang-T huy H a (2013) Applying Hidden Topics in

Ranking Social Update Sữeams on Twitter, RIVF 2013: 180-185.

[XCDL11] Xuan-Hieu Phan, Cam-Tu Nguyen, Dieu-Thu Le, Le-Minh Nguyen, Susumu Horiguchi, and

Q uang-Thuy Ha (2011) A Hidden Topic-Based Framework Towards Building Applications with

Short Web Documents, IE E E Transactions on Knowledge a n d Data E ngineering, 23(7): 961-976,

tế Một trường họp là m ột dãy các sự kiện, trong đó ghi nhận hành động của sự kiện, người hành động, thông tin thời gian và các thông tin khác Hình 4b trình bày m ột dạng thu gọn của nhật ký sự kiện, trong đó mỗi trường hợp được chỉ dẫn bằng một chỉ số sự kiện và được thể hiện bởi một vết hành động (trace) được ghi nhận trong trường hợp Nhật ký sự kiện dạng thu gọn chính là đầu vào của bài toán phát hiện quy trình để cho ra một mô hình quy trình dưới

m ột dạng biểu diễn nào đó (ví dụ như lưới Petri, BPMN: Business Process M odeling Notation, YAWL: Yet Another W orkflow Language, Causal Nets, và EPC: Event-Driven Process Chains) Hình 4c m ô tả lưới Petri kết quả phát hiện được từ nhật ký sự kiện (ĩlìn h 4b) Có thể nhận thấy, m ỗi vết trong nhật ký sự kiện là m ột xâu ký tự (biểu thị hành động) và

m ột nhật ký sự kiện là m ột tập các xâu ký tự (các vết) Đ iều này cho thấy tiềm năng hoàn thành nội dung nghiên cứu m ẫu của nhóm thực hiện đề tài trên cơ sở thể mạnh khai phá dừ liệu văn bản

Tồn tại m ột số lượng phong phú các phương pháp biểu diễn xâu văn bản và việc xem

xét các dạng m ẫu khai phá được từ nhật ký sự kiện dựa trên các p h ư ơ n s pháp biểu diễn xâu

văn bản khác nhau sẽ được quan tâm nghiên cứu Đặc biệt, phương pháp biểu diễn đồ thì mót xâu văn bản [AZ13], một phương pháp biểu diễn tiên tiến, cần được quan tâm đặc biệt.

Đối với bài toán phân cụm tập vết trong nhật ký sự kiện, đề tài sẽ khai thác và phát

triên các phương pháp phân cum tiên tiến [AZ12, CJHJ14, JainlO] nhằm hướng tới các giải pháp ưu thế hơn Lựa chọn phù hợp các đô đo tương tư giữa các vét <'xâu vãn bản) tương ứng

với các nhật ký sự kiện là m ột định hướng nghiên cứu của đề tài

Tiến hóa quy trình và phát hiện mẫu tương ứng với các giai đoạn tiến hóa cũng là một hướnơ tiếp cận có ưu thế trong quá trình thực hiện đề tài

Khai phá quy trình có tính ứng dụng cao, tính cấp thiết tại nền kinh tế phát triển cao Tuy nhiên, nền kinh tế nước ta chưa sẵn sàng các tiền đề cần thiết cho việc ứng dụng khai phá

quy trình vì vậy việc đề xuất một khuns thừ nshiềm ứ n s duns, khai phả quy trình là một nội

dung nghiên cứu cần thiết của đề tài Như giới thiệu ở trên, tin học hóa các thủ tục hành chính, kinh doanh (thi hành quy trinh sẵn có dựa trên công nghệ thông tin, chẳng hạn, tin học hóa thủ tục khai thuế của doanh nghiệp để giảm thời gian khai thuế từ 500 giờ xuống còn 200

13

Trang 40

giờ), là bước khởi đâu sơ câp của thông minh quy trình; sau khi hình thành được các nhậ

sự kiện thì khai phá quy trình sẽ là một hoạt động tất yếu để tạo lợi thế cạnh tranh

Case id Event id Properties

Tiniestam o A cth it\ R esource C ost

1 3 i 654423 3 0 -1 2 -2 0 1 0 11.02 Kesister req u eil Pete 50

35654 4 2 4 3 1 -1 2 -2 0 1 0 10.06 Examine ilioroush.'s s LiS 400

3 5654425 05-01-2011 15,12 Check ticket M ike 100

35654426 0 6 -0 1 -2 0 1 1 1 U S D ecide Sãra 2 0 0

3 5654427 07-01-2011 14.24 Rejeci request Pete 2 0 0

2 356Ĩ44Ẩ 3 3 0 -1 2 -2 0 1 0 11.22 R eá sie r requeii M ik i 5 0

3565+185 3 0 -1 2 -2 0 10 12.12 Check ticket M ik ; MX) 3565-5-48? 3 0 - i 2 -2 0 1 0 14.16 Examine casual 1\ Pete 4 0 0 356544SS 03-01-201 ] 11.22 Decide S ira 20(>

3565-U8Ộ 0 8 -0 1 -2 0 1 1 12.05 Pả> coiĩipeiiiàiicn Ellen 2 0 0

1 3 5 6 5 4 5 2 ] 3 0 -1 2 -2 0 1 0 14.3: R ỉĩU te r request ■ Fete 5 0

3 5654522 3 0 -1 2 -2 0 1 0 15.06 E xi-nine casuallv Mike •MX)

35654524 3 0 - i 2 -2 0 1 0 16.3-1 Check lic k s’ Ellen 100 35654ĨH5 0 6 - 0 Ỉ - 0 1 1 líQ ] s D eiiiie Sara 2 0 0

Ĩ Ỉ 6 Ĩ 4 5 2 6 0 6 - 0 i- M l [ 1 2 IS Kỉm iiiate request Sara 20Ù

33 65-1527 06-05-201 1 13.06 Exàrnine ihoroughỉv Sean 4 0 0

3 5 6 5 4 :3 0 08-01-201 1 1 1A Ĩ Check ticks' Fete to o

Ngày đăng: 26/09/2020, 22:27

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w