1. Trang chủ
  2. » Luận Văn - Báo Cáo

Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số khai thác top k mẫu tuần tự báo cáo tổng kết đề tài khoa học cấp trường

38 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số/ khai thác Top-K mẫu tuần tự
Tác giả Phạm Thị Thiết
Trường học Trường Đại Học Công Nghiệp Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Báo cáo tổng kết đề tài khoa học cấp trường
Năm xuất bản 2021
Thành phố Hồ Chí Minh
Định dạng
Số trang 38
Dung lượng 1,82 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Do đó, bài toán khai thác mẫu tuần tự trên CSDL chuỗi là khai thác các chuỗi con phổ biến để tìm kiếm mối liên quan giữa các item khác nhau trong CSDL, với yêu cầu là các mẫu phổ biến là

Trang 1

BỘ CÔNG THƯƠNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC

KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG

Tên đề tài: Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng

buộc trọng số/ khai thác Top-K mẫu tuần tự

Mã số đề tài: 20/1.6CNTT01

Chủ nhiệm đề tài: Phạm Thị Thiết

Đơn vị thực hiện: Khoa Công nghệ Thông tin

Tp Hồ Chí Minh, 2021

Trang 2

LỜI CÁM ƠN

Lời đầu tiên, tôi xin chân thành cảm ơn trường Đại học Công nghiệp Tp.HCM và tiểu ban Điện – Điện Tử - CNTT đã đồng ý thông qua đề tài của nhóm chúng tôi và tạo cơ hội cho chúng tôi có điều kiện để nghiên cứu

Tôi xin gửi lời cảm ơn đến Phòng QLKH&HTQT, phòng Tài chính – Kế toán trường Đại học Công nghiệp Tp.HCM đã tận tình hỗ trợ, hướng dẫn các thủ tục, hồ sơ giúp chủ nhiệm đề tài thực hiện các văn bản liên quan

Cuối cùng tôi xin gửi lời cảm ơn đến BCN Khoa, tập thể GV Khoa Công nghệ thông tin, các Thầy Cô đã đồng hành động viên, tạo điều kiện để chúng tôi hoàn thành đề tài

Chủ nhiệm đề tài

Phạm Thị Thiết

Trang 3

PHẦN I THÔNG TIN CHUNG

I Thông tin tổng quát

1.1 Tên đề tài: Cải tiến hiệu suất của thuật toán khai thác mẫu tuần tự với ràng buộc trọng số/ khai thác Top-K mẫu tuần tự

1.4 Đơn vị chủ trì: Khoa Công nghệ Thông tin

1.5 Thời gian thực hiện:

1.5.1 Theo hợp đồng: từ tháng 03 năm 2020 đến tháng 03 năm 2021

1.5.2 Gia hạn (nếu có): đến tháng… năm…

1.5.3 Thực hiện thực tế: từ tháng 03 năm 2020 đến tháng 03 năm 2021

1.6 Những thay đổi so với thuyết minh ban đầu (nếu có):

(Về mục tiêu, nội dung, phương pháp, kết quả nghiên cứu và tổ chức thực hiện; Nguyên

nhân; Ý kiến của Cơ quan quản lý)

1.7 Tổng kinh phí được phê duyệt của đề tài: 40 triệu đồng

II Kết quả nghiên cứu

1 Đặt vấn đề

Khai thác mẫu tuần tự từ cơ sở dữ liệu (CSDL) chuỗi là một nhiệm vụ quan trọng trong lĩnh khai thác dữ liệu Một CSDL chuỗi bao gồm tập chuỗi chứa các phần tử (elements), hoặc các sự kiện (events) được sắp xếp theo thứ tự, trong đó, một mẫu tuần

tự (sequential pattern) là một chuỗi con chứa các itemset xuất hiện phổ biến có trình tự, tất cả các item trong cùng một itemset được giả sử là chúng có cùng tại thời điểm giao dịch hoặc chúng có trong cùng một khoảng thời gian giao dịch, thông thường tất cả các giao dịch của một khách hàng được gắn kết với nhau theo trình tự thời gian và được xem là một chuỗi Do đó, bài toán khai thác mẫu tuần tự trên CSDL chuỗi là khai thác các chuỗi con phổ biến để tìm kiếm mối liên quan giữa các item khác nhau trong CSDL, với yêu cầu là các mẫu phổ biến là những chuỗi con trong CSDL chuỗi mà sự xuất hiện của chúng lớn hơn ngưỡng hỗ trợ nhỏ nhất do người dùng chỉ định hay nói cách khác, bài toán khai thác mẫu tuần tự từ CSDL chuỗi là để tìm ra tập các chuỗi con

Trang 4

phổ biến thỏa mãn một ngưỡng hỗ trợ tối thiểu (minsup) do người dùng đặt ra Các

nghiên cứu trước đây đã đề xuất các phương pháp để cải tiến hiệu suất của quá trình khai thác mẫu tuần tự trên CSDL chuỗi Tuy nhiên đa số các nghiên cứu này chỉ sử

dụng độ hỗ trợ tối thiểu nhỏ nhất minsup để tìm ra các mẫu phổ biến và khi khai thác

mẫu tuần tự với độ hỗ trợ tối thiểu nhỏ nhất sẽ phát sinh ra tập mẫu rất lớn, điều này có thể làm cho không gian lưu trữ các mẫu bị quá tải Để giải quyết vấn đề về không gian lưu trữ thì các phương pháp này cần phải tăng độ hỗ trợ tối thiểu, tuy nhiên việc làm này có thể làm mất đi nhiều mẫu có tầm quan trọng cao nhưng lại có độ hỗ trợ chưa đủ lớn do tần suất xuất hiện trong các chuỗi trên toàn CSDL không nhiều hoặc luôn phải

thay đổi giá trị minsup cho phù hợp với yêu cầu của người dùng Cũng có một số

nghiên cứu đã được đề xuất để cải tiến hiệu suất cho bài toán khai thác mẫu tuần tự từ CSDL chuỗi như bài toán khai thác mẫu tuần tự dựa trên các ràng buộc trọng số hay bài toán khai thác top-k mẫu tuần tự, v.v Tuy nhiên, các nghiên cứu này chủ yếu được phát triển từ thuật toán khai thác mẫu tuần tự PrefixSpan Chính vì vậy, đề tài tập trung vào nghiên cứu các điểm yếu của các phương pháp được đề xuất trước đây từ đó đề xuất giải pháp hiệu quả hơn cho bài toán khai thác mẫu tuần tự dựa trên ràng buộc trọng số hoặc bài toán khai thác top-k mẫu tuần tự từ CSDL chuỗi Kết quả của đề tài sẽ đóng

góp thêm vào tài nguyên học tập cho sinh viên, học viên ngành Khoa học máy tính

- Nghiên cứu các phương pháp khai thác chuỗi tuần tự đã được đề xuất trước đây

- Nghiên cứu và đề xuất thuật toán hiệu quả để khai thác top-k mẫu tuần tự / khai

thác mẫu tuần tự với ràng buộc trọng số từ CSDL chuỗi

- Đánh giá hiệu suất của thuật toán đề xuất

3 Phương pháp nghiên cứu

- Sử dụng phương pháp tìm kiếm, thu thập, tổng hợp và chọn loc tất cả các TLTK

liên quan đến các vấn đề cần tiếp cận

- Sử dụng phương nghiên cứu lý thuyết kết hợp với kết quả đánh giá thuật toán để

đề xuất thuật toán để khai thác chuỗi tuần tự hiệu quả hơn

- Sử dụng phương pháp nghiên cứu thực nghiệm mô phỏng lập trình với ngôn ngữ lập trình để xây dựng thực nghiệm cho thuật toán đề xuất

- Đánh giá hiệu xuất của thuật toán trên tập CSDL chuẩn

- Viết báo cáo khoa học

Trang 5

4 Tổng kết về kết quả nghiên cứu

Nội dung nghiên cứu của đề tài đạt được kết quả như sau:

- 1 bài báo khoa học đăng trên tạp chí IEEE Access (ISI) Đây là sản phẩm chính của đề tài

- 1 bài báo khoa học đăng trên tạp chí khoa học công nghệ - Trường ĐHCN Tp.HCM (Sản phẩm này được sử dụng làm điều kiện xét hoàn thành nhiệm vụ NCKH của nhà

trường đối với GV có trình độ tiến sĩ)

5 Đánh giá các kết quả đã đạt được và kết luận

Kết quả đạt được trong quá trình thực hiện đề tài:

- Tìm hiểu một số thuật toán liên quan đến bài toán khai thác mẫu tuần tự - mẫu tuần tự đóng, top-k mẫu tuần tự, mẫu tuần tự với rang buộc trọng số

- Đã đề xuất được 2 thuật toán mới có hiệu suất cao hơn so với thuật toán hiện tại cho tài toán khai thác top-k mẫu tuần tự đóng và bài toán khai thác mẫu tuần tự với rang buộc trọng số

Kết quả của đề tài sẽ đóng góp vào tài nguyên cho các môn học liên quan đến Xử lý và khai thác dữ liệu, làm nền tảng cho việc nghiên cứu, học tập và hoàn thành khóa luận tốt nghiệp cho sinh viên hệ đại học cũng như học viên cao học ngành khoa học máy tính Bên cạnh đó, nó cũng góp phần nâng cao chất lượng nghiên cứu khoa học, phát triển nghề nghiệp của giảng viên cũng như công bố khoa học của giảng viên, khoa và của nhà trường

6 Tóm tắt kết quả (tiếng Việt và tiếng Anh)

Đề tài đã đề xuất được 2 thuật toán mới có hiệu suất cao hơn so với thuật toán hiện tại,

cụ thể như sau:

- Đề xuất thuật toán TKCS (Top-K Closed Sequences) cho bài toán khai thác top-k mẫu tuần tự đóng Thuật toán TKCS có hiệu suất tốt hơn cả về thời gian lẫn bộ nhớ so với thuật toán TSP (Top-K Closed Sequential Patterns) hiện tại bởi vì thuật toán đề xuất đã sử dụng cách sắp xếp các mẫu theo thứ tự tăng dần của độ hỗ trợ và sau đó mở rộng các mẫu có giá trị hỗ trợ cao nhất để tạo ra các mẫu ứng cử viên Hơn nữa, thuật toán cũng

đã sử dụng chiến lược tăng minsup đến giá trị hỗ trợ của mẫu tuần tự trong danh sách

top-k mẫu tuần tự đóng (CSP – Closed Sequential Pattern) với giá trị hỗ trợ nhỏ nhất

- Đề xuất một thuật toán hiệu quả để khai thác mẫu tuần tự có trọng số bằng việc kết hợp giá trị trọng số thực của các item trong CSDL chuỗi cùng với độ hỗ trợ của chúng Bên cạnh đó, thuật toán sử dụng cấu trúc dữ liệu biểu diễn theo chiều dọc nên thuật toán chỉ cần duyệt CSDL một lần, do đó tiết kiệm được thời gian Hơn nữa, thuật toán

đã áp dụng khối mã hóa nguyên tố trong các bước tính toán của quá trình phát triển mẫu làm tăng hiệu suất thực thi của thuật toán so với các tiếp cận khác

Trang 6

This research has proposed 2 new algorithms with higher performance than the current algorithms, as follows:

- Proposing an algorithm named TKCS (Top-K Closed Sequences) to mine the top-k CSPs efficiently The empirical results indicate that TKCS algorithm has better performance both in terms of time and memory than the current TSP algorithm because

it uses strategies in the process of exploiting the top-k CSPs as: always choosing the sequential pattern having the greatest support for generating candidate patterns and

storing top-k CSPs in the ascending order of the support values to customize the minsup

value more quickly to prune the search space

- Proposing an effective algorithm to exploit sequential patterns with weighted constrain by combining the actual weight values of items in the sequence database with their support to find higher-value sequential patterns set Moreover, the proposed algorithm uses a vertical database approach, so the algorithm only needs to scan the database once, thus saving execution time In addition, to increase computational efficiency, the algorithm applies the prime block encoding approach in the computational steps of the extension pattern process Experimental results show that the proposed algorithm has more effective execution time

III Sản phẩm đề tài, công bố và kết quả đào tạo

3.1 Kết quả nghiên cứu (sản phẩm dạng 1,2,3)

- Các ấn phẩm (bản photo) đính kèm trong phần phụ lục minh chứng ở cuối báo cáo (đối với ấn phẩm là sách, giáo trình cần có bản photo trang bìa, trang chính và trang cuối kèm thông tin quyết định và số hiệu xuất bản)

3.2 Kết quả đào tạo

TT Họ và tên thực hiện đề tài Thời gian Tên chuyên đề nếu là NCS Tên đề tài

Tên luận văn nếu là Cao học Đã bảo vệ

Nghiên cứu sinh

Trang 7

IV Tình hình sử dụng kinh phí

T

Kinh phí được duyệt

(triệu đồng)

Kinh phí thực hiện

(triệu đồng)

Ghi chú

A Chi phí trực tiếp

2 Nguyên, nhiên vật liệu, cây con

V Kiến nghị (về phát triển các kết quả nghiên cứu của đề tài)

- Sử dụng kết quả nghiên cứu làm tài liệu học tập, nghiên cứu về lĩnh vực khai phá dữ liệu

- Áp dụng kết quả nghiên cứu cho việc xây dựng các ứng dụng dạng khuyến nghị

VI Phụ lục sản phẩm (liệt kê minh chứng các sản phẩm nêu ở Phần III)

1 Bài báo khoa học

Trang 8

PHẦN II BÁO CÁO CHI TIẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC

(báo cáo tổng kết sau khi nghiệm thu, đã bao gồm nội dung góp ý của hội đồng nghiệm thu)

Trang 9

CHƯƠNG 1 TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU

1.1 Đặt vấn đề

Khai thác mẫu tuần tự là bài toán quan trọng trong lĩnh vực khám phá tri thức và khai thác dữ liệu, nó được ứng dụng rộng rãi bao gồm: phân tích thói quen mua sắm của khách hàng, mẫu truy cập web, các thí nghiệm khoa học, chẩn đoán bệnh, các thảm họa thiên nhiên, các kết cấu của protein Bài toán khai thác mẫu tuần tự trên CSDL chuỗi là

đi tìm những mẫu xuất hiện thường xuyên (được gọi là chuỗi phổ biến) để tìm kiếm mối liên quan giữa các item khác nhau, hoặc giữa các sự kiện tiềm ẩn trong dữ liệu phục vụ cho các mục đích như các chiến dịch tiếp thị, tái tổ chức kinh doanh, dự báo và lập kế hoạch

Cho đến nay đã có rất nhiều công trình nghiên cứu về lĩnh vực khai thác dữ liệu nói chung, khai thác mẫu tuần tự phổ biến nói riêng Việc khai thác mẫu tuần tự là một phần quan trọng của khai thác dữ liệu với các ứng dụng rộng rãi trong nhiều lĩnh vực kinh tế và khoa học như: phân tích quá trình mua bán hàng hóa, dự đoán thiên tai, phân tích chuỗi DNA, phân tích cấu trúc gen,… Bài toán khai thác mẫu tuần tự từ CSDL

chuỗi là để tìm ra tập các chuỗi con phổ biến thỏa mãn một ngưỡng minsup do người

dùng đặt ra [1, 2, 10, 11, 13, 18, 20, 23, 25, 30, 31, 41] Đây là một trong những bài toán quan trọng trong lĩnh vực khai thác dữ liệu từ CSDL chuỗi và là nền tảng của nhiều nhiệm vụ khai thác dữ liệu khác như gom nhóm dữ liệu [4, 15], phân loại và dự đoán dữ liệu [15], phân loại dữ liệu dựa trên luật kết hợp [30] Có rất nhiều thuật toán được đề xuất để cải thiện hiệu suất của quá trình khai thác mẫu tuần tự trên CSDL chuỗi như GSP [31], PSP [23], PrefixSpan [25], SPADE [41], SPAM [2], và PRISM [13], CM-SPADE [10], MCM-SPADE [14]

Tuy nhiên các thuật toán này chỉ sử dụng độ hỗ trợ để tìm ra các mẫu và khi khai thác mẫu tuần tự với độ hỗ trợ tối thiểu thấp sẽ phát sinh ra một lượng mẫu khổng lồ, điều này có thể làm cho không gian lưu trữ các mẫu bị quá tải Để giải quyết vấn đề về

không gian lưu trữ thì các phương pháp này cần phải tăng độ hỗ trợ tối thiểu minsup

[35, 40], tập các mẫu thu được giảm đi, tuy nhiên việc làm này có thể làm mất đi nhiều mẫu có tầm quan trọng cao nhưng lại có độ hỗ trợ chưa đủ lớn (tần suất xuất hiện trong các chuỗi trên toàn CSDL không nhiều) Hơn nữa, các thuật toán khai thác mẫu tuần tự trên đều thống nhất các mẫu tuần tự có tầm quan trọng là như nhau, trong khi đó, trong thực tế, mỗi thành phần trong CSDL có tầm quan trọng khác nhau Những items nằm trong chuỗi có mức hỗ trợ thấp có thể có tầm quan trọng hơn do tính năng trọng số của chính những items đó Do vậy, nếu một mẫu có tầm quan trọng cao (hay trọng số cao) thì mẫu đó có giá trị cao và nên được lưu trữ lại để sử dụng Chính vì thế, nếu một mẫu

Trang 10

có độ hỗ trợ không thỏa điều kiện về ngưỡng hỗ trợ tối thiểu thì mẫu đó vẫn có thể được giữ lại sau quá trình khai thác mẫu nếu như trọng số của mẫu đó đủ lớn Vấn đề tồn tại cần giải quyết là làm cách nào để không làm mất đi các mẫu có tầm quan trọng nhưng vẫn giữ được độ hỗ trợ tối thiểu ở mức hợp lý cho việc thu thập và lưu trữ tập các mẫu sau quá trình khai thác dữ liệu để không tạo ra tập mẫu quá lớn, gây dư thừa Bài toán khai thác mẫu tuần tự dựa trên các ràng buộc trọng số được đề xuất để tìm ra những mẫu tuần tự không phổ biến (không thỏa ràng buộc về mức hỗ trợ tối thiểu) nhưng lại có các items xuất hiện trong mẫu có tầm quan trọng cao trong CSDL chuỗi,

từ đó có thể tìm ra được một tập các mẫu tuần tự có trọng số hoàn chỉnh, có tầm quan trọng hơn, có lợi ích nhiều trong việc sử dụng các mẫu Nhờ vậy quá trình khai thác được cải thiện hiệu quả và tập mẫu tìm thấy đáp ứng yêu cầu của người dùng tốt hơn Srikant và Agrawal [31] là những người đầu tiên khái quát bài toán khai thác mẫu tuần tự mà cho phép xử lý các ràng buộc thời gian Họ đã đưa ra hai loại ràng buộc về thời gian là ràng buộc khoảng thời gian (time-gap) và ràng buộc thời gian - cửa sổ trượt (sliding time window) Trong đó, ràng buộc khoảng thời gian giới hạn thời gian xảy ra giữa hai thành phần liền kề phải nằm trong một khoảng hợp lý, còn ràng buộc thời gian

- cửa sổ trượt qui định những thành phần có thời gian nằm trong phạm vi cửa sổ sẽ nằm trong cùng một giao dịch Ngoài ra, các tác giả trong [31] còn đưa ra ràng buộc phân cấp trên các mẫu do người dùng định nghĩa

Garofalakis và đồng sự [12] đã đề xuất các ràng buộc trên mẫu tuần tự dưới dạng các biểu thức có qui tắc và đưa ra một bộ bốn thuật toán, gọi là bộ SPIRIT Trong đó, mỗi thuật toán giải quyết bài toán khai thác mẫu tuần tự với một loại biểu thức ràng buộc cho trước

Yun và Leggett đã đề xuất thuật toán WFIM (Weighted Frequent Itemset Mining) [38] vào năm 2005 để khai thác mẫu tuần tự có trọng số Trong thuật toán này, các items riêng lẻ được gán các trọng số khác nhau trong phạm vi trọng số để phản ánh tầm quan trọng của chúng và các ràng buộc trọng số sau đó sẽ được đẩy vào trong thuật toán tăng trưởng mẫu để giữ thuộc tính giảm bao đóng WFIM sử dụng một cây tiền tố tiếp cận theo hướng từ dưới lên (bottom – up) được sắp xếp theo thứ tự tăng dần Thuật toán cho phép điều chỉnh số lượng các itemsets phổ biến có trọng số bằng cách thay đổi các thông số như một dải trọng số và trọng số tối thiểu mặc dù ngưỡng hỗ trợ tối thiểu thấp hơn trong CSDL dày hoặc CSDL dài Trọng số và độ hỗ trợ của mỗi item trong WFIM được xem xét riêng để cắt tỉa không gian tìm kiếm Tuy nhiên, độ hỗ trợ của các itemset thường giảm khi chiều dài của itemset đó tăng lên nhưng trọng số thì có một đặc trưng khác như một itemset có trọng số thấp đôi khi sẽ có thể đạt được trọng số cao hơn nếu

nó kết hợp với một item có trọng số cao, do đó nó không đảm bảo được thuộc tính giảm bao đóng

Trang 11

Năm 2006, Yun và Leggett [39] đề xuất thuật toán WSpan (Weighted Sequential Pattern Mining) để khai thác mẫu tuần tự hiệu quả bằng cách đưa các ràng buộc trọng

số vào trong thuật toán tăng trưởng mẫu tuần tự trong khi vẫn bảo toàn thuộc tính giảm bao đóng bằng cách tiếp cận theo hướng CSDL chiếu Một dải trọng số được sử dụng

và các items được gán các giá trị trọng số khác nhau bên trong dải trọng số Thuật toán

sử dụng một giá trị ngưỡng minsup và ngưỡng trọng số lớn nhất (MaxW) để làm điều

kiện kiểm tra độ phổ biến của các mẫu trong quá trình khai thác CSDL chuỗi

Năm 2016, Sirisha và các cộng sự [29] đã đề xuất một hướng tiếp cận mới để tìm

ra mẫu tuần tự với giá trị trung bình trọng số (mean_W) của mẫu tuần tự Trong tiếp cận này, trước tiên các giá trị trọng số được gán vào các items theo dữ liệu thực tế, sau

đó định nghĩa giá trị trung bình trọng số cho các mẫu tuần tự và dựa vào điều kiện

support * mean_W < minsup để cắt tỉa mẫu Với thuật toán này, một CSDL tuần tự

được chiếu đệ quy vào một tập các CSDL chiếu có trọng số với kích thước nhỏ hơn và các mẫu tuần tự có trọng số được phát sinh trong mỗi CSDL chiếu có trọng số

Năm 2018, Van và các công sự [34] đã đề xuất một thuật toán gọi là MSPIC-DBV

để khai thác các mẫu tuần tự dựa trên các ràng buộc itemset Thuật toán này đã cải thiện đáng kể hiệu suất của bài toán khai thác mẫu tuần tự bằng cách sử dụng cấu trúc dữ liệu vector bit động kết hợp với cấu trúc cây tiền tố để biểu diễn chuỗi ứng viên Tuy nhiên, thuật toán yêu cầu người sử dụng phải xác định trước tập các ràng buộc của các itemset

mà không sử dụng các ràng buộc về trọng số thực tế của item trong CSDL Mặt khác, các thuật toán khai thác mẫu tuần tự phổ biến từ CSDL chuỗi được đề cập ở trên đều

yêu cầu một ngưỡng minsup do người dùng định nghĩa Tùy thuộc vào sự lựa chọn ngưỡng minsup, thuật toán có thể trở nên rất chậm và tìm ra một số lượng rất lớn các

mẫu hoặc quá ít mẫu, thậm chí không có mẫu nào, hoặc bỏ qua các mẫu có thông tin có giá trị Vấn đề này rất quan trọng bởi vì trong thực tế, người sử dụng chỉ có nguồn tài nguyên giới hạn (thời gian và không gian lưu trữ) nên không thể phân tích quá nhiều mẫu kết quả và việc tinh chỉnh thông số minsup để tìm ra số lượng mẫu mà người dùng mong muốn là rất tốn thời gian Để giải quyết vấn đề này, các thuật toán khai thác theo hướng top-k mẫu tuần tự phổ biến đã được nghiên cứu và đề xuất; trong đó, k là số mẫu

có độ hỗ trợ cao nhất mà người dùng mong muốn thuật toán tìm kiếm và trả về mà

không cần xem xét và tính toán ngưỡng minsup bao nhiêu là phù hợp

Thuật toán TSP (Top-K Closed Sequential Patterns) [33] được Tzvetkov Và các cộng sự đề xuất năm 2005 để khai thác top-k mẫu tuần tự phổ (tập phổ biến đóng) mà

không yêu cầu người dùng một ngưỡng hỗ trợ tối thiểu minsup Thuật toán được xây

dựng dựa theo hướng tiếp cận phát triển mẫu từ thuật toán PrefixSpan [25], nghĩa là thuật toán thực hiện duyệt CSDL để tìm các mẫu chứa một phần tử, và sau đó chỉ xét các chuỗi con tiền tố và chỉ chiếu chuỗi con hậu tố tương ứng của chúng vào các CSDL

Trang 12

chiếu Ý tưởng chính của thuật toán là: Bắt đầu với ngưỡng minsup là 1, sau đó minsup được tăng dần trong quá trình xử lý và minsup này sẽ được sử dụng để tìm các mẫu phỗ

biến với mục đích để giảm không gian tìm kiếm Nghĩa là ngay khi có k mẫu tuần tự

với chiều dài không nhỏ hơn min_l được tìm thấy thì minsup sẽ được gán cho một giá

trị là độ phổ biến của mẫu tuần tự tìm được có độ phổ biến nhỏ nhất Và như thế,

minsup sẽ tiếp tục gia tăng trong suốt quá trình khai thác mẫu của thuật toán [33] Lợi

ích chính của hướng tiếp cận CSDL chiếu (projection-based) là nó chỉ xem xét các mẫu đang xuất hiện trong CSDL mà không thực hiện việc kiểm tra khi phát sinh mẫu Tuy nhiên, thuật toán TSP phải thực hiện lặp đi lặp lại việc duyệt/chiếu CSDL nhiều lần nên tốn chi phí và chi phí có thể rất cao khi thực hiện trên CSDL dày đặc do có rất nhiều phép chiếu cần được thực hiện Thuật toán TKS (Top-K Sequential pattern mining) [9] được đề xuất năm 2013 bởi Fournier-Viger Thuật toán sử dụng CSDL bitmap dọc để biểu diễn dữ liệu và sử dụng thủ tục của thuật toán SPAM để tạo ứng viên ban đầu sau

đó tiến hành tìm và mở rộng các mẫu, bên cạnh đó để tăng hiệu quả khai thác k mẫu tuần tự phổ biến thuật toán TKS đã áp dụng một vài chiến lược như: Tăng ngưỡng hỗ trợ để cắt tỉa không gian tìm kiếm; Mở rộng các mẫu triển vọng nhất; Loại bỏ các item không phổ biến ngay khi tạo ứng viên; Cắt tỉa ứng viên với bản đồ thứ tự ưu tiên (Precedence Map) Tuy nhiên, mặc dù thuật toán TKS đã áp dụng một số chiến lược để nâng cao hiệu quả của quá trình khai thác dữ liệu, nhưng thuật toán TKS vẫn còn nhược điểm là sử dụng bit vec-tơ có kích thước cố định vốn đòi hỏi và tiêu tốn rất nhiều thời gian để thực thi các phép giao bit vec-tơ

1.2 Sự cần thiết tiến hành nghiên cứu

Từ những vấn đề đề cập trong phần 2.1, đề tài tập trung nghiên cứu các điểm yếu của các phương pháp được đề nghị trước đây để từ đó đề xuất giải pháp hiệu quả hơn cho bài toán liên quan đến khai thác chuỗi tuần tự như bài toán khai thác top-k mẫu tuần tự hoặc khai thác mẫu tuần tự với ràng buộc trọng số cụ thể như sau:

- Việc khai thác mẫu tuần tự có trọng số sẽ thu thập được tập mẫu tuần tự hoàn chỉnh hơn với những items có mức hỗ trợ thấp nhưng có tầm quan trọng cao, cần thiết cho quá trình sử dụng dữ liệu Do đó, bài toán khai thác mẫu tuần tự dựa trên các ràng buộc trọng số đã được đề xuất để cải tiến hiệu suất của bài toán khai thác mẫu tuần tự khi khai thác các mẫu phổ biến với giá trị độ hỗ trợ tối thiểu cao nhưng vẫn không mất

đi các mẫu có tầm quan trọng cao (là những mẫu có trọng số cao) nhưng lại có độ hỗ trợ chưa đủ lớn Tuy nhiên, các thuật toán khai thác mẫu tuần tự với ràng buộc trọng số được đề cập ở trên trong phần 2.1 đều được phát triển từ thuật toán khai thác mẫu tuần

tự PrefixSpan và phải thực hiện chiếu CSDL cũng như duyệt CSDL chiếu nhiều lần trong quá trình mẫu phổ biến Ngoài ra, một số thuật toán cần phải xác định trước tập các ràng buộc trọng số của các itemset từ người dùng mà không sử dụng trọng số thực

Trang 13

của các item trong CSDL Do đó, đề tài tập trung nghiên cứu và đề xuất một thuật toán cho bài toán khai thác mẫu tuần tự với ràng buộc trọng số bằng cách kết hợp cả ràng buộc về mức hỗ trợ tối thiểu lẫn trọng số của các item trong CSDL chuỗi để khai thác

ra tập mẫu hoàn chỉnh với những tính năng chặt chẽ hơn của các mẫu tuần tự sau quá trình khai thác dữ liệu Bên cạnh đó, để tăng hiệu suất của quá trình khai thác mẫu tuần

tự với ràng buộc trọng số, đề tài sẽ nghiên cứu và áp dụng phương pháp mã hóa khối nguyên tố [13] trong các bước tính toán của quá trình phát triển mẫu so với thuật toán trước đây sử dụng phương pháp chiếu tiền tố

- Bài toán khai thác top-k mẫu tuần tự phổ biến đã được nghiên cứu và đề xuất để

loại bỏ vấn đề xem xét, tính toán và lựa chọn giá trị ngưỡng minsup sao cho phù hợp

mà vẫn đưa ra được các mẫu mà người dùng mong muốn Tuy nhiên, các thuật toán này vẫn tốn chi phi rất cao cho các phép chiếu trên CSDL chiếu hoặc các phép giao trên bit vec-tơ để tìm ra mẫu phổ biến Do đó trong bài toán khai thác top-k mẫu tuần tự phổ biến, đề tài sẽ tập trung nghiên cứu và áp dụng cấu trúc CMAP [9] để cắt tỉa ứng viên sớm tại giai đoạn phát triển mẫu làm tăng hiệu suất của quá trình khai thác top-k mẫu tuần tự đóng

1.3 Mục tiêu của đề tài

Nghiên cứu và đề xuất giải pháp hiệu quả hơn cho bài toán liên quan đến khai thác chuỗi tuần tự như khai thác top-k mẫu tuần tự/ khai thác mẫu tuần tự với ràng buộc trọng số từ CSDL chuỗi, sau đó đánh giá hiệu suất của thuật toán đề xuất so với thuật toán hiện có

- Nghiên cứu các phương pháp khai thác chuỗi tuần tự đã được xuất trước đây

- Nghiên cứu và đề xuất thuật toán hiệu quả để khai thác top-k mẫu tuần tự / khai thác mẫu tuần tự với ràng buộc trọng số từ CSDL chuỗi

- Đánh giá hiệu suất của thuật toán đề xuất so với thuật toán hiện có

1.4 Phương pháp nghiên cứu

Để đạt được mục tiêu nghiên cứu của đề tài, nhóm tác giả đã tiến hành nghiên cứa các thuật toán như khai thác chuỗi tuần tự, chuỗi tuần tự đóng Phương pháp nghiên cứu được tiến hành cụ thể như sau:

Trang 14

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Lĩnh vực khai thác dữ liệu trên CSDL chuỗi là một trong những lĩnh vực đã và đang được nhiều nhà khoa học tập trung nghiên cứu Khai thác dữ liệu chuỗi tuần tự được đề xuất từ năm 1995 [1], cho đến nay nhiều kết quả nghiên cứu trong lĩnh vực này

đã được công bố và ứng dụng thực tiễn [3, 6, 16, 23, 25, 31, 41] Khai thác mẫu tuần tự trong CSDL chuỗi là xác định những mẫu mà sự xuất hiện của chúng trong CSDL thỏa ngưỡng hỗ trợ tối thiểu Khai thác mẫu tuần tự được ứng dụng trong nhiều lĩnh vực thực tế như: phân tích thị trường, phân tích mẫu truy cập Web, dự đoán nhu cầu mua sắm của khách hàng…Từ tập dữ liệu mẫu tuần tự có thể dùng nhiều thuật toán khai thác khác nhau để tìm ra được tập luật tuần tự Luật tuần tự được xem như việc biểu diễn mối quan hệ giữa hai loạt sự kiện, loạt sự kiện này sẽ xảy ra sau loạt sự kiện kia

1.1 Khái niệm

Itemset: Tập các phần tử là một tập hợp khác rỗng gồm nhiều item Itemset i ký

hiệu là (i 1 , i 2 , …, i k ) với mỗi i j là một item Itemset có k item được ký hiệu là k-itemset

Các item trong itemset được sắp xếp theo thứ tự tăng dần

Chuỗi: là một danh sách các itemset được sắp xếp theo thứ tự Chuỗi s được ký

hiệu là s 1 s 2 … s n  hoặc s 1s 2s n  với mỗi s i là một itemset, n là số lượng

itemset Kích thước của chuỗi chính là số lượng itemset có trong chuỗi Chiều dài của chuỗi là tổng số item có trong chuỗi, ký hiệu là Chuỗi có chiều dài k còn được gọi là k-sequence

Chuỗi con: Chuỗi = b 1 b 2 … b m có m itemset được gọi là chuỗi con của chuỗi

= a 1 a 2 … a n có n itemset (hay là chuỗi cha của , ký hiệu   ) nếu tồn tại những số nguyên 1 j 1 <j 2 <…< j m n sao cho b 1 a j1 , b 2 a j2 , …, b m a jm

CSDL chuỗi: là một tập hợp các bộ dữ liệu có dạng (sid, s), trong đó sid là định

danh của chuỗi và s là chuỗi các itemset

Mẫu: là một chuỗi con của một chuỗi dữ liệu Mỗi itemset trong một mẫu còn

được gọi là một thành phần (element)

Độ hỗ trợ (sup): Cho CSDL chuỗi D, mỗi chuỗi có một chỉ số định danh duy

nhất Độ hỗ trợ tuyệt đối của một mẫu tuần tự f là tổng số chuỗi trong D có

Độ hỗ trợ tương đối của f là tỉ lệ phần trăm chuỗi trong D chứa f Ở đây, mức hỗ trợ tuyệt đối hoặc tương đối sẽ được sử dụng chuyển đổi qua lại, kí hiệu là sup(f)

Mẫu tuần tự: Cho trước ngưỡng hỗ trợ tối thiểu (minsup) xác định bởi người

dùng, minsup  (0, 1 Một mẫu f được coi là phổ biến nếu độ hỗ trợ của nó lớn hơn hoặc bằng minsup: sup(f) minsup, khi đó f được gọi là mẫu tuần tự

Trang 15

Mẫu tuần tự đóng (Closed sequential pattern): Cho  là một mẫu tuần tự, 

được gọi là mẫu tuần tự đóng nếu và chỉ nếu  sao cho  ( chứa ) và Sup()

= Sup()

Bài toán khai thác mẫu tuần tự/mẫu tuần tự đóng: Cho trước CSDL chuỗi và

ngưỡng minsup Khai thác mẫu tuần tự/mẫu tuần tự đóng là đi tìm tập đầy đủ tất cả các

mẫu tuần tự/mẫu tuần tự đóng có trong CSDL chuỗi

1.2 Một số thuật toán khai thác mẫu tuần tự

Khai thác mẫu tuần tự là khai thác sự xuất hiện phổ biến của các sự kiện có thứ tự hoặc các chuỗi con như các mẫu Một ví dụ về mẫu tuần tự là “Các khách hàng mua một máy ảnh kỹ thuật số Canon thì cũng có khả năng mua một máy in màu HP trong vòng một tháng” Với dữ liệu bán lẻ, các mẫu tuần tự rất có ích cho việc sắp xếp các kệ hàng trưng bày và các chương trình khuyến mãi Ngành công nghiệp này cũng như thông tin truyền thông và các ngành kinh doanh khác, cũng có thể sử dụng các mẫu tuần tự cho mục tiêu tiếp thị, duy trì khách hàng và nhiều mục đích khác Ở những lĩnh vực khác trong đó các mẫu tuần tự có thể được sử dụng bao gồm phân tích mẫu truy cập web, dự báo thời thiết, quy trình sản xuất, phát hiện xâm nhập mạng [6]

Với bài toán khai thác mẫu tuần tự, các yếu tố ảnh hưởng đến hiệu quả của thuật toán bao gồm cách thức tổ chức dữ liệu và thuật toán giải quyết Do đó phải lựa chọn cấu trúc dữ liệu thích hợp và thuật toán tối ưu Như vậy, các đặc tính ảnh hưởng đến tốc

độ thực thi thuật toán là cách thức tổ chức dữ liệu để lưu trong bộ nhớ, cách duyệt dữ liệu để xử lý và các chiến lược để tìm kiếm Ngoài ra, sử dụng một số đặc trưng khác như vận dụng lý thuyết đồ thị, đưa ra những ràng buộc cho bài toán sẽ giúp thực thi nhanh hơn, các mẫu tuần tự tìm được sẽ có giá trị hơn

Bài toán khai thác mẫu tuần tự được thực hiện đầu tiên bởi Agrawal và Srikant [1] vào năm 1995 dựa trên nghiên cứu của họ về các chuỗi mua sắm hàng hóa của khách hàng, có nội dung như sau: “Cho một tập các chuỗi, với mỗi chuỗi bao gồm một danh sách các sự kiện (hoặc các thành phần) và mỗi sự kiện gồm một tập các items, và cho

trước một ngưỡng hỗ trợ tối thiểu minsup do người dùng định nghĩa, khai thác mẫu tuần

tự tìm ra tất cả các chuỗi con phổ biến, tức là, các chuỗi con có sự xuất hiện thường

xuyên trong tập các chuỗi không nhỏ hơn minsup” [6]

• Thuật toán AprioriAll

Bài toán khai thác mẫu tuần tự được đề xuất bởi Agrawal và Srikant [1] vào năm

1995 AprioriAll [1] dựa trên thuật toán khai thác mẫu phổ biến Apriori, là thuật toán đầu tiên được xây dựng để giải quyết bài toán khai thác mẫu tuần tự trên CSDL chuỗi giao dịch khách hàng

Trước tiên, thuật toán AprioriAll tìm các itemset phổ biến bằng cách tiến hành duyệt toàn bộ CSDL gốc ban đầu Sau đó, ánh xạ tập itemset phổ biến tìm được sang

Trang 16

tập số nguyên Việc ánh xạ nhằm mục đích xem một itemset phổ biến như một thực thể riêng biệt và thời gian để so sánh hai itemset phổ biến bất kỳ là như nhau Thêm vào

đó, việc làm này giúp làm giảm thời gian kiểm tra một chuỗi có là chuỗi con của chuỗi

dữ liệu trong CSDL ban đầu hay không

Giai đoạn 2 là giai đoạn chuyển đổi CSDL Trong CSDL chuỗi ban đầu, mỗi chuỗi được thay thế bằng tập các itemset phổ biến có chứa trong chuỗi đó Nếu itemset không chứa itemset con phổ biến nào thì itemset đó sẽ bị loại bỏ khỏi tập chuỗi trong CSDL Nếu chuỗi trong CSDL không chứa itemset phổ biến nào thì loại bỏ chuỗi đó ra khỏi CSDL Sau khi chuyển đổi CSDL, mỗi chuỗi trong CSDL chuỗi đã biến đổi sẽ bao gồm chỉ những itemset phổ biến

Cuối cùng, thuật toán tìm các mẫu tuần tự từ kết quả của giai đoạn 2 Với các kết quả chuyển đổi CSDL chỉ gồm các itemset phổ biến này ta thu được tập các mẫu tuần

tự có kích thước là 1 Thuật toán dựa trên nguyên tắc loại bỏ của Apriori Tập các ứng

viên gồm các mẫu có chiều dài là k được phát sinh bằng cách kết các mẫu có chiều dài k-1, sau đó dựa trên nguyên lý Apriori và ngưỡng minsup để loại bỏ các mẫu không phổ

biến

Như vậy, để tìm được tập các mẫu tuần tự, thuật toán AprioriAll phải phát sinh tập các ứng viên với số lượng ứng viên được tạo ra rất lớn, dễ dẫn đến tình trạng “nghẽn cổ chai”, do đó có thể không đủ bộ nhớ để xử lý Mặt khác, để tìm tất cả các mẫu tuần tự, thuật toán phải duyệt CSDL nhiều lần vì ứng với mỗi tập ứng viên, phải duyệt lại toàn

dài là 1 (tập các 1 – sequence), tập này gọi là tập khởi tạo Tập khởi tạo được sử dụng

để phát sinh các dãy ứng viên mới, mỗi dãy ứng viên có ít nhất một item thuộc tập khởi tạo Vì thế, tất cả các dãy ứng viên trong một lần duyệt sẽ có cùng số item Độ hỗ trợ của các dãy được xác định trong quá trình duyệt CSDL Kết thúc lần duyệt, thuật toán xác định các dãy ứng viên phổ biến và các dãy này trở thành tập khởi tạo cho lần duyệt tiếp theo Thuật toán kết thúc khi không có dãy ứng viên nào được tạo ra, hoặc không tìm được dãy ứng viên nào cuối lần duyệt

• Thuật toán PrefixSpan

PrefixSpan (Prefix-Projected Sequential Pattern Growth) là thuật toán tiếp cận theo hướng chia nhỏ dữ liệu, được phát triển từ thuật toán FreeSpan [16] Thuật toán PrefixSpan [25] thực hiện phép chiếu trên CSDL để giảm chi phí lưu trữ dữ liệu Xuất

Trang 17

phát từ tập mẫu tuần tự có chiều dài là 1, thuật toán tạo ra các CSDL chiếu tương ứng với từng mẫu đó Trong CSDL chiếu, mỗi chuỗi dữ liệu chỉ giữ lại phần hậu tố tương ứng với tiền tố đã chiếu Mẫu được phát triển từ các item phổ biến tìm được trong CSDL được chiếu Quá trình này được thực hiện một cách đệ quy cho đến khi CSDL chiếu không còn item phổ biến nào Khi phát triển mẫu, thuật toán PrefixSpan phải thực hiện việc chiếu CSDL và duyệt CSDL chiếu để tìm các item phổ biến

• Thuật toán SPADE

Tất cả các thuật toán khai thác mẫu tuần tự giới thiệu ở trên đều tiếp cận theo hướng biểu diễn dữ liệu theo chiều ngang Để tính độ hỗ trợ của một mẫu thì các thuật toán đều phải duyệt lại toàn bộ CSDL Để khắc phục vấn đề này, một số nghiên cứu khác đã được đề xuất dựa trên tiếp cận biểu diễn dữ liệu theo chiều dọc, đầu tiên có thể

kể đến là thuật toán SPADE (Sequential PAttern Discovery using Equivalent classes) [41] do M J Zaki đề xuất vào năm 2001 Thay vì phải duyệt lại toàn bộ CSDL chuỗi, với từng mẫu ứng viên, thuật toán thực hiện việc lưu trữ thông tin cho biết mẫu đó có mặt trong các chuỗi dữ liệu nào, từ đó có thể tính ngay ra được độ hỗ trợ của mẫu đó Hơn nữa, các mẫu mới được tạo ra lấy thông tin dựa trên những mẫu đã có và không cần phải duyệt lại trên CSDL ban đầu Thuật toán SPADE thực thi qua ba giai đoạn chính:

Giai đoạn thứ nhất, thuật toán sử dụng CSDL biểu diễn theo chiều dọc các id-list, các chuỗi được liên kết cùng với một danh sách các đối tượng mà nó xuất hiện, cùng với các dãy thời gian Thuật toán chỉ ra rằng các mẫu phổ biến có thể được tìm thấy qua các phép kết (hoặc phép giao) theo thời gian trên các id-list

Giai đoạn tiếp theo, SPADE sử dụng lý thuyết dàn để chia nhỏ không gian tìm kiếm Tiếp cận của thuật toán thường yêu cầu ba lần duyệt CSDL hoặc chỉ một lần duyệt duy nhất với một số thông tin đã được tiền xử lý, do đó giảm thiểu được chi phí nhập/ xuất

Bước cuối cùng, tìm kiếm tập mẫu phổ biến bằng cách duyệt các dàn theo chiều rộng hoặc chiều sâu

• Thuật toán PRISM

Đây là một thuật toán khai thác mẫu tuần tự gần đây, dựa trên tiếp cận biểu diễn

dữ liệu theo chiều dọc cùng với mã hóa nguyên tố để biểu diễn thông tin của tập mẫu ứng viên Thuật toán PRISM ( PRIme Encoding Based Sequence Mining) [13] sử dụng cấu trúc cây từ điển để lưu trữ các mẫu tuần tự tìm được Mẫu mới được xác định bằng việc tính toán trên các khối mã hóa nguyên tố của các mẫu được mở rộng, độ hỗ trợ của mẫu được xác định trực tiếp dựa trên các khối mã hóa nguyên tố Thuật toán PRISM chỉ duyệt CSDL một lần duy nhất để tìm ra tập các mẫu tuần tự có chiều dài là 1 cùng

Trang 18

với các khối mã hóa nguyên tố tương ứng với thông tin của các mẫu đó Tiếp theo đó, PRISM phát triển mẫu bằng cách thêm vào mẫu một item phổ biến Thông tin của mẫu mới này được xác định dựa vào khối mã hóa của mẫu cũ và của item thêm vào Do đó, thuật toán giảm thiểu được chi phí tính toán bằng việc sử dụng một bảng tra ước chung lớn nhất cho khối mã hóa thông tin dựa vào lý thuyết về mã hóa số nguyên tố

1.3 Một số thuật toán Khai thác mẫu tuần tự đóng

Cho trước CSDL chuỗi và ngưỡng minsup Bài toán khai thác mẫu tuần tự đóng là

đi tìm tập đầy đủ tất cả các mẫu tuần tự có trong CSDL và có độ hỗ trợ lớn hơn hoặc

bằng ngưỡng minsup đã cho và loại bỏ những tập mẫu con có cùng độ hỗ trợ với chúng

ra

• Thuật toán CloSpan

Thuật toán Clospan (Closed sequemtial pattern mining) [37] khai thác các mẫu tuần tự đóng, tránh được một số lượng lớn các bước gọi đệ quy Đầu tiên tạo ra tập các chuỗi ứng viên đóng được lưu trữ trong một cấu trúc cây hash-index và sau đó cắt tỉa

nó Nó sử dụng một số phương pháp cắt tỉa như CommomPrefix và Backward Pattern tỉa không gian tìm kiếm Bởi vì CloSpan cần phải duy trì sự tập hợp của các

Sub-chuỗi ứng viên đóng, nó sẽ tiêu tốn nhiều bộ nhớ và dẫn đến một không gian tìm kiếm lớn cho việc kiểm tra mô hình đóng khi có nhiều chuỗi phổ biến đóng Kết quả là, nó không tốt đối với các số lượng chuỗi phổ biến đóng

• Thuật toán BIDE

Thuật toán BIDE (BI-Directional Extension) [36] là mở rộng của thuật toán CloSpan[37] Đầu tiên, thông qua một phần mở rộng chuỗi mới, được gọi là BIDirectional Extension, thuật toán sử dụng cả hai phương pháp:

(1) Mẫu tiền tố và kiểm tra thuộc tính đóng để phát triển

(2) Để lược bớt không gian tìm kiếm sâu hơn so với phương pháp tiếp cận trước,

thuật toán đề nghị một phương pháp cắt tỉa gọi là BackScan

Ý tưởng chính của phương pháp này là để tránh mở rộng chuỗi bằng cách phát hiện trước phần mở rộng đã được chứa trong một chuỗi đã có nhằm tăng tốc độ khai thác mà vẫn giữ tính đúng đắn của việc khai thác chuỗi phổ biến đóng Liệt kê chuỗi phổ biến về mặt khái niệm, không gian tìm kiếm của khai thác chuỗi tạo thành một cấu

trúc cây và được định nghĩa đệ quy như sau: nút gốc ở mức 0 của cây chứa chuỗi rỗng được gán nhãn ∅ Các nút ở mức L của cây sẽ được gán nhãn là các chuỗi có kích thước

L Nút con ở mức (L+1) được tạo bằng cách mở rộng chuỗi ở mức L để được chuỗi độ dài (L+1) Bằng cách loại bỏ các chuỗi không phổ biến, các nút còn lại trong cây từ

điển chuỗi phổ biến, tạo thành tập chuỗi phổ biến

Trang 19

CHƯƠNG 3 KHAI THÁC TOP-K CHUỖI TUẦN TỰ ĐÓNG

Bài toán khai thác các mẫu tuần tự đóng (CSP – Closed Sequential Pattern) là một nhiệm vụ thiết yếu trong khai thác dữ liệu, với nhiều ứng dụng khác nhau Nó được đề xuất sử dụng để giải quyết các khó khăn trong bài toán khai thác mẫu tuần tự từ CSDL

chuỗi rất lớn hoặc ngưỡng minsup thấp Tuy nhiên, để tạo ra đúng số lượng CSP mà

người dùng mong muốn là rất khó và điều này cần nhiều thời gian để tùy chỉnh các giá

trị minsup cho phù hợp Để khắc phục vấn đề này, bài toán khai thác top-k CSP đã được

đề xuất trong đó k là số lượng CSP mà người dùng mong muốn (k CSP có giá trị hỗ trợ cao nhất trong CSDL chuỗi)

3.1 Giới thiệu

Quá trình khai thác CSPs tạo ra một số CSP thường nhỏ hơn số lượng mẫu tuần tự,

do đó, nó làm giảm đáng kể số lượng mẫu được tạo ra trong quá trình khai thác mà không làm mất bất kỳ thông tin nào Vì dựa trên tính chất của tập đóng chúng ta có thể tìm thấy tập đầy đủ các mẫu tuần tự từ tập các CSP Một số nhà nghiên cứu đã đề xuất các thuật toán để khai thác các CSP [17, 27, 28, 32, 36, 37] Năm 2003, Yan et al đã giới thiệu thuật toán CloSpan [37], tương tự như CLOSET [26] và CHARM [42], đồng thời thuật toán áp dụng phương pháp kiểm tra và duy trì ứng viên để kiểm tra xem một mẫu tuần tự mới tìm thấy có phải là một mẫu tuần tự đóng hay không Tuy nhiên, khi

có nhiều CSP được khai thác, CloSpan sẽ cần nhiều bộ nhớ để kiểm tra đóng mẫu và lượng lớn không gian tìm kiếm để duy trì tập hợp các ứng cử viên chuỗi đóng lịch sử Năm 2004, Wang et al đã đề xuất thuật toán BIDE [36] để khai thác các CSP Thuật toán này áp dụng một lược đồ mới có tên là BI-Directional Extension để kiểm tra chuỗi đóng và phương pháp cắt bỏ BackScan để giảm không gian tìm kiếm, bên cạnh đó kỹ thuật tối ưu hóa ScanSkip cũng được sử dụng để tạo tập tất cả các CSP mà không cần duy trì ứng viên Tuy nhiên, thuật toán BIDE tiêu tốn rất nhiều thời gian để quét CSDL chiếu Thuật toán FCSM-PD [17] được đề xuất bởi Huang và cộng sự; thuật toán này sử dụng vị trí dữ liệu để bảo toàn thông tin vị trí của các mục trong các chuỗi dữ liệu Việc

mở rộng vị trí của một chuỗi tiền tố được kiểm tra trực tiếp và thông tin vị trí của tất cả các chuỗi tiền tố mới sẽ được ghi lại trong quá trình tăng trưởng mẫu Tuy nhiên, trong quá trình tăng trưởng mẫu, thuật toán FCSM-PD yêu cầu nhiều bộ nhớ hơn để lưu tất cả thông tin vị trí của một chuỗi tiền tố Năm 2016, Pham et al [28] đã đề xuất phương pháp khai thác CSP từ CSDL chuỗi Phương pháp này thêm một trường IsCSP vào mỗi nút trên cây tiền tố và áp dụng định nghĩa mẫu tuần tự đóng để kiểm tra xem một mẫu tuần tự có phải là một mẫu đóng hay không Bên cạnh đó, để giảm thời gian cần thiết trong quá trình tìm chuỗi ứng viên và kiểm tra tần suất cho từng ứng viên, cách tiếp cận này đã sử dụng phương pháp mã hóa khối nguyên tố Huynh và cộng sự [19] đã đề xuất thuật toán pDBV-FCSP để tìm CSP bằng cách áp dụng phương pháp tiếp cận

Ngày đăng: 19/05/2023, 22:30

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Agrawal, R., Srikant, R., "Mining sequential patterns", Proceedings of the 11th International Conference on Data Engineering, 1995, 3–14 Sách, tạp chí
Tiêu đề: Mining sequential patterns
Tác giả: Agrawal, R., Srikant, R
Nhà XB: Proceedings of the 11th International Conference on Data Engineering
Năm: 1995
[2]. Ayres, J., Gehrke, J.E., Yiu, T., Flannick, J., "Sequential pattern mining using a bitmap representation", Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002, 429–435 Sách, tạp chí
Tiêu đề: Sequential pattern mining using a bitmap representation
Tác giả: Ayres, J., Gehrke, J.E., Yiu, T., Flannick, J
Nhà XB: Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining
Năm: 2002
[3]. Baralis, E., Chiusano, S., Dutto, R., "Applying Sequential Rules to Protein Localization Prediction", Computer and Mathematics with Applications 55, (5), 2008, 867–878 Sách, tạp chí
Tiêu đề: Applying Sequential Rules to Protein Localization Prediction
Tác giả: E. Baralis, S. Chiusano, R. Dutto
Nhà XB: Computer and Mathematics with Applications
Năm: 2008
[4]. Chezhian, V. U., Subash, T., Samy, M. R., "Hierarchical sequence clustering algorithm for data mining", Proceedings of the World Congress on Engineering, 2011, 21 – 25 Sách, tạp chí
Tiêu đề: Hierarchical sequence clustering algorithm for data mining
Tác giả: Chezhian, V. U., Subash, T., Samy, M. R
Nhà XB: Proceedings of the World Congress on Engineering
Năm: 2011
[5]. Chuang, K.-T., Huang, J.-L., Chen, M.-S., “Mining top-k frequent patterns in the presence of the memory constraint”, VLDB Journal, 17(5), 2008, 1321-1344 Sách, tạp chí
Tiêu đề: Mining top-k frequent patterns in the presence of the memory constraint
Tác giả: Chuang, K.-T., Huang, J.-L., Chen, M.-S
Nhà XB: VLDB Journal
Năm: 2008
[6]. Dong, G., Pei, J., , "Sequence Data Mining", Springer Science + Business Media, LLC, 2007 Sách, tạp chí
Tiêu đề: Sequence Data Mining
Tác giả: G. Dong, J. Pei
Nhà XB: Springer Science + Business Media, LLC
Năm: 2007
[7]. Fournier-Viger, P., and Tseng, V. S., “Mining Top-K Sequential Rules”, Proc. of the 7th Intern. Conf. on Advanced Data Mining and Applications (ADMA 2011), Springer LNAI 7121, 2011, 180-194 Sách, tạp chí
Tiêu đề: Mining Top-K Sequential Rules
Tác giả: Fournier-Viger, P., Tseng, V. S
Nhà XB: Springer LNAI 7121
Năm: 2011
[8]. Fournier-Viger, P., “Mining Top-K Association Rules”, Proc. of the 25th Canadian Conf. on Artificial Intelligence (AI 2012), Springer, 2012, 61-73 Sách, tạp chí
Tiêu đề: Mining Top-K Association Rules
Tác giả: Fournier-Viger, P
Nhà XB: Springer
Năm: 2012
[9]. Fournier-Viger, P., Gomariz, A. , Gueniche, T. , Mwamikazi, E., Thomas, R. , , "TKS: Efficient Mining of Top-K Sequential Patterns", Proc. 9 th International Conference on Advanced Data Mining and Applications (ADMA 2013), Part I, Springer LNAI 8346, 2013, 109-120 Sách, tạp chí
Tiêu đề: TKS: Efficient Mining of Top-K Sequential Patterns
Tác giả: Fournier-Viger, P., Gomariz, A., Gueniche, T., Mwamikazi, E., Thomas, R
Nhà XB: Springer LNAI 8346
Năm: 2013
[10]. Fournier-Viger, P., Gomariz, A., Campos, M., Thomas, R., "Fast vertical mining of sequential patterns using co-occurrence information", In: PAKDD’14, 2014, 40–52 Sách, tạp chí
Tiêu đề: Fast vertical mining of sequential patterns using co-occurrence information
Tác giả: Fournier-Viger, P., Gomariz, A., Campos, M., Thomas, R
Nhà XB: PAKDD’14
Năm: 2014
[11]. Gan, W., Lin, J. C.-W., Fournier-Viger, P., Chao, H.-C., Yu, P. S., "A Survey of Parallel Sequential Pattern Mining", ACM Transactions on Knowledge Discovery from Data, 13(3), Article 25, 2019, 1-34 Sách, tạp chí
Tiêu đề: A Survey of Parallel Sequential Pattern Mining
Tác giả: Gan, W., Lin, J. C.-W., Fournier-Viger, P., Chao, H.-C., Yu, P. S
Nhà XB: ACM Transactions on Knowledge Discovery from Data
Năm: 2019
[12]. Garofalakis, M. N., Rastogi, R., and Shim, K., "SPIRIT: Sequential Pattern Mining with Regular Expression Constraints", Proc. of the Very Large Data Bases Conf., Edinburgh, Scotland, UK, 1999, 223-234 Sách, tạp chí
Tiêu đề: SPIRIT: Sequential Pattern Mining with Regular Expression Constraints
Tác giả: Garofalakis, M. N., Rastogi, R., Shim, K
Nhà XB: Proc. of the Very Large Data Bases Conf.
Năm: 1999
[13]. Gouda, K., Hassaan, M., Zaki, M.J., "PRISM: a primal-encoding approach for frequent sequence mining", Journal of Computer and System Sciences 76 (1), 2010, 88–102 Sách, tạp chí
Tiêu đề: PRISM: a primal-encoding approach for frequent sequence mining
Tác giả: Gouda, K., Hassaan, M., Zaki, M.J
Nhà XB: Journal of Computer and System Sciences
Năm: 2010
[15]. Han, J., Kamber, M., "Data Mining: Concepts and Techniques 3nd Edition", Morgan Kanufmann, 2012 Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques 3nd Edition
Tác giả: Han, J., Kamber, M
Nhà XB: Morgan Kanufmann
Năm: 2012
[16]. Han, J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., and Hsu, M.C., "Freespan: Frequent pattern-projected sequential pattern mining", Proc. 2000 Int. Conf. Knowledge Discovery and Data Mining (KDD’00), 2000, 355–359 Sách, tạp chí
Tiêu đề: Freespan: Frequent pattern-projected sequential pattern mining
Tác giả: Han, J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., Hsu, M.C
Nhà XB: Proc. 2000 Int. Conf. Knowledge Discovery and Data Mining (KDD’00)
Năm: 2000
[17]. Huang, G.-Y., Yang, F., Hu, C.-Z., and Ren, J.-D., “Fast Discovery of Frequent Closed Sequential Patterns based on Positional”, Proc. of the 2010 International Conference on Machine Learning and Cybernetics, Qingdao, China, 2010, 444 – 449 Sách, tạp chí
Tiêu đề: Fast Discovery of Frequent Closed Sequential Patterns based on Positional
Tác giả: Huang, G.-Y., Yang, F., Hu, C.-Z., Ren, J.-D
Nhà XB: Proc. of the 2010 International Conference on Machine Learning and Cybernetics
Năm: 2010
[18]. Huynh, B., Vo, B., Snasel, V., "An efcient method for mining frequent sequential patterns using multi-core processors", Applied Intelligence, 46(3), 2017, 703–716 Sách, tạp chí
Tiêu đề: An efcient method for mining frequent sequential patterns using multi-core processors
Tác giả: Huynh, B., Vo, B., Snasel, V
Nhà XB: Applied Intelligence
Năm: 2017
[19]. Huynh, B., Vo, B., and Snasel, V., “An efficient parallel method for mining frequent closed sequential patterns”, IEEE Access, 5, 2017, 17392-17402 Sách, tạp chí
Tiêu đề: An efficient parallel method for mining frequent closed sequential patterns
Tác giả: Huynh, B., Vo, B., Snasel, V
Nhà XB: IEEE Access
Năm: 2017
[20]. Huynh, B., Trinh, C., Huynh, H., Van, T.T., Vo, B., Snasel, V., "An efficient approach for mining sequential patterns using multiple threads on very large databases", Engineering Applications of Artificial Intelligence, 74, 2018, 242–251 Sách, tạp chí
Tiêu đề: An efficient approach for mining sequential patterns using multiple threads on very large databases
Tác giả: Huynh, B., Trinh, C., Huynh, H., Van, T.T., Vo, B., Snasel, V
Nhà XB: Engineering Applications of Artificial Intelligence
Năm: 2018
[21]. Le, B., Duong, H., Truong, T., and Fournier-Viger, P., “FCloSM, FGenSM: two efficient algorithms for mining frequent closed and generator sequences using the local pruning strategy”, Knowledge and Information Systems, 53(1), 2017, 71–107 Sách, tạp chí
Tiêu đề: FCloSM, FGenSM: two efficient algorithms for mining frequent closed and generator sequences using the local pruning strategy
Tác giả: Le, B., Duong, H., Truong, T., Fournier-Viger, P
Nhà XB: Knowledge and Information Systems
Năm: 2017

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w