MẪU 14KHCN 34 CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Mục tiêu chính của đề tài là nghiên cứu một số thuật toán khai thác chuỗi tuần tự, chuỗi tuần tự đóng hiện có từ đó đề xuất thuật toán hiệu quả hơn Kết quả, đề tài đã đề xuất được 2 thuật toán mới có hiệu suất cao hơn so với thuật toán hiện tại, cụ thể như sau Đề xuất thuật toán TKCS cho bài toán khai thác top k mẫu tuần tự đóng Thuật toán TKCS có hiệu suất tốt hơn cả về thời gian lẫn bộ nhớ so với thuật toán TSP hiện tại bởi vì thuật toán đề.
Trang 1CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Mục tiêu chính của đề tài là nghiên cứu một số thuật toán khai thác chuỗi tuần tự, chuỗi tuần tự đóng hiện có từ đó đề xuất thuật toán hiệu quả hơn Kết quả, đề tài đã đề xuất được 2 thuật toán mới có hiệu suất cao hơn so với thuật toán hiện tại, cụ thể như
sau:
- Đề xuất thuật toán TKCS cho bài toán khai thác top-k mẫu tuần tự đóng Thuật toán TKCS có hiệu suất tốt hơn cả về thời gian lẫn bộ nhớ so với thuật toán TSP hiện tại bởi vì thuật toán đề xuất đã sử dụng cách sắp xếp các mẫu theo thứ tự tăng dần của
độ hỗ trợ và sau đó mở rộng các mẫu có giá trị hỗ trợ cao nhất để tạo ra các mẫu ứng cử
viên Hơn nữa, thuật toán cũng đã sử dụng chiến lược tăng minsup đến giá trị hỗ trợ của
mẫu tuần tự trong danh sách top-k CSP với giá trị hỗ trợ nhỏ nhất
- Đề xuất một thuật toán hiệu quả để khai thác mẫu tuần tự có trọng số bằng việc kết hợp giá trị trọng số thực của các item trong CSDL chuỗi cùng với độ hỗ trợ của chúng Bên cạnh đó, thuật toán sử dụng cấu trúc dữ liệu biểu diễn theo chiều dọc nên thuật toán chỉ cần duyệt CSDL một lần, do đó tiết kiệm được thời gian Hơn nữa, thuật toán đã áp dụng khối mã hóa nguyên tố trong các bước tính toán của quá trình phát triển mẫu làm tăng hiệu suất thực thi của thuật toán so với các tiếp cận khác
Trong tương lai, nhóm tác giả sẽ hướng tới việc tối ưu hơn thời gian thực thi cho bài toán khai thác top-k mẫu tuần tự đóng bằng cách kết hợp thêm các kỹ thuật khác như áp dụng mã hóa khối nguyên tố hoặc phát triển các thuật toán khai thác tập top-k mẫu tuần tự có trọng số với dữ liệu chuỗi ở một số lĩnh vực cụ thể như chuỗi dữ liệu giao dịch, chuỗi dữ liệu khách hàng, chuỗi lịch sử truy cập web,
Trang 2Tài liệu tham khảo
[1] Agrawal, R., Srikant, R., "Mining sequential patterns", Proceedings of the 11th International Conference on Data Engineering, 1995, 3–14
[2] Ayres, J., Gehrke, J.E., Yiu, T., Flannick, J., "Sequential pattern mining using a bitmap representation", Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2002, 429–435
[3] Baralis, E., Chiusano, S., Dutto, R., "Applying Sequential Rules to Protein Localization Prediction", Computer and Mathematics with Applications 55, (5), 2008, 867–878
[4] Chezhian, V U., Subash, T., Samy, M R., "Hierarchical sequence clustering algorithm for data mining", Proceedings of the World Congress on Engineering, 2011,
21 – 25
[5] Chuang, K.-T., Huang, J.-L., Chen, M.-S., “Mining top-k frequent patterns in the presence of the memory constraint”, VLDB Journal, 17(5), 2008, 1321-1344
[6] Dong, G., Pei, J., , "Sequence Data Mining", Springer Science + Business Media, LLC, 2007
[7] Fournier-Viger, P., and Tseng, V S., “Mining Top-K Sequential Rules”, Proc of the 7th Intern Conf on Advanced Data Mining and Applications (ADMA 2011), Springer LNAI 7121, 2011, 180-194
[8] Fournier-Viger, P., “Mining Top-K Association Rules”, Proc of the 25th Canadian Conf on Artificial Intelligence (AI 2012), Springer, 2012, 61-73
[9] Fournier-Viger, P., Gomariz, A , Gueniche, T , Mwamikazi, E., Thomas, R , ,
"TKS: Efficient Mining of Top-K Sequential Patterns", Proc 9th International Conference on Advanced Data Mining and Applications (ADMA 2013), Part I, Springer LNAI 8346, 2013, 109-120
[10] Fournier-Viger, P., Gomariz, A., Campos, M., Thomas, R., "Fast vertical mining
of sequential patterns using co-occurrence information", In: PAKDD’14, 2014, 40–52 [11] Gan, W., Lin, J C.-W., Fournier-Viger, P., Chao, H.-C., Yu, P S., "A Survey of Parallel Sequential Pattern Mining", ACM Transactions on Knowledge Discovery from Data, 13(3), Article 25, 2019, 1-34
[12] Garofalakis, M N., Rastogi, R., and Shim, K., "SPIRIT: Sequential Pattern Mining with Regular Expression Constraints", Proc of the Very Large Data Bases Conf., Edinburgh, Scotland, UK, 1999, 223-234
[13] Gouda, K., Hassaan, M., Zaki, M.J., "PRISM: a primal-encoding approach for frequent sequence mining", Journal of Computer and System Sciences 76 (1), 2010, 88–102
Trang 3[14] Han, J., Dong, G., Yin, Y., "Efficient Mining of Partial Periodic Patterns in Time Series Database" 15th International Conference on Data Engineering: Proceedings,
1999, 106-115
[15] Han, J., Kamber, M., "Data Mining: Concepts and Techniques 3nd Edition", Morgan Kanufmann, 2012
[16] Han, J., Pei, J., Mortazavi-Asl, B., Chen, Q., Dayal, U., and Hsu, M.C., "Freespan: Frequent pattern-projected sequential pattern mining", Proc 2000 Int Conf Knowledge Discovery and Data Mining (KDD’00), 2000, 355–359
[17] Huang, G.-Y., Yang, F., Hu, C.-Z., and Ren, J.-D., “Fast Discovery of Frequent Closed Sequential Patterns based on Positional”, Proc of the 2010 International Conference on Machine Learning and Cybernetics, Qingdao, China, 2010, 444 – 449 [18] Huynh, B., Vo, B., Snasel, V., "An efcient method for mining frequent sequential patterns using multi-core processors", Applied Intelligence, 46(3), 2017, 703–716 [19] Huynh, B., Vo, B., and Snasel, V., “An efficient parallel method for mining frequent closed sequential patterns”, IEEE Access, 5, 2017, 17392-17402
[20] Huynh, B., Trinh, C., Huynh, H., Van, T.T., Vo, B., Snasel, V., "An efficient approach for mining sequential patterns using multiple threads on very large databases", Engineering Applications of Artificial Intelligence, 74, 2018, 242–251
[21] Le, B., Duong, H., Truong, T., and Fournier-Viger, P., “FCloSM, FGenSM: two efficient algorithms for mining frequent closed and generator sequences using the local pruning strategy”, Knowledge and Information Systems, 53(1), 2017, 71–107
[22] Le, T, Vo, B., Huynh, V.-N., Nguyen, N T., and Baik, S W.,” Mining top-k frequent patterns from uncertain databases”, Appl Intell, 50, 2020, 1487–1497
[23] Masseglia, F., Cathala, F., & Poncelet, P., "The PSP Approach for Mining Sequential Patterns", Proceedings of the 2nd European Symposium on Principles of Data Mining and Knowledge Discovery, Nantes, France, 1998, 176-184
[24] Nguyen, L T T., Vo, B., Nguyen, L T T., Fournier-Viger, P., and Selamat, A.,
“ETARM: an efficient top-k association rule mining algorithm” Applied Intelligence,
248, 2018, 1148–1160
[25] Pei, J., Han, J., Mortazavi-Asl, B., Wang, J., Pinto, H., Chen, Q., Dayal, U., Hsu,
M C., "Mining sequential patterns by pattern-growth: the prefixspan approach", IEEE Transactions on Knowledge and Data Engineering 16 (10), 2004, 1424–1440
[26] Pei, J., Han, J., and Mao, R., “CLOSET: An efficient algorithm for mining frequent closed itemsets”, In DMKD’01 workshop, Dallas, TX, 2001
[27] Pham, T T., Luo, J., and Vo, B., “An effective algorithm for mining closed sequential patterns and their minimal generators based on prefix trees”, International Journal of Intelligent Information and Database Systems, 7(4), 2013, 324-339
Trang 4[28] Pham, T T., and Van, V., “Applying the attributed prefix tree for mining closed sequential patterns”, Journal of Science and Technology, 54(3A), 2016, 106-114
[29] Sirisha, A., S Pabboju, G Narsimha, "Efficient mining of sequential patterns in a sequence database with weight constraint" IJRITCC, 2016, 394 – 397
[30] Shim, B., Choi, K., Suh, Y., "CRM strategies for a small-sized online shopping mall based on association rules and sequential patterns", Expert Systems with Applications, 39, 2012, 7736 – 7742
[31] Srikant, R and Agrawal, R., "Mining sequential patterns: Generalizations and performance improvements", in: 5th Intl Conf Extending Database Technology, 1996,
3 – 17
[32] Thilagu, M., Nadarajan, R., Ahmed, M.S.I., and Bama, S.S., “PBFMCSP: Prefix Based Fast Mining of Closed Sequential Patterns”, The International Conference on Advances in Computing, Control, and Telecommunication Technologies ATC’09, Trivandrum, Kerala, India, 2009, 484 – 488
[33] Tzvetkov, P., "TSP: Mining Top-k Closed Sequential Patterns", Knowledge and Information Systems, 7(4), 2005, 438-457
[34] Van, T., Vo, B., Le, B., "Mining sequential patterns with itemset constraints"Knowledge and Information Systems, 57(2), 2018, 311-330
[35] Wang, W., Yang, J., "Mining Sequential Patterns From Large Data Sets", Springer, 2005
[36] Wang, J., and Han, J., “BIDE: Efficient mining of frequent closed sequences”, In proc of the 20th Int’ Conf on Data Engineering (ICDE’95): IEEE Computer Society Press, DC, USA, 2004, 79-91
[37] Yan, X., Han, J., and Afshar, R., “CloSpan: Mining closed sequential patterns in large datasets”, Proc of the 3th SIAM International Conference on Data Mining, San Francisco, CA, USA: SIAM Press, 2003, 166 -177
[38] Yun, U., and Leggett, J., "WFIM: Weighted frequent itemset mining with a weight range and a minimum weight", ISBN: 978-0-89871-593-4, 2005, 636–640 [39] Yun, U., and Leggett, J., "WSpan: Weighted sequential pattern mining in large sequence databases", 3rd International IEEE Conference on Intelligent Systems, 2006,
512 – 517
[40] Yun, U., "A new framework for detecting weighted sequential patterns in large sequence databases", Knowledge – base systems, 21, 2008, 110 – 122
[41] Zaki, M.J "SPADE: an efficient algorithm for mining frequent sequences", The Journal of Machine Learning Research, 42, 2001, 31–60
[42] Zaki, M.J., and Hsiao, C., “CHARM: An efficient algorithm for closed itemset mining”, In SDM ‘02, Arlington, VA, 2002, 457 - 473