Việc phát hiện luật kết hợp có tính đến khoảng cách thời gian mới chỉ dừng lại đối với CSDL giao dịch có yếu tố thời gian mà chưa được thực hiện đối với các CSDL định lượng có yếu tố th
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
…… ….***…………
TRƯƠNG ĐỨC PHƯƠNG
PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT CHUỖI MỜ TRONG CƠ
SỞ DỮ LIỆU ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN
Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04
TÓM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH
Hà Nội – 2021
Trang 2Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ -
Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Người hướng dẫn khoa học 1: PGS.TS Đỗ Văn Thành
Người hướng dẫn khoa học 2: PGS.TS Nguyễn Đức Dũng
Có thể tìm hiểu luận án tại:
- Thư viện Học viện Khoa học và Công nghệ
- Thư viện Quốc gia Việt Nam
Trang 3MỞ ĐẦU
1 Tính cấp thiết của luận án và động lực nghiên cứu (Phương and Thành, 2013)
Phát hiện luật kết hợp và mẫu chuỗi, luật chuỗi nằm trong số những vấn đề quan trọng trong lĩnh vực khai phá dữ liệu Đến nay, rất nhiều công trình nghiên cứu liên quan đến các lĩnh vực này Các luật kết hợp và mẫu chuỗi, luật chuỗi được đề xuất là rất đa dạng, chúng có thể là các luật, mẫu chuỗi giao dịch/định lượng; có trọng số/không trọng số; có yếu tố thời gian/không có yếu tố thời gian;.v.v
Vấn đề phát hiện luật kết hợp trong các CSDL giao địch được đề xuất lần đầu vào năm
1993 (Agrawal, Imieliński and Swami, 1993) và đến nay đã có nhiều thuật toán được xây dựng theo rất nhiều cách tiếp cận khác nhau để phát hiện các luật này trong các CSDL giao dịch: APRIORI (Agrawal, Srikant and others, 1994), PARTITION (Savasere, Omiecinski and
Navathe, 1995), A-CLOSE (Pasquier et al., 1999a), A-CLOSE+ (Shekofteh, Rahmani and Dezfuli, 2008), CLOSE (Pasquier et al., 1999b), CLOSET (Pei et al., 2000), CLOSET+
(Wang, Han and Pei, 2003), CHARM (Zaki and Hsiao, 2002), MAFIA (Burdick, Calimlim
and Gehrke, 2001), GENMAX (Gouda and Zaki, 2005), ECLAT (Ogihara et al., 1997), DIC (Brin et al., 1997), FP-GROWTH (Han et al., 2004), CFPMINE (Qin, Luo and Shi, 2004),
ETARM (Nguyen et al., 2018), LRM (Saravanan and Sree, 2011), PARM (Sumathi and
Kirubakaran, 2012), NEGFIN (Aryabarzan, Minaei-Bidgoli and Teshnehlab, 2018)
Tuy nhiên các CSDL trong thực tế thường có các thuộc tính nhận giá trị số hoặc giá trị phân loại Những CSDL như vậy được gọi là CSDL định lượng Việc phát hiện các luật kết hợp trong CSDL định lượng thường sử dụng một trong 2 cách đó là: rời rạc hóa (Srikant and
Agrawal, 1996a; Lent, Swami and Widom, 1997; Fukuda et al., 1999; Rastogi and Shim,
2002) và mờ hóa các thuộc tính định lượng (Chan and Au, 1997; Kuok, Fu and Wong, 1998; T.-P Hong, Kuo and Chi, 1999; Hong, Kuo and Chi, 2001; Hong, Chiang and Wang, 2002; Hong, 2003) Bản chất của cách tiếp cận thứ nhất là đưa CSDL định lượng về CSDL giao dịch bằng cách chuyển các thuộc tính định lượng thành một số mục (item) tương ứng và sau đó áp dụng một trong các thuật toán phát hiện các luật kết hợp trong các CSDL giao dịch đã biết Cách tiếp cận thứ hai nhằm khắc phục nhược điểm của cách tiếp cận thứ nhất, nhưng khi đó các thuật toán phát hiện các luật kết hợp trong các CSDL cần được cải tiến và phát triển tiếp CSDL có yếu tố thời gian (temporal database) là CSDL có lưu trữ thông tin về thời điểm
xảy ra của các giao dịch (Tansel et al., 1993) (Aydin and Angryk, 2018) Năm 1998, Lu và các
cộng sự (Lu, Han and Feng, 1998) đã đề xuất luật kết hợp có tính đến độ chênh lệch về thời điểm (gọi là khoảng cách thời gian) xảy ra giữa các giao dịch trong các CSDL giao dịch có yếu tố thời gian, luật có dạng → với a, b là các tập mục dữ liệu Trong (Lu, Han and Feng, 1998), hai thuật toán E-Apriori và EH-Apriori được đề xuất để phát hiện các luật dạng này Về ý tưởng chính, hai thuật toán E-Apriori, EH-Apriori dựa trên ý tưởng thuật toán Apriori và sử dụng cửa sổ trượt đối với khoảng cách thời gian Để phát hiện các luật kết hợp
có tính đến khoảng cách thời gian trong các CSDL giao dịch có yếu tố thời gian, nhiều thuật
toán tiếp tục được đề xuất như: FITI (Tung et al., 2003), ITARM (Qin and Shi, 2006),
ITP-Miner (Lee and Wang, 2007), IAR ITP-Miner (Nandagopal, Arunachalam and Karthik, 2012),
CITP-Miner (Nguyen et al., 2019), NCITPS-MINER (Nguyen et al., 2020) Việc phát hiện
luật kết hợp có tính đến khoảng cách thời gian mới chỉ dừng lại đối với CSDL giao dịch có yếu tố thời gian mà chưa được thực hiện đối với các CSDL định lượng có yếu tố thời gian Đây là khoảng trống nghiên cứu mà luận án mong muốn giải quyết
Luật chuỗi, mẫu chuỗi như được hiểu từ trước đến nay còn được gọi là luật chuỗi, mẫu chuỗi cổ điển để phân biệt với một loại luật chuỗi, mẫu chuỗi mới được đề xuất trong những năm gần đây Các mẫu chuỗi cổ điển (được gọi ngắn gọn là mẫu chuỗi) là các chuỗi cổ điển
Trang 4trong các CSDL chuỗi giao dịch được giới thiệu lần đầu năm 1995 (Agrawal, Srikant and others, 1995) và đến nay đã nhận được rất nhiều sự quan tâm Hiện đã có nhiều thuật toán phát hiện các mẫu chuỗi trong các CSDL chuỗi giao dịch như GSP (Srikant and Agrawal, 1996b),
SPIRIT (Garofalakis, Rastogi and Shim, 1999), SPADE (Zaki, 2001), SPAM (Ayres et al., 2002), FAST (Salvemini et al., 2011), CM-SPADE (Fournier-Viger, Gomariz, Campos, et al.,
2014), MAXSP (Fournier-Viger, Wu and Tseng, 2013), GENMINER (Lo, Khoo and Li,
2008), FREESPAN (Han et al., 2000), PREFIXSPAN (Pei et al., 2004), CLOSPAN (Yan,
Han and Afshar, 2003), MSPIC-DBV (Van, Vo and Le, 2018), HSPREC (Bhatta, Ezeife and Butt, 2019),
Các CSDL chuỗi giao dịch có yếu tố thời gian là CSDL có lưu trữ thông tin về thời điểm
xảy ra của các giao dịch Năm 2000, Yoshida và các cộng sự (Yoshida et al., 2000) đã đề xuất
mẫu chuỗi có tính đến khoảng cách thời gian trong CSDL chuỗi giao dịch có yếu tố thời gian, mẫu chuỗi này có dạng 〈 〉 với a, b, c là các tập mục, [1−4] và [5−9] là khoảng thời gian có thể xảy ra lần lượt giữa a, b và giữa b, c Để phát hiện mẫu chuỗi có tính
đến khoảng cách thời gian, thuật toán Delta-Pattern đã được đề xuất trong (Yoshida et al., 2000) Phát hiện mẫu chuỗi có tính đến khoảng cách thời gian như trong (Yoshida et al., 2000)
tiếp tục được giải quyết bởi các thuật toán I-Apriori và I-PrefixSpan (Chen, Chiang and Ko,
2003), TAS (Giannotti et al., 2006) Năm 2005, để khắc phục hiện tượng “sắc nét” tại các
điểm giáp danh của các khoảng chia đối với khoảng cách thời gian, Chen và Huang (Chen and Huang, 2005) đã đề xuất mẫu chuỗi có tính đến khoảng cách thời gian mà ở đó khoảng cách thời gian là các tập mờ, mẫu chuỗi khi đó có dạng 〈 〉 với Short, Long là các tập mờ, mỗi tập mờ có hàm thành viên tương ứng Trong (Chen and Huang, 2005), hai thuật toán FTI-Apriori và FTI-PrefixSpan được đề xuất để phát hiện các mẫu chuỗi này Mẫu chuỗi
này tiếp tục được phát hiện bởi thuật toán FP Growth- PrefixSpan (Mukhlash, Yuanda and
phát hiện các luật chuỗi chung đầu tiên là CMRules (Fournier-Viger et al., 2010) sau đó tiếp
tục được phát triển bởi Rule Growth (Fournier-Viger, Nkambou and Tseng, 2011), ERMiner
(Fournier-Viger, Gueniche, et al., 2014) Các luật chuỗi chung thực sự là có ích và đã được ứng dụng trong thực tế (Çelebi et al., 2014) Luật chuỗi chung đến nay mới chỉ được phát hiện
trong các CSDL chuỗi giao dịch mà chưa được áp dụng đối với CSDL chuỗi định lượng có yếu tố thời gian Đây là khoảng trống thứ 3 được xác định trong vấn đề nghiên cứu của luận
án
Luận án này nhằm giải quyết 3 khoảng trống được xác định ở trên Việc nghiên cứu giải quyết những vấn đề đó là thực sự cần thiết không chỉ ở phương diện phát triển lý thuyết mà cả
ở phương diện ứng dụng thực tế Đó là động lực để tác giả luận án thực hiện nghiên cứu đề tài
“Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian”
Cụ thể luận án đề xuất và giải quyết các vấn đề về phát hiện các luật kết hợp và mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các giao dịch tương ứng trong các CSDL định lượng có yếu tố thời gian và CSDL chuỗi định lượng có yếu tố thời gian Luận án thực sự có đóng góp mới về mặt lý thuyết, cung cấp các giải pháp cho những vấn
đề chưa được giải quyết trong hướng nghiên cứu về phát hiện các luật kết hợp và các mẫu chuỗi, luật chuỗi chung tương ứng trong CSDL định lượng và CSDL chuỗi định lượng cùng
có yếu tố thời gian
2 Mục tiêu, đối tƣợng và phạm vi nghiên cứu của luận án
Trang 52.1 Mục tiêu của luận án
Phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian Các luật tìm được khi đó được gọi là các luật kết hợp mờ với khoảng cách thời gian mờ
Phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian Các mẫu chuỗi tìm được khi đó được gọi
là mẫu chuỗi mờ với khoảng cách thời gian mờ
Phát hiện các luật chuỗi chung (là luật chuỗi ở dạng tổng quát và chung hơn so với các luật chuỗi (cổ điển) như được biết từ trước đến nay) có tính đến khoảng cách thời gian xảy
ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian Các luật tìm được được gọi là các luật chuỗi chung mờ với khoảng cách thời gian mờ
2.2 Đối tượng nghiên cứu: là các thuật toán phát hiện các luật kết hợp, và các mẫu
chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian trong các CSDL định lượng và CSDL chuỗi định lượng cùng có yếu tố thời gian
3 Phương pháp nghiên cứu
Luận án đã sử dụng các phương pháp nghiên cứu sau:
Phương pháp tổng hợp, phân tích: được sử dụng để tổng hợp và phân tích các nghiên cứu
về những vấn đề liên quan để phát hiện các khoảng trống nghiên cứu và xác định vấn đề nghiên cứu mà luận án cần giải quyết Phương pháp phân tích cũng thường được sử dụng khi đề xuất các khái niệm mới liên quan đến vấn đề nghiên cứu của luận án sao cho những khái niệm mới được phát triển dựa trên nhiều nhất có thể các khái niệm đã có liên quan
Phương pháp so sánh: được sử dụng để so sánh các kỹ thuật, thuật toán đã được đề xuất để
giải quyết những vấn đề nghiên cứu liên quan, từ đó hình thành ý tưởng cho thuật toán mới
cho vấn đề nghiên cứu
Phương pháp thiết kế và đánh giá độ phức tạp thuật toán: được sử dụng để thiết kế thuật
toán giải quyết bài toán cụ thể được đặt ra trong luận án và ước lượng độ phức tạp tính toán của các thuật toán này
Phương pháp thực nghiệm: Các thuật toán được đề xuất đều được thực nghiệm trên các tập
dữ liệu thực để đánh giá sự đúng đắn và tính khả thi của thuật toán
4 Các đóng góp chính của luận án
Những đóng góp chính của luận án là đề xuất và giải quyết các vấn đề sau:
Đề xuất vấn đề và thuật toán phát hiện luật kết hợp có tính đến khoảng cách thời gian xảy
ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng cách thời gian xảy ra giữa các giao dịch được chuyển thành các thuộc tính mờ và khoảng cách thời gian mờ [CT4]
Đề xuất vấn đề và thuật toán phát hiện mẫu chuỗi (cổ điển) có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng cách thời gian xảy ra giữa các giao dịch cũng được chuyển thành các thuộc tính mờ và khoảng cách thời gian mờ [CT5]
Đề xuất vấn đề và thuật toán phát hiện luật chuỗi chung có tính đến khoảng cách thời gian
Trang 6thuộc tính định lượng và khoảng cách thời gian cũng được chuyển thành các thuộc tính mờ
và khoảng cách thời gian mờ [CT9]
5 Bố cục luận án
Luận án gồm phần mở đầu, 04 chương nội dung và phần kết luận:
Phần mở đầu: Trình bày sự cần thiết và động lực nghiên cứu của đề tài; mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; những đóng góp chính và cấu trúc của luận án
Chương 1: Tổng quan về luật kết hợp và mẫu chuỗi, luật chuỗi chung
Chương 2: Phát hiện luật kết hợp có tính đến khoảng cách thời gian trong các CSDL định lượng có yếu tố thời gian
Chương 3: Phát hiện mẫu chuỗi có tính đến khoảng cách thời gian trong các CSDL chuỗi định lượng có yếu tố thời gian
Chương 4: Phát hiện luật chuỗi chung có tính đến khoảng cách thời gian trong các CSDL chuỗi định lượng có yếu tố thời gian
Phần kết luận: Trình bày một số kết luận về ý nghĩa, đóng góp của luận án và định hướng nghiên cứu trong tương lai
TỔNG QUAN VỀ LUẬT KẾT HỢP VÀ MẪU CHUỖI, LUẬT CHUỖI CHUNG CHƯƠNG 1.
Chương này trình bày tổng quan những vấn đề liên quan đến phát hiện các luật kết hợp và các mẫu chuỗi, luật chuỗi chung trong các CSDL giao dịch/định lượng không có hoặc có yếu
tố thời gian Chương này cũng chỉ ra các khoảng trống chưa được giải quyết để từ đó xác định vấn đề nghiên cứu của luận án
1.1 Luật kết hợp
1.1.1 Phát hiện luật kết hợp trong các CSDL giao dịch
Định nghĩa 1.1 CSDL giao dịch (Agrawal, Srikant and others, 1994): Giả sử I =
{ } là tập các mục, D = { } là tập các giao dịch, (1jm) là tập các mục thỏa mãn I, biểu diễn mục xuất hiện trong giao dịch (hay tương ứng nhận
giá trị 1 nếu xuất hiện trong giao dịch này), nói cách Khi đó, D được gọi là CSDL giao dịch Định nghĩa 1.2 Luật kết hợp (Agrawal, Imieliński and Swami, 1993): Giả sử X là tập mục, giao dịch T được gọi là chứa X khi và chỉ khi X T Luật kết hợp là luật có dạng X Y
với XI, YI và X Y= Trong đó X được gọi là tiền đề, Y là hệ quả của luật
Định nghĩa 1.3 Độ hỗ trợ và độ tin cậy của luật kết hợp (Agrawal, Imieliński and Swami,
Trang 7Việc phát hiện các luật kết hợp thường được chia làm 2 giai đoạn (Agrawal, Imieliński and Swami, 1993; Kotsiantis and Kanellopoulos, 2006):
Giai đoạn 1: Tìm tất cả các tập phổ biến trong CSDL, ở đó các tập phổ biến là các tập có
độ hỗ trợ không nhỏ hơn độ hỗ trợ cực tiểu (hay ngưỡng hỗ trợ) cho trước;
Giai đoạn 2: Sinh ra các luật kết hợp có độ tin cậy không nhỏ hơn độ tin cậy cực tiểu (hay ngưỡng tin cậy) cho trước từ các tập phổ biến đã tìm được ở giai đoạn 1
1.1.2 Phát hiện luật kết hợp trong các CSDL định lượng
Định nghĩa 1.4 CSDL định lượng (Chan and Au, 1997): Giả sử I = { } là tập
các thuộc tính, D = { } là tập các giao dịch, (1jm) là tập các thuộc tính thỏa mãn I, các giá trị tương ứng với thuộc tính (1kn) trong giao dịch (1jm)
nhận giá trị là số hoặc phân loại Khi đó, D được gọi là CSDL định lượng
1.1.3 Phát hiện luật kết hợp tính đến khoảng cách thời gian xảy ra của các giao dịch trong
các CSDL có yếu tố thời gian
Định nghĩa 1.5 CSDL có yếu tố thời gian là CSDL (giao dịch hoặc định lượng) ở đó có
thuộc tính thời gian nhận giá trị là thời điểm (hay timestamp) xảy ra của mỗi giao dịch
Bảng 1.1 Một số nghiên cứu về phát hiện luật kết hợp có tính đến khoảng cách thời gian
Thuật toán Tập dữ liệu Tập phổ biến/luật Ý nghĩa
EH-Apriori (Lu, Han and Feng,
1998),
FITI (Tung et al., 2003),
ITARM (Qin and Shi, 2006),
ITP-Miner (Lee and Wang, 2007),
IAR Miner (Nandagopal,
Arunachalam and Karthik, 2012),
NCITPS-Miner (Nguyen et al.,
2020)
CSDL giao dịch có yếu
tố thời gian
→ Nếu mặt hàng a được
mua thì mặt hàng b
cũng sẽ được mua sau
2 ngày tiếp theo
1.2 Mẫu chuỗi
1.2.1 Phát hiện mẫu chuỗi trong các CSDL chuỗi giao dịch
Định nghĩa 1.6 CSDL chuỗi giao dịch (Agrawal, Srikant and others, 1995): Giả sử I
={ } là tập các mục Một chuỗi s =〈 〉 là danh sách có thứ tự các tập mục với I (1km)
Một CSDL chuỗi giao dịch SD là tập các chuỗi giao dịch
SD = { }
Định nghĩa 1.7 Độ dài chuỗi (Agrawal, Srikant and others, 1995): Độ dài của chuỗi
〈 〉 là tổng số các tập mục của chuỗi Một chuỗi có độ dài k được gọi là chuỗi
k-Định nghĩa 1.8 Chuỗi con (Agrawal, Srikant and others, 1995): Chuỗi 〈 〉 được gọi là chuỗi con của chuỗi 〈 〉 khi và chỉ khi tồn tại k số nguyên sao cho và được kí hiệu là Nói cách khác, chuỗi là chuỗi con của chuỗi nếu có thể nhận được từ sau khi bỏ đi một số giao dịch hoặc một số mục trong các giao dịch của Khi đó ta có thể gọi là chuỗi chứa chuỗi
Định nghĩa 1.9 Độ hỗ trợ của chuỗi (Agrawal, Srikant and others, 1995): Độ hỗ trợ của
chuỗi trong CSDL chuỗi SDB, kí hiệu là sup( ), là tỷ số của số chuỗi trong SDB chứa
và tổng số chuỗi trong CSDL này Độ hỗ trợ của chuỗi được tính theo công thức:
|{ | }|/|SDB| (1.4)
Trang 8Chuỗi được gọi là phổ biến hay là mẫu chuỗi khi và chỉ khi độ hỗ trợ của chuỗi s không
nhỏ hơn độ hộ trợ cực tiểu min_sup cho trước, tức là sup( ) min_sup
1.2.2 Phát hiện mẫu chuỗi trong các CSDL chuỗi định lượng
Định nghĩa 1.10 CSDL chuỗi định lượng: Giả sử I = { } là tập các thuộc tính Một chuỗi định lượng s = 〈 〉 là danh sách có thứ tự các tập thuộc tính I (1km) và các thuộc tính a nhận giá trị là số hoặc phân loại
Một CSDL chuỗi định lượng là tập các chuỗi định lượng { }
1.2.3 Phát hiện mẫu chuỗi tính đến khoảng cách thời gian xảy ra của các giao dịch trong
các CSDL chuỗi có yếu tố thời gian
Định nghĩa 1.11 CSDL chuỗi giao dịch/định lượng có yếu tố thời gian (Guyet, 2020): là
CSDL chuỗi giao dịch/định lượng ở đó có thêm thuộc tính thời gian nhận giá trị là thời điểm xảy ra của mọi giao dịch trong các chuỗi giao dịch
Giả sử I = { } là tập các mục Một chuỗi 〈 〉 , ở đây
là thời điểm xuất hiện của mục I (1 n) trong chuỗi Chuỗi giao dịch s cũng có thể được viết dưới dạng s = 〈 〉
(1≤ j≤ k) và tương ứng là thời điểm xảy ra của các giao dịch mua các mặt hàng trong
Một CSDL chuỗi có yếu tố thời gian là tập tất cả các chuỗi có yếu tố thời gian { }
Trong CSDL trên, nếu các mục trong I được xem là các thuộc tính nhận giá trị 1 hoặc 0
tương ứng với mục đó xuất hiện hay không xuất hiện thì CSDL chuỗi giao dịch có yếu tố thời gian trở thành CSDL chuỗi nhị phân có yếu tố thời gian
Nếu các thuộc tính trong I nhận các giá trị số hoặc giá trị phân loại thì nhận được một
CSDL được gọi là CSDL chuỗi định lượng có yếu tố thời gian
Bảng 1.2 Một số nghiên cứu về phát hiện mẫu chuỗi có tính đến khoảng cách thời gian
TAS (Giannotti et
al., 2006)
CSDL chuỗi giao dịch có yếu
tố thời gian
〈 〉 Nếu một khách hàng mua a và sau đó
mua b trong thời gian 3 ngày thì khách hàng đó sẽ mua c sau 5 ngày
tố thời gian
〈 〉 Nếu một khách hàng mua a và sau
đó mua b trong thời gian [0, 3 ngày]
tố thời gian
〈 〉 (khoảng cách thời gian là giá trị rõ)
Nếu một khách hàng mua a và sau đó
mua b sau thời gian I 1 thì khách hàng
đó sẽ mua c sau thời gian I 2
tố thời gian
〈 〉 (Khoảng cách thời gian là giá trị mờ)
Nếu một khách hàng mua a và mua b
sau thời gian Short thì khách hàng đó
sẽ mua c sau thời gian Long.
SPFTI (Chang,
Chueh and Lin,
2009),
CSDL chuỗi giao dịch có yếu
tố thời gian
〈 〉 (Khoảng cách thời gian là giá trị mờ)
Nếu một khách hàng mua a và mua b
sau thời gian thì khách hàng đó
sẽ mua c sau thời gian
Trang 9ISPFTI (Chang,
Chueh and Luo,
2012)
1.3 Luật chuỗi chung
1.3.1 Khái niệm luật chuỗi chung
Định nghĩa 1.12 Luật chuỗi chung (Fournier-Viger et al., 2012): Giả sử I = { } là
tập các mục, SD là CSDL chuỗi giao dịch, một luật chuỗi chung có dạng X⟹Y, trong đó X, Y
I thỏa mãn X Y=, X, Y ≠ và các mục trong Y phải xuất hiện sau các mục trong X
1.3.2 Phát hiện luật chuỗi chung
Luật chuỗi chung mới được xuất hiện trong vài năm gần đây (Fournier-Viger et al., 2010)
Các thuật toán để phát hiện các luật chuỗi chung trong các CSDL chuỗi chưa nhiều Bảng 1.3 sau đây giới thiệu các thuật toán như vậy
Bảng 1.3 Một số nghiên cứu về phát hiện luật chuỗi chung
CMRules (Fournier-Viger
et al., 2010),
Rule Growth
(Fournier-Viger, Nkambou and
Tseng, 2011),
ERMiner (Fournier-Viger,
Gueniche, et al., 2014)
CSDL chuỗi giao dịch
Luật chuỗi chung:
Định nghĩa 1.13 Các lớp tương đương trái/phải (Fournier-Viger, Gueniche, et al., 2014):
Cho CSDL chuỗi giao dịch, I là tập các mục trong CSDL này Một lớp tương đương trái được
kí hiệu là được xác định là = {W ⟹ Y | Y I |Y| = i} trong đó W I và i là số
tự nhiên Tương tự, một lớp tương đương phải kí hiệu là được xác định là = {X
⟹ W | X I |X| = i} trong đó W I và i là số nguyên
Định nghĩa 1.14 Các phép hợp nhất trái/phải (Fournier-Viger, Gueniche, et al., 2014): Giả
sử là lớp tương đương trái và hai luật r = W ⟹ X và s = W ⟹ Y đều thuộc và
| | | – | Một phép hợp trái của r và s là quá trình kết hợp r, s để nhận được luật ⟹ Tương tự, gọi là lớp tương đương phải và hai luật r = ⟹ và s = ⟹ thỏa mãn r, s và | | | – | Một phép hợp phải của r và s là quá trình kết hợp r, s để được ⟹
Kết luận Chương 1
Chương 1 đã trình bày một cách tổng quan, tóm tắt những vấn đề liên quan đến phát hiện các luật kết hợp và mẫu chuỗi, luật chuỗi chung tương ứng trong các CSDL (giao dịch, định lượng) và CSDL chuỗi (giao dịch, định lượng) có yếu tố thời gian
Luận án sẽ tập trung nghiên cứu đề xuất và giải pháp giải quyết triệt để 3 vấn đề sau đây:
Vấn đề 1: Phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian
Vấn đề 2: Phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian
Vấn đề 3: Phát hiện các luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian
Ba chương nội dung tiếp theo trong luận án sẽ trình bày cụ thể giải pháp tương ứng cho 3
vấn đề nghiên cứu đó
Trang 10PHÁT HIỆN LUẬT KẾT HỢP CÓ TÍNH ĐẾN KHOẢNG CÁCH THỜI CHƯƠNG 2.
GIAN TRONG CÁC CSDL ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN
Trong chương 1, luận án đã chỉ ra khoảng trống cần được nghiên cứu về phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian Chương này, luận án sẽ trình bày giải pháp để giải quyết vấn đề nghiên cứu đó Khi đó, một dạng luật kết hợp mới được gọi là luật kết hợp mờ với khoảng cách thời gian mờ sẽ được phát hiện Kết quả nghiên cứu của Chương này đã được đăng trên tạp chí Indian Journal of Science and Technology [CT4] Chương này chủ yếu tập trung trình bày vấn đề phát hiện luật kết hợp mờ với khoảng cách thời gian mờ trong các CSDL định lượng có yếu tố thời gian
Trong quá trình nghiên cứu phát hiện luật kết hợp người ta còn quan tâm đến khoảng cách
thời gian xảy ra giữa các giao dịch (Lu, Han and Feng, 1998; Tung et al., 2003; Qin and Shi,
2006; Lee and Wang, 2007; Nandagopal, Arunachalam and Karthik, 2012) và khoảng cách thời gian giữa các giao dịch được mờ hóa trong nghiên cứu (Chen and Huang, 2005) Ý tưởng chính của nghiên cứu (Chen and Huang, 2005) là mờ hóa khoảng cách thời gian rồi sau đó phát hiện các mẫu chuỗi dạng 〈 〉, trong đó a, b, c là các mục, Short, Long
là các khái niệm mờ liên tương ứng với khoảng cách thời gian; đề xuất hai thuật toán Apriori và FTI-Prefix Span cho việc phát hiện các mẫu chuỗi với khoảng cách thời gian mờ Tuy nhiên nghiên cứu (Chen and Huang, 2005) chỉ đề cập đến việc mẫu chuỗi với khoảng cách thời gian đối với CSDL chuỗi giao dịch mà các thuộc tính ở đó không phải là thuộc tính định lượng mà không áp dụng được đối với CSDL định lượng, tức là chỉ có thể phát hiện các
FTI-luật có dạng “Nếu một khách hàng mua a và mua b sau thời gian Short thì khách hàng đó sẽ mua c sau thời gian Long”
Nghiên cứu [CT2] đã đề xuất và giải quyết vấn đề phát hiện luật kết hợp với khoảng cách thời gian mờ trong CSDL giao dịch có yếu tố thời gian Luật phát hiện dạng “Nếu mặt hàng a
được mua hôm nay thì mặt hàng b sẽ được mua trong Ngắn ngày kế tiếp” Thuật toán FTITS
đã được đề xuất để phát hiện luật trong [CT2] Thuật toán FTITS dựa trên ý tưởng thuật toán FTI-Apriori (Chen and Huang, 2005) để phát hiện các chuỗi với thời gian mờ phổ biến làm cơ
sở để tìm luật đã đề xuất
Mục đích của chương này phát hiện luật dạng tổng quát đó là luật kết hợp mờ với khoảng cách thời gian mờ trong CSDL định lượng có yếu tố thời gian
2.2 Một số khái niệm cơ bản
Gọi I={ } là tập các thuộc tính, D = { }, trong đó
{ } là tập các tập mờ gắn với các thuộc tính trong I,
{ }là các tập mờ gắn với thuộc tính (k=1, , n), trong đó hk là số lượng tập mờ của thuộc tính , là tập mờ thứ j của thuộc tính (1≤ j≤ )
Trang 11DF = (T, I, FE) được gọi là CSDL mờ có yếu tố thời Mỗi tập mờ đều có hàm thành viên tương ứng : X[0,1] Như vậy, DF là CSDL mờ có yếu tố thời gian dựa trên CSDL định lượng có yếu tố thời gian D bằng cách mờ hóa các thuộc tính định lượng
: Một chuỗi giao dịch mờ P được biểu diễn dạng
Định nghĩa 2.3
〈 〉 trong đó là một thuộc tính mờ và là thời điểm xảy ra (1≤j≤n với 2≤j≤n), giá trị mờ của tại thời điểm là Trong chuỗi giao dịch mờ P, nếu các mục xảy ra cùng thời điểm thì các thuộc tính mờ sẽ được sắp xếp theo trình
tự bảng chữ cái Giá trị khoảng cách thời gian giữa hai phần tử liên tiếp trong chuỗi được xác định là (1≤j≤n-1)
(mở rộng từ (Chen and Huang, 2005)) Gọi FE là tập các tập mờ gắn với
Định nghĩa 2.4
các thuộc tính định lượng trong CSDL định lượng có yếu tố thời gian và LT={ | j=1,2, ,p}
là tập các tập mờ ứng với khoảng cách thời gian Chuỗi β =
là một chuỗi mờ với khoảng cách thời gian mờ nếu FE và LT với 1≤j≤r-1 và FE
Chuỗi β khi đó có độ dài r
(mở rộng từ (Chen and Huang, 2005)) Một chuỗi mờ với khoảng cách
Định nghĩa 2.5
thời gian mờ = là chuỗi con của chuỗi mờ với khoảng cách thời gian mờ β = khi và chỉ khi tồn tại số nguyên w thỏa mãn với i|1≤i≤k-1 và Trong trường hợp k=1 thì
(mở rộng từ (Chen and Huang, 2005)) Cho hai chuỗi mờ với khoảng cách
đó X, Y là chuỗi mờ với khoảng cách thời gian mờ,
LT Ví dụ: → là một luật kết hợp mờ với khoảng cách thời gian
mờ
Gọi P = 〈 〉 là một chuỗi giao dịch mờ và α =
là một chuỗi mờ với khoảng cách thời gian mờ, với 1≤i≤r là giá trị của tại thời điểm Khi đó, độ hỗ trợ của P đối với α được định nghĩa như sau:
{
{ }
Cho CSDL mờ có yếu tố thời gian DF với N giao dịch, ta có các định nghĩa sau:
Độ hỗ trợ của α trong DF được xác định là:
Trang 12( ) (2.4)
Một chuỗi mờ với khoảng cách thời gian mờ được gọi là phổ biến khi có độ hỗ trợ không
nhỏ hơn ngưỡng cực tiểu min_sup cho trước
Từ Định nghĩa 2.5 và Error! Reference source not found.ta thu được các tính chất sau: Tính chất 1: Chuỗi con của chuỗi mờ với khoảng cách thời gian mờ phổ biến thì cũng
phổ biến
Tính chất 2: Mọi chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k đều là kết
quả của phép kết hợp hai chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k-1
2.3 Thuật toán phát hiện luật kết hợp mờ với khoảng cách thời gian mờ
2.3.1 Bài toán đặt ra
Cho trước CSDL định lượng có yếu tố thời gian D, độ hỗ trợ cực tiểu và độ tin cậy cực
tiểu tương ứng là min_sup và min_conf, tập mờ về khoảng cách thời gian LT cùng các hàm
thành viên tương ứng, tập các tập mờ FE của các thuộc tính định lượng trong D cùng các hàm
thành viên tương ứng
Bài toán đặt ra: Phát hiện các luật kết hợp mờ với khoảng cách thời gian mờ có độ hỗ trợ
không nhỏ hơn độ hỗ trợ cực tiểu min_sup và độ tin cậy không nhỏ hơn độ tin cậy cực tiểu min_conf
2.3.2 Ý tưởng thuật toán
Đầu tiên, chuyển đổi CSDL định lượng có yếu tố thời gian D thành CSDL mờ có yếu tố thời gian DF dựa vào các tập mờ cùng các hàm thành viên gắn với thuộc tính của D Tiếp
theo, tìm tất cả các chuỗi mờ với khoảng cách thời gian mờ phổ biến Quá trình tìm các chuỗi
mờ với khoảng cách thời gian mờ phổ biến được phát triển dựa theo thuật toán Apriori: lặp lại
2 bước trong quá trình sinh chuỗi mờ với khoảng cách thời gian mờ phổ biến cho đến khi không thể sinh được Ở bước 1, các chuỗi ứng cử viên độ dài k, kí hiệu là được sinh ra từ tập các chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k-1, kí hiệu là Bước 2, các chuỗi ứng cử viên trong có độ hỗ trợ không nhỏ hơn min_sup được thêm vào tập các
chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k, Quá trình này dừng lại cho đến khi =
Tiếp theo, các luật kết hợp mờ với khoảng cách thời gian mờ được sinh ra từ các chuỗi mờ với khoảng cách thời gian mờ phổ biến có độ dài lớn hơn 1 Các luật này được tính độ tin cậy
theo công thức Error! Reference source not found Kết quả trả lại của thuật toán là tất cả
các luật có độ tin cậy thỏa mãn độ tin cậy cực tiểu min_conf
2.3.3 Thuật toán FTQ
Thuật toán FTQ được mô tả như trong Error! Reference source not found.:
Thuật toán FTQ Thuật toán 2.1.
Input: - CSDL định lượng có yếu tố thời gian D;
- Độ hỗ trợ cực tiểu và độ tin cậy cực tiểu min_sup, min_conf;
- Tập các tập mờ FE và các hàm thành viên tương ứng với các thuộc tính trong
D;
- Tập LT và các hàm thành viên tương ứng về khoảng cách thời gian
Output: Tất cả các luật kết hợp mờ với khoảng cách thời gian mờ có độ hỗ trợ không nhỏ hơn
min_sup và độ tin cậy không nhỏ hơn min_conf
FTQ{
1 Chuyển D thành CSDL mờ có yếu tố thời gian DF
Trang 132.3.4 Tính đúng đắn và tính đầy đủ của thuật toán
Định lý 2.1 Thuật toán FTQ là đúng đắn và đầy đủ
2.3.5 Trường hợp suy biến của luật kết hợp mờ với khoảng cách thời gian mờ
Định lý 2.2: Thuật toán FTQ có thể tìm được các luật
a) Thử nghiệm với CSDL ISTANBUL STOCK EXCHANGE
Hình 2.1 biểu diễn mối quan hệ giữa số lượng luật tìm được từ thuật toán FTQ và độ tin
cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ trợ cực tiểu min_sup