1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian (tt)

27 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Việc phát hiện luật kết hợp có tính đến khoảng cách thời gian mới chỉ dừng lại đối với CSDL giao dịch có yếu tố thời gian mà chưa được thực hiện đối với các CSDL định lượng có yếu tố th

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

…… ….***…………

TRƯƠNG ĐỨC PHƯƠNG

PHÁT HIỆN LUẬT KẾT HỢP VÀ LUẬT CHUỖI MỜ TRONG CƠ

SỞ DỮ LIỆU ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN

Chuyên ngành: Hệ thống thông tin

Mã số: 9 48 01 04

TÓM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH

Hà Nội – 2021

Trang 2

Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ -

Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Người hướng dẫn khoa học 1: PGS.TS Đỗ Văn Thành

Người hướng dẫn khoa học 2: PGS.TS Nguyễn Đức Dũng

Có thể tìm hiểu luận án tại:

- Thư viện Học viện Khoa học và Công nghệ

- Thư viện Quốc gia Việt Nam

Trang 3

MỞ ĐẦU

1 Tính cấp thiết của luận án và động lực nghiên cứu (Phương and Thành, 2013)

Phát hiện luật kết hợp và mẫu chuỗi, luật chuỗi nằm trong số những vấn đề quan trọng trong lĩnh vực khai phá dữ liệu Đến nay, rất nhiều công trình nghiên cứu liên quan đến các lĩnh vực này Các luật kết hợp và mẫu chuỗi, luật chuỗi được đề xuất là rất đa dạng, chúng có thể là các luật, mẫu chuỗi giao dịch/định lượng; có trọng số/không trọng số; có yếu tố thời gian/không có yếu tố thời gian;.v.v

Vấn đề phát hiện luật kết hợp trong các CSDL giao địch được đề xuất lần đầu vào năm

1993 (Agrawal, Imieliński and Swami, 1993) và đến nay đã có nhiều thuật toán được xây dựng theo rất nhiều cách tiếp cận khác nhau để phát hiện các luật này trong các CSDL giao dịch: APRIORI (Agrawal, Srikant and others, 1994), PARTITION (Savasere, Omiecinski and

Navathe, 1995), A-CLOSE (Pasquier et al., 1999a), A-CLOSE+ (Shekofteh, Rahmani and Dezfuli, 2008), CLOSE (Pasquier et al., 1999b), CLOSET (Pei et al., 2000), CLOSET+

(Wang, Han and Pei, 2003), CHARM (Zaki and Hsiao, 2002), MAFIA (Burdick, Calimlim

and Gehrke, 2001), GENMAX (Gouda and Zaki, 2005), ECLAT (Ogihara et al., 1997), DIC (Brin et al., 1997), FP-GROWTH (Han et al., 2004), CFPMINE (Qin, Luo and Shi, 2004),

ETARM (Nguyen et al., 2018), LRM (Saravanan and Sree, 2011), PARM (Sumathi and

Kirubakaran, 2012), NEGFIN (Aryabarzan, Minaei-Bidgoli and Teshnehlab, 2018)

Tuy nhiên các CSDL trong thực tế thường có các thuộc tính nhận giá trị số hoặc giá trị phân loại Những CSDL như vậy được gọi là CSDL định lượng Việc phát hiện các luật kết hợp trong CSDL định lượng thường sử dụng một trong 2 cách đó là: rời rạc hóa (Srikant and

Agrawal, 1996a; Lent, Swami and Widom, 1997; Fukuda et al., 1999; Rastogi and Shim,

2002) và mờ hóa các thuộc tính định lượng (Chan and Au, 1997; Kuok, Fu and Wong, 1998; T.-P Hong, Kuo and Chi, 1999; Hong, Kuo and Chi, 2001; Hong, Chiang and Wang, 2002; Hong, 2003) Bản chất của cách tiếp cận thứ nhất là đưa CSDL định lượng về CSDL giao dịch bằng cách chuyển các thuộc tính định lượng thành một số mục (item) tương ứng và sau đó áp dụng một trong các thuật toán phát hiện các luật kết hợp trong các CSDL giao dịch đã biết Cách tiếp cận thứ hai nhằm khắc phục nhược điểm của cách tiếp cận thứ nhất, nhưng khi đó các thuật toán phát hiện các luật kết hợp trong các CSDL cần được cải tiến và phát triển tiếp CSDL có yếu tố thời gian (temporal database) là CSDL có lưu trữ thông tin về thời điểm

xảy ra của các giao dịch (Tansel et al., 1993) (Aydin and Angryk, 2018) Năm 1998, Lu và các

cộng sự (Lu, Han and Feng, 1998) đã đề xuất luật kết hợp có tính đến độ chênh lệch về thời điểm (gọi là khoảng cách thời gian) xảy ra giữa các giao dịch trong các CSDL giao dịch có yếu tố thời gian, luật có dạng → với a, b là các tập mục dữ liệu Trong (Lu, Han and Feng, 1998), hai thuật toán E-Apriori và EH-Apriori được đề xuất để phát hiện các luật dạng này Về ý tưởng chính, hai thuật toán E-Apriori, EH-Apriori dựa trên ý tưởng thuật toán Apriori và sử dụng cửa sổ trượt đối với khoảng cách thời gian Để phát hiện các luật kết hợp

có tính đến khoảng cách thời gian trong các CSDL giao dịch có yếu tố thời gian, nhiều thuật

toán tiếp tục được đề xuất như: FITI (Tung et al., 2003), ITARM (Qin and Shi, 2006),

ITP-Miner (Lee and Wang, 2007), IAR ITP-Miner (Nandagopal, Arunachalam and Karthik, 2012),

CITP-Miner (Nguyen et al., 2019), NCITPS-MINER (Nguyen et al., 2020) Việc phát hiện

luật kết hợp có tính đến khoảng cách thời gian mới chỉ dừng lại đối với CSDL giao dịch có yếu tố thời gian mà chưa được thực hiện đối với các CSDL định lượng có yếu tố thời gian Đây là khoảng trống nghiên cứu mà luận án mong muốn giải quyết

Luật chuỗi, mẫu chuỗi như được hiểu từ trước đến nay còn được gọi là luật chuỗi, mẫu chuỗi cổ điển để phân biệt với một loại luật chuỗi, mẫu chuỗi mới được đề xuất trong những năm gần đây Các mẫu chuỗi cổ điển (được gọi ngắn gọn là mẫu chuỗi) là các chuỗi cổ điển

Trang 4

trong các CSDL chuỗi giao dịch được giới thiệu lần đầu năm 1995 (Agrawal, Srikant and others, 1995) và đến nay đã nhận được rất nhiều sự quan tâm Hiện đã có nhiều thuật toán phát hiện các mẫu chuỗi trong các CSDL chuỗi giao dịch như GSP (Srikant and Agrawal, 1996b),

SPIRIT (Garofalakis, Rastogi and Shim, 1999), SPADE (Zaki, 2001), SPAM (Ayres et al., 2002), FAST (Salvemini et al., 2011), CM-SPADE (Fournier-Viger, Gomariz, Campos, et al.,

2014), MAXSP (Fournier-Viger, Wu and Tseng, 2013), GENMINER (Lo, Khoo and Li,

2008), FREESPAN (Han et al., 2000), PREFIXSPAN (Pei et al., 2004), CLOSPAN (Yan,

Han and Afshar, 2003), MSPIC-DBV (Van, Vo and Le, 2018), HSPREC (Bhatta, Ezeife and Butt, 2019),

Các CSDL chuỗi giao dịch có yếu tố thời gian là CSDL có lưu trữ thông tin về thời điểm

xảy ra của các giao dịch Năm 2000, Yoshida và các cộng sự (Yoshida et al., 2000) đã đề xuất

mẫu chuỗi có tính đến khoảng cách thời gian trong CSDL chuỗi giao dịch có yếu tố thời gian, mẫu chuỗi này có dạng 〈 〉 với a, b, c là các tập mục, [1−4] và [5−9] là khoảng thời gian có thể xảy ra lần lượt giữa a, b và giữa b, c Để phát hiện mẫu chuỗi có tính

đến khoảng cách thời gian, thuật toán Delta-Pattern đã được đề xuất trong (Yoshida et al., 2000) Phát hiện mẫu chuỗi có tính đến khoảng cách thời gian như trong (Yoshida et al., 2000)

tiếp tục được giải quyết bởi các thuật toán I-Apriori và I-PrefixSpan (Chen, Chiang and Ko,

2003), TAS (Giannotti et al., 2006) Năm 2005, để khắc phục hiện tượng “sắc nét” tại các

điểm giáp danh của các khoảng chia đối với khoảng cách thời gian, Chen và Huang (Chen and Huang, 2005) đã đề xuất mẫu chuỗi có tính đến khoảng cách thời gian mà ở đó khoảng cách thời gian là các tập mờ, mẫu chuỗi khi đó có dạng 〈 〉 với Short, Long là các tập mờ, mỗi tập mờ có hàm thành viên tương ứng Trong (Chen and Huang, 2005), hai thuật toán FTI-Apriori và FTI-PrefixSpan được đề xuất để phát hiện các mẫu chuỗi này Mẫu chuỗi

này tiếp tục được phát hiện bởi thuật toán FP Growth- PrefixSpan (Mukhlash, Yuanda and

phát hiện các luật chuỗi chung đầu tiên là CMRules (Fournier-Viger et al., 2010) sau đó tiếp

tục được phát triển bởi Rule Growth (Fournier-Viger, Nkambou and Tseng, 2011), ERMiner

(Fournier-Viger, Gueniche, et al., 2014) Các luật chuỗi chung thực sự là có ích và đã được ứng dụng trong thực tế (Çelebi et al., 2014) Luật chuỗi chung đến nay mới chỉ được phát hiện

trong các CSDL chuỗi giao dịch mà chưa được áp dụng đối với CSDL chuỗi định lượng có yếu tố thời gian Đây là khoảng trống thứ 3 được xác định trong vấn đề nghiên cứu của luận

án

Luận án này nhằm giải quyết 3 khoảng trống được xác định ở trên Việc nghiên cứu giải quyết những vấn đề đó là thực sự cần thiết không chỉ ở phương diện phát triển lý thuyết mà cả

ở phương diện ứng dụng thực tế Đó là động lực để tác giả luận án thực hiện nghiên cứu đề tài

“Phát hiện luật kết hợp và luật chuỗi mờ trong cơ sở dữ liệu định lượng có yếu tố thời gian”

Cụ thể luận án đề xuất và giải quyết các vấn đề về phát hiện các luật kết hợp và mẫu chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các giao dịch tương ứng trong các CSDL định lượng có yếu tố thời gian và CSDL chuỗi định lượng có yếu tố thời gian Luận án thực sự có đóng góp mới về mặt lý thuyết, cung cấp các giải pháp cho những vấn

đề chưa được giải quyết trong hướng nghiên cứu về phát hiện các luật kết hợp và các mẫu chuỗi, luật chuỗi chung tương ứng trong CSDL định lượng và CSDL chuỗi định lượng cùng

có yếu tố thời gian

2 Mục tiêu, đối tƣợng và phạm vi nghiên cứu của luận án

Trang 5

2.1 Mục tiêu của luận án

 Phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian Các luật tìm được khi đó được gọi là các luật kết hợp mờ với khoảng cách thời gian mờ

 Phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian Các mẫu chuỗi tìm được khi đó được gọi

là mẫu chuỗi mờ với khoảng cách thời gian mờ

 Phát hiện các luật chuỗi chung (là luật chuỗi ở dạng tổng quát và chung hơn so với các luật chuỗi (cổ điển) như được biết từ trước đến nay) có tính đến khoảng cách thời gian xảy

ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian Các luật tìm được được gọi là các luật chuỗi chung mờ với khoảng cách thời gian mờ

2.2 Đối tượng nghiên cứu: là các thuật toán phát hiện các luật kết hợp, và các mẫu

chuỗi, luật chuỗi chung có tính đến khoảng cách thời gian trong các CSDL định lượng và CSDL chuỗi định lượng cùng có yếu tố thời gian

3 Phương pháp nghiên cứu

Luận án đã sử dụng các phương pháp nghiên cứu sau:

Phương pháp tổng hợp, phân tích: được sử dụng để tổng hợp và phân tích các nghiên cứu

về những vấn đề liên quan để phát hiện các khoảng trống nghiên cứu và xác định vấn đề nghiên cứu mà luận án cần giải quyết Phương pháp phân tích cũng thường được sử dụng khi đề xuất các khái niệm mới liên quan đến vấn đề nghiên cứu của luận án sao cho những khái niệm mới được phát triển dựa trên nhiều nhất có thể các khái niệm đã có liên quan

Phương pháp so sánh: được sử dụng để so sánh các kỹ thuật, thuật toán đã được đề xuất để

giải quyết những vấn đề nghiên cứu liên quan, từ đó hình thành ý tưởng cho thuật toán mới

cho vấn đề nghiên cứu

Phương pháp thiết kế và đánh giá độ phức tạp thuật toán: được sử dụng để thiết kế thuật

toán giải quyết bài toán cụ thể được đặt ra trong luận án và ước lượng độ phức tạp tính toán của các thuật toán này

Phương pháp thực nghiệm: Các thuật toán được đề xuất đều được thực nghiệm trên các tập

dữ liệu thực để đánh giá sự đúng đắn và tính khả thi của thuật toán

4 Các đóng góp chính của luận án

Những đóng góp chính của luận án là đề xuất và giải quyết các vấn đề sau:

 Đề xuất vấn đề và thuật toán phát hiện luật kết hợp có tính đến khoảng cách thời gian xảy

ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng cách thời gian xảy ra giữa các giao dịch được chuyển thành các thuộc tính mờ và khoảng cách thời gian mờ [CT4]

 Đề xuất vấn đề và thuật toán phát hiện mẫu chuỗi (cổ điển) có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian, ở đó các thuộc tính định lượng và khoảng cách thời gian xảy ra giữa các giao dịch cũng được chuyển thành các thuộc tính mờ và khoảng cách thời gian mờ [CT5]

 Đề xuất vấn đề và thuật toán phát hiện luật chuỗi chung có tính đến khoảng cách thời gian

Trang 6

thuộc tính định lượng và khoảng cách thời gian cũng được chuyển thành các thuộc tính mờ

và khoảng cách thời gian mờ [CT9]

5 Bố cục luận án

Luận án gồm phần mở đầu, 04 chương nội dung và phần kết luận:

 Phần mở đầu: Trình bày sự cần thiết và động lực nghiên cứu của đề tài; mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; những đóng góp chính và cấu trúc của luận án

 Chương 1: Tổng quan về luật kết hợp và mẫu chuỗi, luật chuỗi chung

 Chương 2: Phát hiện luật kết hợp có tính đến khoảng cách thời gian trong các CSDL định lượng có yếu tố thời gian

 Chương 3: Phát hiện mẫu chuỗi có tính đến khoảng cách thời gian trong các CSDL chuỗi định lượng có yếu tố thời gian

 Chương 4: Phát hiện luật chuỗi chung có tính đến khoảng cách thời gian trong các CSDL chuỗi định lượng có yếu tố thời gian

 Phần kết luận: Trình bày một số kết luận về ý nghĩa, đóng góp của luận án và định hướng nghiên cứu trong tương lai

TỔNG QUAN VỀ LUẬT KẾT HỢP VÀ MẪU CHUỖI, LUẬT CHUỖI CHUNG CHƯƠNG 1.

Chương này trình bày tổng quan những vấn đề liên quan đến phát hiện các luật kết hợp và các mẫu chuỗi, luật chuỗi chung trong các CSDL giao dịch/định lượng không có hoặc có yếu

tố thời gian Chương này cũng chỉ ra các khoảng trống chưa được giải quyết để từ đó xác định vấn đề nghiên cứu của luận án

1.1 Luật kết hợp

1.1.1 Phát hiện luật kết hợp trong các CSDL giao dịch

Định nghĩa 1.1 CSDL giao dịch (Agrawal, Srikant and others, 1994): Giả sử I =

{ } là tập các mục, D = { } là tập các giao dịch, (1jm) là tập các mục thỏa mãn  I, biểu diễn mục xuất hiện trong giao dịch (hay tương ứng nhận

giá trị 1 nếu xuất hiện trong giao dịch này), nói cách Khi đó, D được gọi là CSDL giao dịch Định nghĩa 1.2 Luật kết hợp (Agrawal, Imieliński and Swami, 1993): Giả sử X là tập mục, giao dịch T được gọi là chứa X khi và chỉ khi X T Luật kết hợp là luật có dạng X  Y

với XI, YI và X Y= Trong đó X được gọi là tiền đề, Y là hệ quả của luật

Định nghĩa 1.3 Độ hỗ trợ và độ tin cậy của luật kết hợp (Agrawal, Imieliński and Swami,

Trang 7

Việc phát hiện các luật kết hợp thường được chia làm 2 giai đoạn (Agrawal, Imieliński and Swami, 1993; Kotsiantis and Kanellopoulos, 2006):

 Giai đoạn 1: Tìm tất cả các tập phổ biến trong CSDL, ở đó các tập phổ biến là các tập có

độ hỗ trợ không nhỏ hơn độ hỗ trợ cực tiểu (hay ngưỡng hỗ trợ) cho trước;

 Giai đoạn 2: Sinh ra các luật kết hợp có độ tin cậy không nhỏ hơn độ tin cậy cực tiểu (hay ngưỡng tin cậy) cho trước từ các tập phổ biến đã tìm được ở giai đoạn 1

1.1.2 Phát hiện luật kết hợp trong các CSDL định lượng

Định nghĩa 1.4 CSDL định lượng (Chan and Au, 1997): Giả sử I = { } là tập

các thuộc tính, D = { } là tập các giao dịch, (1jm) là tập các thuộc tính thỏa mãn  I, các giá trị tương ứng với thuộc tính (1kn) trong giao dịch (1jm)

nhận giá trị là số hoặc phân loại Khi đó, D được gọi là CSDL định lượng

1.1.3 Phát hiện luật kết hợp tính đến khoảng cách thời gian xảy ra của các giao dịch trong

các CSDL có yếu tố thời gian

Định nghĩa 1.5 CSDL có yếu tố thời gian là CSDL (giao dịch hoặc định lượng) ở đó có

thuộc tính thời gian nhận giá trị là thời điểm (hay timestamp) xảy ra của mỗi giao dịch

Bảng 1.1 Một số nghiên cứu về phát hiện luật kết hợp có tính đến khoảng cách thời gian

Thuật toán Tập dữ liệu Tập phổ biến/luật Ý nghĩa

EH-Apriori (Lu, Han and Feng,

1998),

FITI (Tung et al., 2003),

ITARM (Qin and Shi, 2006),

ITP-Miner (Lee and Wang, 2007),

IAR Miner (Nandagopal,

Arunachalam and Karthik, 2012),

NCITPS-Miner (Nguyen et al.,

2020)

CSDL giao dịch có yếu

tố thời gian

Nếu mặt hàng a được

mua thì mặt hàng b

cũng sẽ được mua sau

2 ngày tiếp theo

1.2 Mẫu chuỗi

1.2.1 Phát hiện mẫu chuỗi trong các CSDL chuỗi giao dịch

Định nghĩa 1.6 CSDL chuỗi giao dịch (Agrawal, Srikant and others, 1995): Giả sử I

={ } là tập các mục Một chuỗi s =〈 〉 là danh sách có thứ tự các tập mục với  I (1km)

Một CSDL chuỗi giao dịch SD là tập các chuỗi giao dịch

SD = { }

Định nghĩa 1.7 Độ dài chuỗi (Agrawal, Srikant and others, 1995): Độ dài của chuỗi

〈 〉 là tổng số các tập mục của chuỗi Một chuỗi có độ dài k được gọi là chuỗi

k-Định nghĩa 1.8 Chuỗi con (Agrawal, Srikant and others, 1995): Chuỗi 〈 〉 được gọi là chuỗi con của chuỗi 〈 〉 khi và chỉ khi tồn tại k số nguyên sao cho    và được kí hiệu là  Nói cách khác, chuỗi là chuỗi con của chuỗi nếu có thể nhận được từ sau khi bỏ đi một số giao dịch hoặc một số mục trong các giao dịch của Khi đó ta có thể gọi là chuỗi chứa chuỗi

Định nghĩa 1.9 Độ hỗ trợ của chuỗi (Agrawal, Srikant and others, 1995): Độ hỗ trợ của

chuỗi trong CSDL chuỗi SDB, kí hiệu là sup( ), là tỷ số của số chuỗi trong SDB chứa

và tổng số chuỗi trong CSDL này Độ hỗ trợ của chuỗi được tính theo công thức:

|{ |  }|/|SDB| (1.4)

Trang 8

Chuỗi được gọi là phổ biến hay là mẫu chuỗi khi và chỉ khi độ hỗ trợ của chuỗi s không

nhỏ hơn độ hộ trợ cực tiểu min_sup cho trước, tức là sup( )  min_sup

1.2.2 Phát hiện mẫu chuỗi trong các CSDL chuỗi định lượng

Định nghĩa 1.10 CSDL chuỗi định lượng: Giả sử I = { } là tập các thuộc tính Một chuỗi định lượng s = 〈 〉 là danh sách có thứ tự các tập thuộc tính  I (1km) và các thuộc tính a nhận giá trị là số hoặc phân loại

Một CSDL chuỗi định lượng là tập các chuỗi định lượng { }

1.2.3 Phát hiện mẫu chuỗi tính đến khoảng cách thời gian xảy ra của các giao dịch trong

các CSDL chuỗi có yếu tố thời gian

Định nghĩa 1.11 CSDL chuỗi giao dịch/định lượng có yếu tố thời gian (Guyet, 2020): là

CSDL chuỗi giao dịch/định lượng ở đó có thêm thuộc tính thời gian nhận giá trị là thời điểm xảy ra của mọi giao dịch trong các chuỗi giao dịch

Giả sử I = { } là tập các mục Một chuỗi 〈 〉 , ở đây

là thời điểm xuất hiện của mục I (1  n) trong chuỗi Chuỗi giao dịch s cũng có thể được viết dưới dạng s = 〈 〉

(1≤ j≤ k) và tương ứng là thời điểm xảy ra của các giao dịch mua các mặt hàng trong

Một CSDL chuỗi có yếu tố thời gian là tập tất cả các chuỗi có yếu tố thời gian { }

Trong CSDL trên, nếu các mục trong I được xem là các thuộc tính nhận giá trị 1 hoặc 0

tương ứng với mục đó xuất hiện hay không xuất hiện thì CSDL chuỗi giao dịch có yếu tố thời gian trở thành CSDL chuỗi nhị phân có yếu tố thời gian

Nếu các thuộc tính trong I nhận các giá trị số hoặc giá trị phân loại thì nhận được một

CSDL được gọi là CSDL chuỗi định lượng có yếu tố thời gian

Bảng 1.2 Một số nghiên cứu về phát hiện mẫu chuỗi có tính đến khoảng cách thời gian

TAS (Giannotti et

al., 2006)

CSDL chuỗi giao dịch có yếu

tố thời gian

〈 〉 Nếu một khách hàng mua a và sau đó

mua b trong thời gian 3 ngày thì khách hàng đó sẽ mua c sau 5 ngày

tố thời gian

〈 〉 Nếu một khách hàng mua a và sau

đó mua b trong thời gian [0, 3 ngày]

tố thời gian

〈 〉 (khoảng cách thời gian là giá trị rõ)

Nếu một khách hàng mua a và sau đó

mua b sau thời gian I 1 thì khách hàng

đó sẽ mua c sau thời gian I 2

tố thời gian

〈 〉 (Khoảng cách thời gian là giá trị mờ)

Nếu một khách hàng mua a và mua b

sau thời gian Short thì khách hàng đó

sẽ mua c sau thời gian Long.

SPFTI (Chang,

Chueh and Lin,

2009),

CSDL chuỗi giao dịch có yếu

tố thời gian

〈 〉 (Khoảng cách thời gian là giá trị mờ)

Nếu một khách hàng mua a và mua b

sau thời gian thì khách hàng đó

sẽ mua c sau thời gian

Trang 9

ISPFTI (Chang,

Chueh and Luo,

2012)

1.3 Luật chuỗi chung

1.3.1 Khái niệm luật chuỗi chung

Định nghĩa 1.12 Luật chuỗi chung (Fournier-Viger et al., 2012): Giả sử I = { } là

tập các mục, SD là CSDL chuỗi giao dịch, một luật chuỗi chung có dạng X⟹Y, trong đó X, Y

 I thỏa mãn X  Y=, X, Y ≠  và các mục trong Y phải xuất hiện sau các mục trong X

1.3.2 Phát hiện luật chuỗi chung

Luật chuỗi chung mới được xuất hiện trong vài năm gần đây (Fournier-Viger et al., 2010)

Các thuật toán để phát hiện các luật chuỗi chung trong các CSDL chuỗi chưa nhiều Bảng 1.3 sau đây giới thiệu các thuật toán như vậy

Bảng 1.3 Một số nghiên cứu về phát hiện luật chuỗi chung

CMRules (Fournier-Viger

et al., 2010),

Rule Growth

(Fournier-Viger, Nkambou and

Tseng, 2011),

ERMiner (Fournier-Viger,

Gueniche, et al., 2014)

CSDL chuỗi giao dịch

Luật chuỗi chung:

Định nghĩa 1.13 Các lớp tương đương trái/phải (Fournier-Viger, Gueniche, et al., 2014):

Cho CSDL chuỗi giao dịch, I là tập các mục trong CSDL này Một lớp tương đương trái được

kí hiệu là được xác định là = {W ⟹ Y | Y I |Y| = i} trong đó W I và i là số

tự nhiên Tương tự, một lớp tương đương phải kí hiệu là được xác định là = {X

⟹ W | X I |X| = i} trong đó W I và i là số nguyên

Định nghĩa 1.14 Các phép hợp nhất trái/phải (Fournier-Viger, Gueniche, et al., 2014): Giả

sử là lớp tương đương trái và hai luật r = W ⟹ X và s = W ⟹ Y đều thuộc

|  | | – | Một phép hợp trái của r và s là quá trình kết hợp r, s để nhận được luật ⟹  Tương tự, gọi là lớp tương đương phải và hai luật r = ⟹ và s = ⟹ thỏa mãn r, s và |  | | – | Một phép hợp phải của r và s là quá trình kết hợp r, s để được  ⟹

Kết luận Chương 1

Chương 1 đã trình bày một cách tổng quan, tóm tắt những vấn đề liên quan đến phát hiện các luật kết hợp và mẫu chuỗi, luật chuỗi chung tương ứng trong các CSDL (giao dịch, định lượng) và CSDL chuỗi (giao dịch, định lượng) có yếu tố thời gian

Luận án sẽ tập trung nghiên cứu đề xuất và giải pháp giải quyết triệt để 3 vấn đề sau đây:

 Vấn đề 1: Phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian

 Vấn đề 2: Phát hiện các mẫu chuỗi có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian

 Vấn đề 3: Phát hiện các luật chuỗi chung có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL chuỗi định lượng có yếu tố thời gian

Ba chương nội dung tiếp theo trong luận án sẽ trình bày cụ thể giải pháp tương ứng cho 3

vấn đề nghiên cứu đó

Trang 10

PHÁT HIỆN LUẬT KẾT HỢP CÓ TÍNH ĐẾN KHOẢNG CÁCH THỜI CHƯƠNG 2.

GIAN TRONG CÁC CSDL ĐỊNH LƯỢNG CÓ YẾU TỐ THỜI GIAN

Trong chương 1, luận án đã chỉ ra khoảng trống cần được nghiên cứu về phát hiện các luật kết hợp có tính đến khoảng cách thời gian xảy ra giữa các giao dịch trong các CSDL định lượng có yếu tố thời gian Chương này, luận án sẽ trình bày giải pháp để giải quyết vấn đề nghiên cứu đó Khi đó, một dạng luật kết hợp mới được gọi là luật kết hợp mờ với khoảng cách thời gian mờ sẽ được phát hiện Kết quả nghiên cứu của Chương này đã được đăng trên tạp chí Indian Journal of Science and Technology [CT4] Chương này chủ yếu tập trung trình bày vấn đề phát hiện luật kết hợp mờ với khoảng cách thời gian mờ trong các CSDL định lượng có yếu tố thời gian

Trong quá trình nghiên cứu phát hiện luật kết hợp người ta còn quan tâm đến khoảng cách

thời gian xảy ra giữa các giao dịch (Lu, Han and Feng, 1998; Tung et al., 2003; Qin and Shi,

2006; Lee and Wang, 2007; Nandagopal, Arunachalam and Karthik, 2012) và khoảng cách thời gian giữa các giao dịch được mờ hóa trong nghiên cứu (Chen and Huang, 2005) Ý tưởng chính của nghiên cứu (Chen and Huang, 2005) là mờ hóa khoảng cách thời gian rồi sau đó phát hiện các mẫu chuỗi dạng 〈 〉, trong đó a, b, c là các mục, Short, Long

là các khái niệm mờ liên tương ứng với khoảng cách thời gian; đề xuất hai thuật toán Apriori và FTI-Prefix Span cho việc phát hiện các mẫu chuỗi với khoảng cách thời gian mờ Tuy nhiên nghiên cứu (Chen and Huang, 2005) chỉ đề cập đến việc mẫu chuỗi với khoảng cách thời gian đối với CSDL chuỗi giao dịch mà các thuộc tính ở đó không phải là thuộc tính định lượng mà không áp dụng được đối với CSDL định lượng, tức là chỉ có thể phát hiện các

FTI-luật có dạng “Nếu một khách hàng mua a và mua b sau thời gian Short thì khách hàng đó sẽ mua c sau thời gian Long”

Nghiên cứu [CT2] đã đề xuất và giải quyết vấn đề phát hiện luật kết hợp với khoảng cách thời gian mờ trong CSDL giao dịch có yếu tố thời gian Luật phát hiện dạng “Nếu mặt hàng a

được mua hôm nay thì mặt hàng b sẽ được mua trong Ngắn ngày kế tiếp” Thuật toán FTITS

đã được đề xuất để phát hiện luật trong [CT2] Thuật toán FTITS dựa trên ý tưởng thuật toán FTI-Apriori (Chen and Huang, 2005) để phát hiện các chuỗi với thời gian mờ phổ biến làm cơ

sở để tìm luật đã đề xuất

Mục đích của chương này phát hiện luật dạng tổng quát đó là luật kết hợp mờ với khoảng cách thời gian mờ trong CSDL định lượng có yếu tố thời gian

2.2 Một số khái niệm cơ bản

Gọi I={ } là tập các thuộc tính, D = { }, trong đó

{ } là tập các tập mờ gắn với các thuộc tính trong I,

{ }là các tập mờ gắn với thuộc tính (k=1, , n), trong đó hk là số lượng tập mờ của thuộc tính , là tập mờ thứ j của thuộc tính (1≤ j≤ )

Trang 11

DF = (T, I, FE) được gọi là CSDL mờ có yếu tố thời Mỗi tập mờ đều có hàm thành viên tương ứng : X[0,1] Như vậy, DF là CSDL mờ có yếu tố thời gian dựa trên CSDL định lượng có yếu tố thời gian D bằng cách mờ hóa các thuộc tính định lượng

: Một chuỗi giao dịch mờ P được biểu diễn dạng

Định nghĩa 2.3

〈 〉 trong đó là một thuộc tính mờ và là thời điểm xảy ra (1≤j≤n với 2≤j≤n), giá trị mờ của tại thời điểm là Trong chuỗi giao dịch mờ P, nếu các mục xảy ra cùng thời điểm thì các thuộc tính mờ sẽ được sắp xếp theo trình

tự bảng chữ cái Giá trị khoảng cách thời gian giữa hai phần tử liên tiếp trong chuỗi được xác định là (1≤j≤n-1)

(mở rộng từ (Chen and Huang, 2005)) Gọi FE là tập các tập mờ gắn với

Định nghĩa 2.4

các thuộc tính định lượng trong CSDL định lượng có yếu tố thời gian và LT={ | j=1,2, ,p}

là tập các tập mờ ứng với khoảng cách thời gian Chuỗi β =

là một chuỗi mờ với khoảng cách thời gian mờ nếu FE và LT với 1≤j≤r-1 và FE

Chuỗi β khi đó có độ dài r

(mở rộng từ (Chen and Huang, 2005)) Một chuỗi mờ với khoảng cách

Định nghĩa 2.5

thời gian mờ  = là chuỗi con của chuỗi mờ với khoảng cách thời gian mờ β = khi và chỉ khi tồn tại số nguyên w thỏa mãn với i|1≤i≤k-1 và Trong trường hợp k=1 thì

(mở rộng từ (Chen and Huang, 2005)) Cho hai chuỗi mờ với khoảng cách

đó X, Y là chuỗi mờ với khoảng cách thời gian mờ,

LT Ví dụ: → là một luật kết hợp mờ với khoảng cách thời gian

mờ

Gọi P = 〈 〉 là một chuỗi giao dịch mờ và α =

là một chuỗi mờ với khoảng cách thời gian mờ, với 1≤i≤r là giá trị của tại thời điểm Khi đó, độ hỗ trợ của P đối với α được định nghĩa như sau:

{

{ }

Cho CSDL mờ có yếu tố thời gian DF với N giao dịch, ta có các định nghĩa sau:

Độ hỗ trợ của α trong DF được xác định là:

Trang 12

( ) (2.4)

Một chuỗi mờ với khoảng cách thời gian mờ được gọi là phổ biến khi có độ hỗ trợ không

nhỏ hơn ngưỡng cực tiểu min_sup cho trước

Từ Định nghĩa 2.5 và Error! Reference source not found.ta thu được các tính chất sau: Tính chất 1: Chuỗi con của chuỗi mờ với khoảng cách thời gian mờ phổ biến thì cũng

phổ biến

Tính chất 2: Mọi chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k đều là kết

quả của phép kết hợp hai chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k-1

2.3 Thuật toán phát hiện luật kết hợp mờ với khoảng cách thời gian mờ

2.3.1 Bài toán đặt ra

Cho trước CSDL định lượng có yếu tố thời gian D, độ hỗ trợ cực tiểu và độ tin cậy cực

tiểu tương ứng là min_sup và min_conf, tập mờ về khoảng cách thời gian LT cùng các hàm

thành viên tương ứng, tập các tập mờ FE của các thuộc tính định lượng trong D cùng các hàm

thành viên tương ứng

Bài toán đặt ra: Phát hiện các luật kết hợp mờ với khoảng cách thời gian mờ có độ hỗ trợ

không nhỏ hơn độ hỗ trợ cực tiểu min_sup và độ tin cậy không nhỏ hơn độ tin cậy cực tiểu min_conf

2.3.2 Ý tưởng thuật toán

Đầu tiên, chuyển đổi CSDL định lượng có yếu tố thời gian D thành CSDL mờ có yếu tố thời gian DF dựa vào các tập mờ cùng các hàm thành viên gắn với thuộc tính của D Tiếp

theo, tìm tất cả các chuỗi mờ với khoảng cách thời gian mờ phổ biến Quá trình tìm các chuỗi

mờ với khoảng cách thời gian mờ phổ biến được phát triển dựa theo thuật toán Apriori: lặp lại

2 bước trong quá trình sinh chuỗi mờ với khoảng cách thời gian mờ phổ biến cho đến khi không thể sinh được Ở bước 1, các chuỗi ứng cử viên độ dài k, kí hiệu là được sinh ra từ tập các chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k-1, kí hiệu là Bước 2, các chuỗi ứng cử viên trong có độ hỗ trợ không nhỏ hơn min_sup được thêm vào tập các

chuỗi mờ với khoảng cách thời gian mờ phổ biến độ dài k, Quá trình này dừng lại cho đến khi =

Tiếp theo, các luật kết hợp mờ với khoảng cách thời gian mờ được sinh ra từ các chuỗi mờ với khoảng cách thời gian mờ phổ biến có độ dài lớn hơn 1 Các luật này được tính độ tin cậy

theo công thức Error! Reference source not found Kết quả trả lại của thuật toán là tất cả

các luật có độ tin cậy thỏa mãn độ tin cậy cực tiểu min_conf

2.3.3 Thuật toán FTQ

Thuật toán FTQ được mô tả như trong Error! Reference source not found.:

Thuật toán FTQ Thuật toán 2.1.

Input: - CSDL định lượng có yếu tố thời gian D;

- Độ hỗ trợ cực tiểu và độ tin cậy cực tiểu min_sup, min_conf;

- Tập các tập mờ FE và các hàm thành viên tương ứng với các thuộc tính trong

D;

- Tập LT và các hàm thành viên tương ứng về khoảng cách thời gian

Output: Tất cả các luật kết hợp mờ với khoảng cách thời gian mờ có độ hỗ trợ không nhỏ hơn

min_sup và độ tin cậy không nhỏ hơn min_conf

FTQ{

1 Chuyển D thành CSDL mờ có yếu tố thời gian DF

Trang 13

2.3.4 Tính đúng đắn và tính đầy đủ của thuật toán

Định lý 2.1 Thuật toán FTQ là đúng đắn và đầy đủ

2.3.5 Trường hợp suy biến của luật kết hợp mờ với khoảng cách thời gian mờ

Định lý 2.2: Thuật toán FTQ có thể tìm được các luật

a) Thử nghiệm với CSDL ISTANBUL STOCK EXCHANGE

Hình 2.1 biểu diễn mối quan hệ giữa số lượng luật tìm được từ thuật toán FTQ và độ tin

cậy cực tiểu min_conf trong các trường hợp khác nhau về độ hỗ trợ cực tiểu min_sup

Ngày đăng: 18/06/2021, 10:14

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w