ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LUẬN VĂN THẠC SỸ PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU MỜ TỪ CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG Học viên: Nguyễn Thị Thanh Huyền Người hướng dẫn k
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LUẬN VĂN THẠC SỸ
PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU
MỜ TỪ CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG
Học viên: Nguyễn Thị Thanh Huyền Người hướng dẫn khoa học: Ts Đỗ Văn Thành
4/2006
Trang 2MỤC LỤC
Bảng từ viết tắt 3
Danh mục bảng biểu 4
Danh mục hình vẽ 6
MỞ ĐẦU 7
Chương 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU 10
1.1 Tại sao phải xây dựng kho dữ liệu? 10
1.2 Khái niệm kho dữ liệu – Data Warehouse 11
1.3 Mục đích của kho dữ liệu 13
1.4 Đặc điểm của kho dữ liệu 14
1.5 Mô hình của Kho dữ liệu (DW) 18
1.5.1 Các khái niệm cơ bản 18
1.5.2.Mô hình dữ liệu nhiều chiều 20
1.5.3 Sơ đồ cơ sở dữ liệu nhiều chiều 22
1.6 Kho dữ liệu chủ đề 25
1.7 Phân bậc khái niệm 27
Kết luận 29
Chương 2 PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU 30
2.1 Mô hình hình thức của phát hiện luật kết hợp 30
2.2 Phát hiện luật kết hợp nhiều chiều 33
2.2.1 Các khái niệm cơ bản 33
2.2.2 Biểu thức luật mẫu 42
2.3 Các thuật toán phát hiện luật kết hợp nhiều chiều 50
2.3.1 Chuyển đổi mẫu 50
2.3.2 Giai đoạn tìm tập các ứng cử viên 54
Trang 32.3.3 Giai đoạn tìm tập mục dữ liệu chuẩn phổ biến 63
Kết luận 73
Chương 3 PHÁT HIỆN LUẬT KẾT NHIỀU CHIỀU MỜ 74
3.1 Giới thiệu 74
3.2 Phân loại CSDL nhiều chiều 78
3.3 Phát hiện luật kết hợp từ CSDL nhiều chiều loại 2 81
3.3.1 Các khái niệm cơ bản 81
3.3.2 Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 2 86
3.4 Phát hiện luật kết hợp từ CSDL tác vụ nhiều chiều loại 3 90
3.4.1 Chuyển CSDL nhiều chiều loại 3 về CSDL nhiều chiều mới 90
3.4.2 Các khái niệm cơ bản 95
3.4.3 Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 3 97
Kết luận 97
KẾT LUẬN 100
TÀI LIỆU THAM KHẢO 102
Trang 4Bảng từ viết tắt
Từ hoặc cụm từ Viết
tắt Tiếng anh
Xử lý phân tích trực tuyến OLAP OnLine Analystical Processing
Xử lý giao dịch trực tuyến OLTP Online Transaction Processing
Hệ thống ứng dụng tác nghiệp OAS Operational Application System
Trang 5Danh mục bảng biểu
Bảng 1: Dữ liệu bán hàng của Công ty Điện tử theo 2 chiều thoi_gian và mat_hang của chi nhánh bán hàng thuộc thành phố Hà nội Các tiêu chuẩn
đánh giá là tong_so_ban (đơn vị triệu VNĐ) 20
Bảng 2: Dữ liệu bán hàng của Công ty Điện tử được nhìn theo 3 chiều (3-D) chiều thoi_gian, mat_hang và vi_tri Tiêu chuẩn đánh giá là Tong_so_ban (đơn vị triệu VNĐ) 21
Bảng 3: CSDL tác vụ tại một cửa hàng 31
Bảng 4: Cơ sở dữ liệu tác vụ và được biểu diển dưới dạng bảng 31
Bảng 5:CSDL tác vụ tại một siêu thị 34
Bảng 6:CSDL tác vụ mở rộng tại một siêu thị sau khi chuyển đổi 36
Bảng 7: Tập ứng viên được đếm trong kế hoạch phát hiện phân biệt 56
Bảng 8: Ví dụ kết nối giữa U và V 58
Bảng 9: Các tập ứng viên được đếm trong kế hoạch phát hiện kết nối 59
Bảng 10: Thủ tục lập kế hoạch kết nối 61
Bảng 11: Thủ tục phát hiện phân biệt 64
Bảng 12: CSDL của 1 công ty máy tính 67
Bảng 13: Kế hoạch phát hiện phân biệt và kết hợp cho mẫu: ) ( ) ( ), ( 1 2 0 ∗ ∆ ∗ →∆ ∗ ∆ 67
Bảng 14: Thuật toán phát hiện kết hợp 70
Bảng 15: sử dụng phương pháp rời rạc thuộc tính định lượng có số giá trị nhỏ 74
Bảng 16: sử dụng phương pháp rời rạc thuộc tính định lượng có giá trị số 75 Bảng 17: CSDL định lượng 77
Bảng 18: CSDL mờ 78
Trang 6Bảng 19: CSDL nhiều chiều loại 2 79
Bảng 20: CSDL nhiều chiều loại 3 80
Bảng 21: CSDL nhiều chiều loại 4 80
Bảng 22: CSDL nhiều chiều mờ loại 2 83
Bảng 23:CSDL nhiều chiều mờ loại 2 mở rộng 84
Bảng 24:Bảng kí hiệu sử dụng trong thuật toán phát hiện luật kết hợp nhiều chiều mờ 86
Bảng 25: tập mục dữ liệu mờ mở rộng phổ biến có độ dài bằng 1 88
Bảng 26: tập mục dữ liệu mở rộng mờ phổ biến có độ dài là 2 89
Bảng 27: CSDL tác vụ nhiều chiều mờ loại 3 94
Trang 7Danh mục hình vẽ
Hình 1: Luồng dữ liệu trong một tổ chức 12
Hình 2: Tích hợp dữ liệu 15
Hình 3: Tích hợp dữ liệu 15
Hình 4: Tính thời gian của dữ liệu 17
Hình 5: Khối dữ liệu 3-D thể hiện cho dữ liệu của bảng 2 21
Hình 6: Sơ đồ hình sao của DW bán hàng của Công ty Điện tử 23
Hình 7: Sơ đồ hình bông tuyết của DW bán hàng của Công ty Điện tử 24
Hình 8: Sơ đồ hình chòm sao sự kiện của DW bán hàng của Công ty Điện tử 25
Hình 9: Phân bậc khái niệm đối với chiều vi_tri 27
Hình 10: Cấu trúc dàn của các thuộc tính đối với chiều vi_tri trong DW Bán hàng 28
Hình 11: Đồ thị của CSDL trong bảng 34
Hình 12: Đồ thị hàm thành viên của các tập mờ: “Đường_tăng_thấp”, “Đường_tăng_TB”, “Đường_tăng_cao” 82
Hình 13: Đồ thị hàm thành viên của các tập mờ: “Sữa_tăng_thấp”, “Sữa_tăng_TB”, “Sữa_tăng_cao” 83
Hình 14: Khung lưới dựa trên việc phân hoạch 3 thuộc tính chiều 90
Hình 15: Ví dụ về các phân hoạch mờ 91
Hình 16: Định nghĩa các hàm thành viên cho các khoảng mờ 93
Trang 8MỞ ĐẦU
Vấn đề phát hiện luật kết hợp được quan tâm phát triển mạnh, hiện đã trở thành một trong những khuynh hướng nghiên cứu và ứng dụng quan trọng của khai phá dữ liệu (data mining) Việc phát hiện luật kết hợp nhằm tìm ra các mối quan hệ giữa các thuộc tính dữ liệu trong cơ sở dữ liệu Phát hiện luật kết hợp đã được ứng dụng hiệu quả trong nhiều ngành kinh tế, khoa học, xã hội như Thương mại, Tài chính, Ngân hàng, Y tế, Giáo dục, nghiên cứu môi trường,
Để phát hiện luật kết hợp từ các cơ sở dữ liệu (CSDL), trước hết người
ta xây dựng các phương pháp nhằm phát hiện luật kết hợp từ các CSDL nhị phân và sau đó phát triển thành phương pháp phát hiện luật kết hợp từ CSDL định lượng bằng cách sử dụng kỹ thuật chia khoảng giá trị các thuộc tính trong CSDL định lượng và đưa nó về CSDL nhị phân rồi ứng dụng thuật toán phát hiện luật kết hợp từ CSDL nhị phân đã biết hoặc là sử dụng lý thuyết tập
mờ để chuyển CSDL định lượng thành CSDL mờ và cải tiến phát triển thuật toán phát hiện luật kết hợp nhị phân cho phù hợp Cách tiếp cận sau cùng đang được quan tâm nhiều vì nó khắc phục được nhược điểm “thiếu tự nhiên”
và “quá cồng kềnh” của cách tiếp cận chia khoảng giá trị thuộc tính trong CSDL định lượng Luật kết hợp được phát hiện khi đó được gọi là luật kết hợp mờ
Tương tự như vậy để phát hiện luật kết hợp từ CSDL nhiều chiều (hay Kho dữ liệu – Dataware house) trước hết người ta cũng xây dựng các phương pháp nhằm phát hiện luật kết hợp từ các cơ sở dữ liệu nhiều chiều nhị phân và
nó được gọi là luật kết hợp nhiều chiều Đến nay vấn đề phát hiện luật kết hợp nhiều chiều cơ bản đã được giải quyết, trong khi các kết quả nghiên cứu đề
Trang 9xuất phương pháp phát hiện luật kết hợp từ cơ sở dữ liệu nhiều chiều định lượng còn rất hạn chế
Luận văn này liên quan đến những vấn đề phát hiện luật kết hợp từ CSDL nhiều chiều định lượng theo cách tiếp cận đang được quan tâm sử dụng nhằm phát hiện luật kết hợp mờ từ cơ sở dữ liệu định lượng
Cụ thể mục đích của luận văn này là:
Về mặt lý thuyết: luận văn trình bày một cách tổng quan một số vấn đề
về kho dữ liệu, phát hiện luật kết hợp từ CSDL nhị phân, phát hiện luật kết hợp nhiều chiều từ CSDL định lượng và đề xuất kỹ thuật phát hiện luật kết hợp nhiều chiều mờ từ các CSDL nhiều chiều định lượng bằng cách mờ hoá chiều của CSDL
Về mặt ứng dụng: Cung cấp một cách hệ thống một số khái niệm và kỹ
thuật để phát hiện luật kết hợp từ CSDL nhiều chiều và nhiều chiều định lượng Kỹ thuật được đề xuất trong luận văn sẽ góp phần để xây dựng chương trình ứng dụng nhằm phát hiện luật kết hợp nhiều chiều mờ từ CSDL định lượng
Luận văn bao gồm phần mở đầu, 3 chương nội dung và phần kết luận
Chương 1 - Tổng quan về cơ sở dữ liệu nhiều chiều: Chương này bao
gồm các trang từ 10 đến 29, trình bày các kiến thức cơ bản về kho dữ liệu:
khái niệm, mục đích của việc xây dựng kho dữ liệu, đặc điểm, các loại kho dữ liệu, mô hình trong kho dữ liệu, phân bậc khái niệm của chiều trong CSDL nhiều chiều Mục đích của chương là cung cấp các kiến thức cơ bản về kho dữ liệu (hay CSDL nhiều chiều) để làm cơ sở cho các chương tiếp theo
Chương 2 - Tổng quan về luật kết hợp tác vụ nhiều chiều: Từ trang 30 đến trang 73, sẽ trình bày các phương pháp phát hiện luật kết hợp nhiều chiều
Trang 10từ CSDL tác vụ nhiều chiều nhị phân Chương này giới thiệu thuật toán phát hiện luật kết hợp tác vụ nhiều chiều: phân biệt và kết hợp
Chương 3 - Phát hiện luật kết hợp nhiều chiều mờ từ CSDL định lượng Chương này gồm các trang từ trang 74 đến trang 99, trình bày phương pháp phát hiện luật kết hợp nhiều chiều mờ Trong chương này sẽ trình bày các khái niệm: CSDL tác vụ nhiều chiều mờ, mục dữ liệu mờ mở rộng, cách tính
độ hỗ trợ cho các tập mục dữ liệu mờ mở rộng,… và đề xuất thuật toán phát hiện luật kết hợp tác vụ nhiều chiều mờ và thuật toán phát hiện luật kết hợp nhiều chiều mờ thu gọn
Phần kết luận: nêu lên những kết quả chủ yếu của luận văn và những hạn chế trong việc giải quyết đề tài luận văn cùng với hướng phát triển tiếp theo
Tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy Đỗ Văn Thành - Trung tâm Thông Tin và Dự báo KT-XH Quốc Gia đã tận tình hướng dẫn và giúp đỡ tôi hoàn thành bản luận văn
Tôi cũng xin cảm ơn các thầy cô khoa Công nghệ Thông tin, Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội đã giúp tôi hoàn thành khoá học
Trang 11TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Đỗ Văn Thành (2005), Phát hiện luật kết hợp mờ từ CSDL định lượng có
độ hỗ trợ cực tiểu không giống nhau, nhận đăng trong “Tạp chí tin học” [2] Đỗ Văn Thành (2004), Phát hiện luật kết hợp với độ hỗ trợ không giống nhau, Tạp chí Khoa học và Công nghệ, N1
[3] Đoàn Văn Ban (1997), Phương pháp thiết kế và khai thác kho dữ liệu,
báo cáo đề tài TT96/97-04, Viện Công Nghệ Thông Tin
[4] Tài liệu về “Data Warehouse” của Viện Công Nghệ Thông Tin, 1997
Tiếng Anh
[5] Agrawal,R T.Imielinski, and A.Swami, “Mining association rules between
sets of items in large databases” Proceedings of the ACM SIGMOD Int’l Conference on Management of Data, page 207-216, may 1993
[6] Agrawal R, Srikant R, “Fast algorithm for mining association rules in large databases” In:Bocca JB, Jarke M, Zaniolo C, editors Proc 20th VLDB Conf San Francisco, CA: MorganKaufmann; 1994 pp 487– 499.
[7] Attila Gyenesei, Jukka Teuhola, “Multidimensional Fuzzy Partitioning of Attribute Ranges for Mining Quantitative Data” INTERNATIONAL JOURNAL
OF INTELLIGENT SYSTEMS, VOL 19, 1111–1126 (2004)
[8] Attila Gyenesei, “A Fuzzy Aproach for Mining Quantitative Association Rules” Turku Centre for Computer Sciences, TUCS Technical Report, No
336, 2000
[9] Baralis E, Psaila G (1997), “Designing templates for mining association rules” J Intell Inf Syst 9 (1):7–32
[10] Chun Hing Cai, “Mining Association Rules with Weighted Items”,
Thesis, Chinese University of HongKong, 8/1998
Trang 12[11] Fayyad U.M, Platstsky-Shapiro G, Smyth P., and Uthurusamy,” From
Data Mining to Knowledge Discovery” Advances in Knowledge discovery and DataMining, , edited by the same authors, AAAI Press/The MIT
Press,1996, pp 1-34
[12] Fukuda T, Morimoto Y, Morishita S, Tokuyama T (1996), “Data mining using two-dimensional optimized association rules: schema, algorithms, and visualization”, In: Proc.ACMSIGMOD International Conference on
Management of Data, pp 13–23,Montreal, Canada
[13] Han J., Kamber M, “Data mining: Concepts and Techniques”, Morgan Kaufman Publishers, 2001, 550 pages
[14] Ke Wang, Yu He, Jiwei Han, “Mining Frequent Itemset Using Support
Constraints” Proceedings of the 26 th VLDB Conference,Cairo,Egypt, 2000
[15] Ke Wang, Yu He, Jiwei Han, “Pushing support constraints into frequent
itemset mining” School of Computing, National Univer Of Singapore, 2000
[16] Kuok CM, Fu A, Wong MH, “Fuzzy association rules in databases”, ACM SIGMOD Rec1998;27:41– 46
[17] Kuod M, Ada P, “Mining Fuzzy Association Rules”, In SIGMOD Record, 27(1), 1998
[18] Ling Feng, Jeffrey Xu Yu, Hongjun Lu, Jiawei Han, “A template model for multidimensional inter-transactional association rules”,2002
[19] Miller RJ,YangY(1997), “Association rules over interval data”, In: Proc.ACMSIGMOD International Conference on Management of Data, pp 452–461, Tucson, Ariz., USA
[20] Srikant R, Agrawal R,”Mining quantitative association rules in large relation tables” In:Widom J, editor Proc ACM SIGMOD New York: ACM Press; 1996 pp 1–12
[21] Zadeh LA, “Fuzzy sets”, Inform Control 1965;8:338–353