1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện luật kết hợp nhiều chiều mờ từ cơ sở dữ liệu định lượng

12 265 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 275,64 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LUẬN VĂN THẠC SỸ PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU MỜ TỪ CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG Học viên: Nguyễn Thị Thanh Huyền Người hướng dẫn k

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LUẬN VĂN THẠC SỸ

PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU

MỜ TỪ CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG

Học viên: Nguyễn Thị Thanh Huyền Người hướng dẫn khoa học: Ts Đỗ Văn Thành

4/2006

Trang 2

MỤC LỤC

Bảng từ viết tắt 3

Danh mục bảng biểu 4

Danh mục hình vẽ 6

MỞ ĐẦU 7

Chương 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU 10

1.1 Tại sao phải xây dựng kho dữ liệu? 10

1.2 Khái niệm kho dữ liệu – Data Warehouse 11

1.3 Mục đích của kho dữ liệu 13

1.4 Đặc điểm của kho dữ liệu 14

1.5 Mô hình của Kho dữ liệu (DW) 18

1.5.1 Các khái niệm cơ bản 18

1.5.2.Mô hình dữ liệu nhiều chiều 20

1.5.3 Sơ đồ cơ sở dữ liệu nhiều chiều 22

1.6 Kho dữ liệu chủ đề 25

1.7 Phân bậc khái niệm 27

Kết luận 29

Chương 2 PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU 30

2.1 Mô hình hình thức của phát hiện luật kết hợp 30

2.2 Phát hiện luật kết hợp nhiều chiều 33

2.2.1 Các khái niệm cơ bản 33

2.2.2 Biểu thức luật mẫu 42

2.3 Các thuật toán phát hiện luật kết hợp nhiều chiều 50

2.3.1 Chuyển đổi mẫu 50

2.3.2 Giai đoạn tìm tập các ứng cử viên 54

Trang 3

2.3.3 Giai đoạn tìm tập mục dữ liệu chuẩn phổ biến 63

Kết luận 73

Chương 3 PHÁT HIỆN LUẬT KẾT NHIỀU CHIỀU MỜ 74

3.1 Giới thiệu 74

3.2 Phân loại CSDL nhiều chiều 78

3.3 Phát hiện luật kết hợp từ CSDL nhiều chiều loại 2 81

3.3.1 Các khái niệm cơ bản 81

3.3.2 Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 2 86

3.4 Phát hiện luật kết hợp từ CSDL tác vụ nhiều chiều loại 3 90

3.4.1 Chuyển CSDL nhiều chiều loại 3 về CSDL nhiều chiều mới 90

3.4.2 Các khái niệm cơ bản 95

3.4.3 Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 3 97

Kết luận 97

KẾT LUẬN 100

TÀI LIỆU THAM KHẢO 102

Trang 4

Bảng từ viết tắt

Từ hoặc cụm từ Viết

tắt Tiếng anh

Xử lý phân tích trực tuyến OLAP OnLine Analystical Processing

Xử lý giao dịch trực tuyến OLTP Online Transaction Processing

Hệ thống ứng dụng tác nghiệp OAS Operational Application System

Trang 5

Danh mục bảng biểu

Bảng 1: Dữ liệu bán hàng của Công ty Điện tử theo 2 chiều thoi_gian và mat_hang của chi nhánh bán hàng thuộc thành phố Hà nội Các tiêu chuẩn

đánh giá là tong_so_ban (đơn vị triệu VNĐ) 20

Bảng 2: Dữ liệu bán hàng của Công ty Điện tử được nhìn theo 3 chiều (3-D) chiều thoi_gian, mat_hang và vi_tri Tiêu chuẩn đánh giá là Tong_so_ban (đơn vị triệu VNĐ) 21

Bảng 3: CSDL tác vụ tại một cửa hàng 31

Bảng 4: Cơ sở dữ liệu tác vụ và được biểu diển dưới dạng bảng 31

Bảng 5:CSDL tác vụ tại một siêu thị 34

Bảng 6:CSDL tác vụ mở rộng tại một siêu thị sau khi chuyển đổi 36

Bảng 7: Tập ứng viên được đếm trong kế hoạch phát hiện phân biệt 56

Bảng 8: Ví dụ kết nối giữa U và V 58

Bảng 9: Các tập ứng viên được đếm trong kế hoạch phát hiện kết nối 59

Bảng 10: Thủ tục lập kế hoạch kết nối 61

Bảng 11: Thủ tục phát hiện phân biệt 64

Bảng 12: CSDL của 1 công ty máy tính 67

Bảng 13: Kế hoạch phát hiện phân biệt và kết hợp cho mẫu: ) ( ) ( ), ( 1 2 0 ∗ ∆ ∗ →∆ ∗ ∆ 67

Bảng 14: Thuật toán phát hiện kết hợp 70

Bảng 15: sử dụng phương pháp rời rạc thuộc tính định lượng có số giá trị nhỏ 74

Bảng 16: sử dụng phương pháp rời rạc thuộc tính định lượng có giá trị số 75 Bảng 17: CSDL định lượng 77

Bảng 18: CSDL mờ 78

Trang 6

Bảng 19: CSDL nhiều chiều loại 2 79

Bảng 20: CSDL nhiều chiều loại 3 80

Bảng 21: CSDL nhiều chiều loại 4 80

Bảng 22: CSDL nhiều chiều mờ loại 2 83

Bảng 23:CSDL nhiều chiều mờ loại 2 mở rộng 84

Bảng 24:Bảng kí hiệu sử dụng trong thuật toán phát hiện luật kết hợp nhiều chiều mờ 86

Bảng 25: tập mục dữ liệu mờ mở rộng phổ biến có độ dài bằng 1 88

Bảng 26: tập mục dữ liệu mở rộng mờ phổ biến có độ dài là 2 89

Bảng 27: CSDL tác vụ nhiều chiều mờ loại 3 94

Trang 7

Danh mục hình vẽ

Hình 1: Luồng dữ liệu trong một tổ chức 12

Hình 2: Tích hợp dữ liệu 15

Hình 3: Tích hợp dữ liệu 15

Hình 4: Tính thời gian của dữ liệu 17

Hình 5: Khối dữ liệu 3-D thể hiện cho dữ liệu của bảng 2 21

Hình 6: Sơ đồ hình sao của DW bán hàng của Công ty Điện tử 23

Hình 7: Sơ đồ hình bông tuyết của DW bán hàng của Công ty Điện tử 24

Hình 8: Sơ đồ hình chòm sao sự kiện của DW bán hàng của Công ty Điện tử 25

Hình 9: Phân bậc khái niệm đối với chiều vi_tri 27

Hình 10: Cấu trúc dàn của các thuộc tính đối với chiều vi_tri trong DW Bán hàng 28

Hình 11: Đồ thị của CSDL trong bảng 34

Hình 12: Đồ thị hàm thành viên của các tập mờ: “Đường_tăng_thấp”, “Đường_tăng_TB”, “Đường_tăng_cao” 82

Hình 13: Đồ thị hàm thành viên của các tập mờ: “Sữa_tăng_thấp”, “Sữa_tăng_TB”, “Sữa_tăng_cao” 83

Hình 14: Khung lưới dựa trên việc phân hoạch 3 thuộc tính chiều 90

Hình 15: Ví dụ về các phân hoạch mờ 91

Hình 16: Định nghĩa các hàm thành viên cho các khoảng mờ 93

Trang 8

MỞ ĐẦU

Vấn đề phát hiện luật kết hợp được quan tâm phát triển mạnh, hiện đã trở thành một trong những khuynh hướng nghiên cứu và ứng dụng quan trọng của khai phá dữ liệu (data mining) Việc phát hiện luật kết hợp nhằm tìm ra các mối quan hệ giữa các thuộc tính dữ liệu trong cơ sở dữ liệu Phát hiện luật kết hợp đã được ứng dụng hiệu quả trong nhiều ngành kinh tế, khoa học, xã hội như Thương mại, Tài chính, Ngân hàng, Y tế, Giáo dục, nghiên cứu môi trường,

Để phát hiện luật kết hợp từ các cơ sở dữ liệu (CSDL), trước hết người

ta xây dựng các phương pháp nhằm phát hiện luật kết hợp từ các CSDL nhị phân và sau đó phát triển thành phương pháp phát hiện luật kết hợp từ CSDL định lượng bằng cách sử dụng kỹ thuật chia khoảng giá trị các thuộc tính trong CSDL định lượng và đưa nó về CSDL nhị phân rồi ứng dụng thuật toán phát hiện luật kết hợp từ CSDL nhị phân đã biết hoặc là sử dụng lý thuyết tập

mờ để chuyển CSDL định lượng thành CSDL mờ và cải tiến phát triển thuật toán phát hiện luật kết hợp nhị phân cho phù hợp Cách tiếp cận sau cùng đang được quan tâm nhiều vì nó khắc phục được nhược điểm “thiếu tự nhiên”

và “quá cồng kềnh” của cách tiếp cận chia khoảng giá trị thuộc tính trong CSDL định lượng Luật kết hợp được phát hiện khi đó được gọi là luật kết hợp mờ

Tương tự như vậy để phát hiện luật kết hợp từ CSDL nhiều chiều (hay Kho dữ liệu – Dataware house) trước hết người ta cũng xây dựng các phương pháp nhằm phát hiện luật kết hợp từ các cơ sở dữ liệu nhiều chiều nhị phân và

nó được gọi là luật kết hợp nhiều chiều Đến nay vấn đề phát hiện luật kết hợp nhiều chiều cơ bản đã được giải quyết, trong khi các kết quả nghiên cứu đề

Trang 9

xuất phương pháp phát hiện luật kết hợp từ cơ sở dữ liệu nhiều chiều định lượng còn rất hạn chế

Luận văn này liên quan đến những vấn đề phát hiện luật kết hợp từ CSDL nhiều chiều định lượng theo cách tiếp cận đang được quan tâm sử dụng nhằm phát hiện luật kết hợp mờ từ cơ sở dữ liệu định lượng

Cụ thể mục đích của luận văn này là:

Về mặt lý thuyết: luận văn trình bày một cách tổng quan một số vấn đề

về kho dữ liệu, phát hiện luật kết hợp từ CSDL nhị phân, phát hiện luật kết hợp nhiều chiều từ CSDL định lượng và đề xuất kỹ thuật phát hiện luật kết hợp nhiều chiều mờ từ các CSDL nhiều chiều định lượng bằng cách mờ hoá chiều của CSDL

Về mặt ứng dụng: Cung cấp một cách hệ thống một số khái niệm và kỹ

thuật để phát hiện luật kết hợp từ CSDL nhiều chiều và nhiều chiều định lượng Kỹ thuật được đề xuất trong luận văn sẽ góp phần để xây dựng chương trình ứng dụng nhằm phát hiện luật kết hợp nhiều chiều mờ từ CSDL định lượng

Luận văn bao gồm phần mở đầu, 3 chương nội dung và phần kết luận

Chương 1 - Tổng quan về cơ sở dữ liệu nhiều chiều: Chương này bao

gồm các trang từ 10 đến 29, trình bày các kiến thức cơ bản về kho dữ liệu:

khái niệm, mục đích của việc xây dựng kho dữ liệu, đặc điểm, các loại kho dữ liệu, mô hình trong kho dữ liệu, phân bậc khái niệm của chiều trong CSDL nhiều chiều Mục đích của chương là cung cấp các kiến thức cơ bản về kho dữ liệu (hay CSDL nhiều chiều) để làm cơ sở cho các chương tiếp theo

Chương 2 - Tổng quan về luật kết hợp tác vụ nhiều chiều: Từ trang 30 đến trang 73, sẽ trình bày các phương pháp phát hiện luật kết hợp nhiều chiều

Trang 10

từ CSDL tác vụ nhiều chiều nhị phân Chương này giới thiệu thuật toán phát hiện luật kết hợp tác vụ nhiều chiều: phân biệt và kết hợp

Chương 3 - Phát hiện luật kết hợp nhiều chiều mờ từ CSDL định lượng Chương này gồm các trang từ trang 74 đến trang 99, trình bày phương pháp phát hiện luật kết hợp nhiều chiều mờ Trong chương này sẽ trình bày các khái niệm: CSDL tác vụ nhiều chiều mờ, mục dữ liệu mờ mở rộng, cách tính

độ hỗ trợ cho các tập mục dữ liệu mờ mở rộng,… và đề xuất thuật toán phát hiện luật kết hợp tác vụ nhiều chiều mờ và thuật toán phát hiện luật kết hợp nhiều chiều mờ thu gọn

Phần kết luận: nêu lên những kết quả chủ yếu của luận văn và những hạn chế trong việc giải quyết đề tài luận văn cùng với hướng phát triển tiếp theo

Tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy Đỗ Văn Thành - Trung tâm Thông Tin và Dự báo KT-XH Quốc Gia đã tận tình hướng dẫn và giúp đỡ tôi hoàn thành bản luận văn

Tôi cũng xin cảm ơn các thầy cô khoa Công nghệ Thông tin, Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội đã giúp tôi hoàn thành khoá học

Trang 11

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Đỗ Văn Thành (2005), Phát hiện luật kết hợp mờ từ CSDL định lượng có

độ hỗ trợ cực tiểu không giống nhau, nhận đăng trong “Tạp chí tin học” [2] Đỗ Văn Thành (2004), Phát hiện luật kết hợp với độ hỗ trợ không giống nhau, Tạp chí Khoa học và Công nghệ, N1

[3] Đoàn Văn Ban (1997), Phương pháp thiết kế và khai thác kho dữ liệu,

báo cáo đề tài TT96/97-04, Viện Công Nghệ Thông Tin

[4] Tài liệu về “Data Warehouse” của Viện Công Nghệ Thông Tin, 1997

Tiếng Anh

[5] Agrawal,R T.Imielinski, and A.Swami, “Mining association rules between

sets of items in large databases” Proceedings of the ACM SIGMOD Int’l Conference on Management of Data, page 207-216, may 1993

[6] Agrawal R, Srikant R, “Fast algorithm for mining association rules in large databases” In:Bocca JB, Jarke M, Zaniolo C, editors Proc 20th VLDB Conf San Francisco, CA: MorganKaufmann; 1994 pp 487– 499.

[7] Attila Gyenesei, Jukka Teuhola, “Multidimensional Fuzzy Partitioning of Attribute Ranges for Mining Quantitative Data” INTERNATIONAL JOURNAL

OF INTELLIGENT SYSTEMS, VOL 19, 1111–1126 (2004)

[8] Attila Gyenesei, “A Fuzzy Aproach for Mining Quantitative Association Rules” Turku Centre for Computer Sciences, TUCS Technical Report, No

336, 2000

[9] Baralis E, Psaila G (1997), “Designing templates for mining association rules” J Intell Inf Syst 9 (1):7–32

[10] Chun Hing Cai, “Mining Association Rules with Weighted Items”,

Thesis, Chinese University of HongKong, 8/1998

Trang 12

[11] Fayyad U.M, Platstsky-Shapiro G, Smyth P., and Uthurusamy,” From

Data Mining to Knowledge Discovery” Advances in Knowledge discovery and DataMining, , edited by the same authors, AAAI Press/The MIT

Press,1996, pp 1-34

[12] Fukuda T, Morimoto Y, Morishita S, Tokuyama T (1996), “Data mining using two-dimensional optimized association rules: schema, algorithms, and visualization”, In: Proc.ACMSIGMOD International Conference on

Management of Data, pp 13–23,Montreal, Canada

[13] Han J., Kamber M, “Data mining: Concepts and Techniques”, Morgan Kaufman Publishers, 2001, 550 pages

[14] Ke Wang, Yu He, Jiwei Han, “Mining Frequent Itemset Using Support

Constraints” Proceedings of the 26 th VLDB Conference,Cairo,Egypt, 2000

[15] Ke Wang, Yu He, Jiwei Han, “Pushing support constraints into frequent

itemset mining” School of Computing, National Univer Of Singapore, 2000

[16] Kuok CM, Fu A, Wong MH, “Fuzzy association rules in databases”, ACM SIGMOD Rec1998;27:41– 46

[17] Kuod M, Ada P, “Mining Fuzzy Association Rules”, In SIGMOD Record, 27(1), 1998

[18] Ling Feng, Jeffrey Xu Yu, Hongjun Lu, Jiawei Han,A template model for multidimensional inter-transactional association rules”,2002

[19] Miller RJ,YangY(1997), “Association rules over interval data”, In: Proc.ACMSIGMOD International Conference on Management of Data, pp 452–461, Tucson, Ariz., USA

[20] Srikant R, Agrawal R,”Mining quantitative association rules in large relation tables” In:Widom J, editor Proc ACM SIGMOD New York: ACM Press; 1996 pp 1–12

[21] Zadeh LA, “Fuzzy sets”, Inform Control 1965;8:338–353

Ngày đăng: 12/11/2016, 09:28

HÌNH ẢNH LIÊN QUAN

Bảng từ viết tắt - Phát hiện luật kết hợp nhiều chiều mờ từ cơ sở dữ liệu định lượng
Bảng t ừ viết tắt (Trang 4)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w