Phát hiện luật kết hợp nhiều chiều mờ từ cơ sở dữ liệu định lượng

MỞ ĐẦU Vấn đề phát hiện luật kết hợp được quan tâm phát triển mạnh, hiện đã trở thành một trong những khuynh hướng nghiên cứu và ứng dụng quan trọng của khai phá dữ liệu data mining.. Để

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LUẬN VĂN THẠC SỸ

PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU

MỜ TỪ CƠ SỞ DỮ LIỆU ĐỊNH LƯỢNG

Học viên: Nguyễn Thị Thanh Huyền Người hướng dẫn khoa học: Ts Đỗ Văn Thành

4/2006

Trang 2

MỤC LỤC

Bảng từ viết tắt 3

Danh mục bảng biểu 4

Danh mục hình vẽ 6

MỞ ĐẦU 7

Chương 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU 10

1.1 Tại sao phải xây dựng kho dữ liệu? 10

1.2 Khái niệm kho dữ liệu – Data Warehouse 11

1.3 Mục đích của kho dữ liệu 13

1.4 Đặc điểm của kho dữ liệu 14

1.5 Mô hình của Kho dữ liệu (DW) 18

1.5.1 Các khái niệm cơ bản 18

1.5.2.Mô hình dữ liệu nhiều chiều 20

1.5.3 Sơ đồ cơ sở dữ liệu nhiều chiều 22

1.6 Kho dữ liệu chủ đề 25

1.7 Phân bậc khái niệm 27

Kết luận 29

Chương 2 PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU 30

2.1 Mô hình hình thức của phát hiện luật kết hợp 30

2.2 Phát hiện luật kết hợp nhiều chiều 33

2.2.2 Biểu thức luật mẫu 42

2.3 Các thuật toán phát hiện luật kết hợp nhiều chiều 50

2.3.1 Chuyển đổi mẫu 50

2.3.2 Giai đoạn tìm tập các ứng cử viên 54

Trang 3

2.3.3 Giai đoạn tìm tập mục dữ liệu chuẩn phổ biến 63

Kết luận 73

Chương 3 PHÁT HIỆN LUẬT KẾT NHIỀU CHIỀU MỜ 74

3.1 Giới thiệu 74

3.2 Phân loại CSDL nhiều chiều 78

3.3 Phát hiện luật kết hợp từ CSDL nhiều chiều loại 2 81

3.3.2 Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 2 86

3.4 Phát hiện luật kết hợp từ CSDL tác vụ nhiều chiều loại 3 90

3.4.1 Chuyển CSDL nhiều chiều loại 3 về CSDL nhiều chiều mới 90

3.4.3 Phát hiện luật kết hợp nhiều chiều mờ từ CSDL nhiều chiều mờ loại 3 97

Kết luận 97

KẾT LUẬN 100

TÀI LIỆU THAM KHẢO 102

Trang 4

Bảng từ viết tắt

Từ hoặc cụm từ Viết

Xử lý phân tích trực tuyến OLAP OnLine Analystical Processing

Xử lý giao dịch trực tuyến OLTP Online Transaction Processing

Hệ thống ứng dụng tác nghiệp OAS Operational Application System

Trang 5

Danh mục bảng biểu

Bảng 1: Dữ liệu bán hàng của Công ty Điện tử theo 2 chiều thoi_gian và mat_hang của chi nhánh bán hàng thuộc thành phố Hà nội Các tiêu chuẩn

đánh giá là tong_so_ban (đơn vị triệu VNĐ) 20

Bảng 2: Dữ liệu bán hàng của Công ty Điện tử được nhìn theo 3 chiều (3-D) chiều thoi_gian, mat_hang và vi_tri Tiêu chuẩn đánh giá là Tong_so_ban (đơn vị triệu VNĐ) 21

Bảng 3: CSDL tác vụ tại một cửa hàng 31

Bảng 4: Cơ sở dữ liệu tác vụ và được biểu diển dưới dạng bảng 31

Bảng 5:CSDL tác vụ tại một siêu thị 34

Bảng 6:CSDL tác vụ mở rộng tại một siêu thị sau khi chuyển đổi 36

Bảng 7: Tập ứng viên được đếm trong kế hoạch phát hiện phân biệt 56

Bảng 8: Ví dụ kết nối giữa U và V 58

Bảng 9: Các tập ứng viên được đếm trong kế hoạch phát hiện kết nối 59

Bảng 10: Thủ tục lập kế hoạch kết nối 61

Bảng 11: Thủ tục phát hiện phân biệt 64

Bảng 12: CSDL của 1 công ty máy tính 67

Bảng 13: Kế hoạch phát hiện phân biệt và kết hợp cho mẫu: ) ( ) ( ), ( 1 2 0 ∗ ∆ ∗ →∆ ∗ ∆ 67

Bảng 14: Thuật toán phát hiện kết hợp 70

Bảng 15: sử dụng phương pháp rời rạc thuộc tính định lượng có số giá trị nhỏ 74

Bảng 16: sử dụng phương pháp rời rạc thuộc tính định lượng có giá trị số 75 Bảng 17: CSDL định lượng 77

Bảng 18: CSDL mờ 78

Trang 6

Bảng 19: CSDL nhiều chiều loại 2 79

Bảng 22: CSDL nhiều chiều mờ loại 2 83

Bảng 23:CSDL nhiều chiều mờ loại 2 mở rộng 84

Bảng 24:Bảng kí hiệu sử dụng trong thuật toán phát hiện luật kết hợp nhiều chiều mờ 86

Bảng 25: tập mục dữ liệu mờ mở rộng phổ biến có độ dài bằng 1 88

Bảng 26: tập mục dữ liệu mở rộng mờ phổ biến có độ dài là 2 89

Bảng 27: CSDL tác vụ nhiều chiều mờ loại 3 94

Trang 7

Danh mục hình vẽ

Hình 1: Luồng dữ liệu trong một tổ chức 12

Hình 2: Tích hợp dữ liệu 15

Hình 3: Tích hợp dữ liệu 15

Hình 4: Tính thời gian của dữ liệu 17

Hình 5: Khối dữ liệu 3-D thể hiện cho dữ liệu của bảng 2 21

Hình 6: Sơ đồ hình sao của DW bán hàng của Công ty Điện tử 23

Hình 7: Sơ đồ hình bông tuyết của DW bán hàng của Công ty Điện tử 24

Hình 8: Sơ đồ hình chòm sao sự kiện của DW bán hàng của Công ty Điện tử 25

Hình 9: Phân bậc khái niệm đối với chiều vi_tri 27

Hình 10: Cấu trúc dàn của các thuộc tính đối với chiều vi_tri trong DW Bán hàng 28

Hình 11: Đồ thị của CSDL trong bảng 34

Hình 12: Đồ thị hàm thành viên của các tập mờ: “Đường_tăng_thấp”, “Đường_tăng_TB”, “Đường_tăng_cao” 82

Hình 13: Đồ thị hàm thành viên của các tập mờ: “Sữa_tăng_thấp”, “Sữa_tăng_TB”, “Sữa_tăng_cao” 83

Hình 14: Khung lưới dựa trên việc phân hoạch 3 thuộc tính chiều 90

Hình 15: Ví dụ về các phân hoạch mờ 91

Hình 16: Định nghĩa các hàm thành viên cho các khoảng mờ 93

Trang 8

MỞ ĐẦU

Vấn đề phát hiện luật kết hợp được quan tâm phát triển mạnh, hiện đã trở thành một trong những khuynh hướng nghiên cứu và ứng dụng quan trọng của khai phá dữ liệu (data mining) Việc phát hiện luật kết hợp nhằm tìm ra các mối quan hệ giữa các thuộc tính dữ liệu trong cơ sở dữ liệu Phát hiện luật kết hợp đã được ứng dụng hiệu quả trong nhiều ngành kinh tế, khoa học, xã hội như Thương mại, Tài chính, Ngân hàng, Y tế, Giáo dục, nghiên cứu môi trường,

Để phát hiện luật kết hợp từ các cơ sở dữ liệu (CSDL), trước hết người

ta xây dựng các phương pháp nhằm phát hiện luật kết hợp từ các CSDL nhị phân và sau đó phát triển thành phương pháp phát hiện luật kết hợp từ CSDL định lượng bằng cách sử dụng kỹ thuật chia khoảng giá trị các thuộc tính trong CSDL định lượng và đưa nó về CSDL nhị phân rồi ứng dụng thuật toán phát hiện luật kết hợp từ CSDL nhị phân đã biết hoặc là sử dụng lý thuyết tập

mờ để chuyển CSDL định lượng thành CSDL mờ và cải tiến phát triển thuật toán phát hiện luật kết hợp nhị phân cho phù hợp Cách tiếp cận sau cùng đang được quan tâm nhiều vì nó khắc phục được nhược điểm “thiếu tự nhiên”

và “quá cồng kềnh” của cách tiếp cận chia khoảng giá trị thuộc tính trong CSDL định lượng Luật kết hợp được phát hiện khi đó được gọi là luật kết hợp mờ

Tương tự như vậy để phát hiện luật kết hợp từ CSDL nhiều chiều (hay Kho dữ liệu – Dataware house) trước hết người ta cũng xây dựng các phương pháp nhằm phát hiện luật kết hợp từ các cơ sở dữ liệu nhiều chiều nhị phân và

nó được gọi là luật kết hợp nhiều chiều Đến nay vấn đề phát hiện luật kết hợp nhiều chiều cơ bản đã được giải quyết, trong khi các kết quả nghiên cứu đề

Trang 9

xuất phương pháp phát hiện luật kết hợp từ cơ sở dữ liệu nhiều chiều định lượng còn rất hạn chế

Luận văn này liên quan đến những vấn đề phát hiện luật kết hợp từ CSDL nhiều chiều định lượng theo cách tiếp cận đang được quan tâm sử dụng nhằm phát hiện luật kết hợp mờ từ cơ sở dữ liệu định lượng

Cụ thể mục đích của luận văn này là:

Về mặt lý thuyết: luận văn trình bày một cách tổng quan một số vấn đề

về kho dữ liệu, phát hiện luật kết hợp từ CSDL nhị phân, phát hiện luật kết hợp nhiều chiều từ CSDL định lượng và đề xuất kỹ thuật phát hiện luật kết hợp nhiều chiều mờ từ các CSDL nhiều chiều định lượng bằng cách mờ hoá chiều của CSDL

Về mặt ứng dụng: Cung cấp một cách hệ thống một số khái niệm và kỹ

thuật để phát hiện luật kết hợp từ CSDL nhiều chiều và nhiều chiều định lượng Kỹ thuật được đề xuất trong luận văn sẽ góp phần để xây dựng chương trình ứng dụng nhằm phát hiện luật kết hợp nhiều chiều mờ từ CSDL định lượng

Luận văn bao gồm phần mở đầu, 3 chương nội dung và phần kết luận

Chương 1 - Tổng quan về cơ sở dữ liệu nhiều chiều: Chương này bao

gồm các trang từ 10 đến 29, trình bày các kiến thức cơ bản về kho dữ liệu:

khái niệm, mục đích của việc xây dựng kho dữ liệu, đặc điểm, các loại kho dữ liệu, mô hình trong kho dữ liệu, phân bậc khái niệm của chiều trong CSDL nhiều chiều Mục đích của chương là cung cấp các kiến thức cơ bản về kho dữ liệu (hay CSDL nhiều chiều) để làm cơ sở cho các chương tiếp theo

Chương 2 - Tổng quan về luật kết hợp tác vụ nhiều chiều: Từ trang 30 đến trang 73, sẽ trình bày các phương pháp phát hiện luật kết hợp nhiều chiều

Trang 10

từ CSDL tác vụ nhiều chiều nhị phân Chương này giới thiệu thuật toán phát hiện luật kết hợp tác vụ nhiều chiều: phân biệt và kết hợp

Chương 3 - Phát hiện luật kết hợp nhiều chiều mờ từ CSDL định lượng Chương này gồm các trang từ trang 74 đến trang 99, trình bày phương pháp phát hiện luật kết hợp nhiều chiều mờ Trong chương này sẽ trình bày các khái niệm: CSDL tác vụ nhiều chiều mờ, mục dữ liệu mờ mở rộng, cách tính

độ hỗ trợ cho các tập mục dữ liệu mờ mở rộng,… và đề xuất thuật toán phát hiện luật kết hợp tác vụ nhiều chiều mờ và thuật toán phát hiện luật kết hợp nhiều chiều mờ thu gọn

Phần kết luận: nêu lên những kết quả chủ yếu của luận văn và những hạn chế trong việc giải quyết đề tài luận văn cùng với hướng phát triển tiếp theo

Tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy Đỗ Văn Thành - Trung tâm Thông Tin và Dự báo KT-XH Quốc Gia đã tận tình hướng dẫn và giúp đỡ tôi hoàn thành bản luận văn

Tôi cũng xin cảm ơn các thầy cô khoa Công nghệ Thông tin, Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội đã giúp tôi hoàn thành khoá học

Trang 11

Chương 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU NHIỀU CHIỀU 1.1 Tại sao phải xây dựng kho dữ liệu?

Nhân loại đang sống trong thời đại của nền kinh tế tri thức Mọi hoạt động của con người muốn đạt hiệu quả cao, giành được thắng lợi trong thế cạnh tranh gay gắt thì nhất thiết phải có những phương pháp để có được những thông tin, tri thức có chất lượng cần thiết một cách nhanh chóng và kịp thời Thông tin có thể có được ở mọi nơi, mọi thời điểm và tồn tại ở nhiều dạng khác nhau: âm thanh, hình ảnh, văn bản

Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất kinh doanh đã mang lại những hiệu quả và lợi ích to lớn Công nghệ ngày càng được phát triển, hoàn thiện hơn để đáp ứng những yêu cầu ngày càng cao của thực tế nghiên cứu, quản lý sản xuất và kinh doanh Sự mở rộng qui mô áp dụng từ những ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến những thành công vượt bậc trong kinh doanh Các hệ thống thông tin từ chỗ chỉ giải quyết những xử lý công việc hàng ngày đã tiến tới đáp ứng được những yêu cầu ở mức độ cao hơn Các nhà quản lý điều hành có thể biết được công việc đang diễn ra như thế nào Tuy nhiên việc xây dựng một hệ thống như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của hệ thống thông tin tăng lên Những hệ thống thông tin xây dựng theo phương pháp truyền thống chưa đáp ứng được yêu cầu của người sử dụng và các nhà quản lý hệ thống thông tin

Khắc phục những hạn chế nêu trên là công việc rất phức tạp bởi vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc Nhiều hệ CSDL đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây dựng Một vấn đề đặt ra là làm thế nào để tổ chức, khai thác

Trang 12

được những khối lượng dữ liệu khổng lồ và đa dạng từ những hệ thống thông tin đã được xây dựng ?

Có một số vấn đề tồn tại chủ yếu của hệ thống thông tin:

1 Phát triển chương trình trên các Hệ thống thông tin khác nhau là không đơn giản

Một chức năng có thể được thể hiện ở rất nhiều chương trình, nhưng việc tổ chức và sử dụng lại nó là rất khó khăn do hạn chế về kỹ thuật Việc chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là phức tạp

2 Duy trì những chương trình này gặp rất nhiều vấn đề:

Mỗi thay đổi ở một ứng dụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có quan hệ với nó Nhưng thông thường sự phụ thuộc lẫn nhau giữa các

chương trình không rõ ràng hoặc không xác định được

3 Khối lượng dữ liệu lưu trữ tăng rất nhanh: do không kiểm soát được khả

năng chồng chéo dữ liệu trong các hệ thống thông tin

4 Quản trị dữ liệu phức tạp: do thiếu những định nghĩa chuẩn, thống nhất về

dữ liệu dẫn đến việc mất khả năng kiểm soát đồng thời nhiều hệ thống thông tin và một thành phần dữ liệu có thể tồn tại ở nhiều nguồn khác nhau

Giải pháp cho tất cả các vấn đề tồn tại nêu trên chính là xây dựng một kho dữ liệu (Data Warehouse)

1.2 Khái niệm kho dữ liệu – Data Warehouse

Định nghĩa: Kho dữ liệu (Data Warehouse - DW) được hiểu là bộ dữ

liệu có giá trị lịch sử, theo chuỗi thời gian, được tích hợp và định hướng vào từng chủ đề nhằm hỗ trợ quá trình ra quyết định trong quản lý [4]

Kho dữ liệu thường rất lớn tới hàng trăm GigaByte hay thậm chí hàng Terabyte

Trang 13

Kho dữ liệu được xây dựng để thuận lợi cho việc truy cập dữ liệu theo nhiều nguồn được phát triển dựa trên nhiều hệ quản trị CSDL khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước Dữ liệu phát sinh từ các hoạt động hàng ngày và được thu thập xử lí để phục vụ công việc kinh doanh cụ thể của một tổ chức thường được gọi là dữ liệu tác nghiệp (operational data)

và hoạt động thu thập xử lí loại dữ liệu này được gọi là xử lí giao dịch trực tuyến (On_line Transaction Processing - OLPT) Ngược lại, kho dữ liệu phục

vụ cho việc phân tích với kết quả mang tính thông tin cao Các hệ thống thông tin thu thập xử lí dữ liệu loại này còn được gọi là hệ xử lí phân tích trực tuyến (On_Line Analytical Processing - OLAP)

Nói cách khác, kho dữ liệu là một tập hợp các CSDL rất lớn tới hàng

trăm Gigabyte hay thậm chí hàng Tera byte dữ liệu từ nhiều phân hệ của hệ thống, lưu trữ và phân tích phục vụ cho việc cung cấp các dịch vụ thông tin liên quan tới các hoạt động sản xuất, kinh doanh một tổ chức, cơ quan hay

doanh nghiệp

Dòng dữ liệu trong một tổ chức (cơ quan, doanh nghiệp, công ty, v.v.)

có thể mô tả khái quát như sau:

Hình 1: Luồng dữ liệu trong một tổ chức

Dữ liệu chủ đề

Siêu dữ liệu

Kho dữ liệu cá nhân

Trang 14

Dữ liệu cá nhân (Personal Data) không thuộc phạm vi quản lý của hệ

quản trị kho dữ liệu Nó chứa các thông tin được trích xuất từ các hệ thống dữ liệu tác nghiệp, kho dữ liệu và từ những kho dữ liệu chủ đề liên quan bằng các phép gộp, tổng hợp hay xử lý bằng một cách nào đó

1.3 Mục đích của kho dữ liệu

Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các tiêu chuẩn cơ bản:

1 Đáp ứng mọi yêu cầu về thông tin của người sử dụng

2 Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau

3 Phục vụ phân tích phát hiện tri thức mới từ dữ liệu:

a Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình như: có những quyết định hợp lý, nhanh và chính xác

4 Hỗ trợ tổ chức xây dựng chiến lược, kế hoạch hoạt động sản xuất, kinh doanh hiệu quả

Để đạt được những yêu cầu trên, khi xây dựng DW cần chú ý:

• Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định

• Tổng hợp và kết hợp dữ liệu

• Đồng bộ hoá các nguồn dữ liệu với DW

• Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như

là các công cụ chuẩn để phục vụ cho DW

• Quản lí siêu dữ liệu

• Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề

Trang 15

• DW được sử dụng trong các hệ thống hỗ trợ quyết định (Decision suport system - DSS), hỗ trợ cho các truy vấn đặc biệt

1.4 Đặc điểm của kho dữ liệu

Kho dữ liệu (DW) có những tính chất cơ bản sau [3],[4]:

1.4.1 Tính tích hợp (Integration)

Dữ liệu trong DW được tổ chức theo nhiều cách khác nhau sao cho phù hợp với các qui ước đặt tên, thống nhất về số đo, cơ cấu mã hoá và cấu trúc vật lý của dữ liệu, v.v Một DW là một khung nhìn thông tin mức toàn doanh nghiệp, thống nhất các khung nhìn khác nhau thành một khung nhìn theo một chủ điểm nào đó Ví dụ hệ thống OLTP (xử lí giao dịch trực tuyến) truyền thống được xây dựng trên một vùng kinh doanh, một hệ thống bán hàng và

một hệ thống marketing có thể có chung một dạng thông tin về khách hàng,

nhưng các vấn đề về tài chính có thể cần một khung nhìn khác cho thông tin

về khách hàng Một DW sẽ có một khung nhìn toàn thể về một khách hàng Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ tài chính và marketing

Tính tích hợp thể hiện ở chỗ: Dữ liệu tập hợp trong kho dữ liệu được thu

thập từ nhiều nguồn và trộn ghép với nhau tạo thành một thể thống nhất

Ví dụ: Dữ liệu từ những chương trình ứng dụng thực hiện trên các CSDL tác nghiệp được tích hợp lại theo cách mã hoá và số đo thống nhất như sau:

Trang 16

CSDL tác nghiệp Data Warehouse

Hệ thống dữ

liệu tác nghiệp

Kho dữ liệu

Hệ thống kiểm tra Tài khoản

Lê Anh Tuấn

Nam

Mở Tài khoản năm 1994

Hệ thống Tài khoản tiết kiệm

Lê Anh Tuấn

M (Mã)

Mở Tài khoản năm 1992

Hệ thống Tài khoản đầu tư

Lê Anh Tuấn

Appl B: pipeline inch (2,54 cm)

Appl C: pipeline yard (0.914 cm)

Trang 17

chức theo chức năng: cho vay, quản lý tín dụng, quản lý ngân sách, v.v Ngược lại, trong DW về tài chính, dữ liệu được tổ chức theo chủ điểm dựa chủ yếu theo các đối tượng: khách hàng, sản phẩm, các doanh nghiệp, v.v Sự khác nhau của hai cách tiếp cận trên dẫn đến sự khác nhau về nội dung dữ liệu được lưu trữ trong hệ thống:

DW không lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính tổng hợp phục vụ chủ yếu cho quá trình phân tích để trợ giúp quyết định

 Các hệ thống ứng dụng tác nghiệp (Operational Application System- OAS), CSDL tác nghiệp cần những dữ liệu chi tiết, phục vụ trực tiếp

cho những yêu cầu xử lý theo các chức năng của lĩnh vực ứng dụng hiện thời Do vậy mối quan hệ của dữ liệu trong những hệ thống này cũng khác, đòi hỏi phải có tính chi tiết hơn, có tính thời sự, v.v

1.4.3 Dữ liệu gắn thời gian và có tính lịch sử

Kho dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử Dữ liệu được lưu trữ thành một loạt các ảnh chụp dữ liệu (snapshot), mỗi bản ghi phản ánh những giá trị của dữ liệu tại một thời điểm nhất định thể hiện một khung nhìn của một chủ điểm trong một giai đoạn, do vậy cho phép khôi phục lại lịch sử

và so sánh một cách chính xác các giai đoạn khác nhau Yếu tố thời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn nhất và cung cấp đặc trưng về thời gian cho dữ liệu

Dữ liệu trong OAS cần phải chính xác ở chính thời điểm truy cập, còn ở

DW chỉ cần có hiệu lực trong khoảng thời gian nào đó, trong khoảng 5 đến 10 năm hoặc lâu hơn Dữ liệu của CSDL tác nghiệp thường sau một khoảng thời gian nhất định sẽ trở thành dữ liệu lịch sử và chúng sẽ được chuyển vào kho

dữ liệu Đó chính là những dữ liệu hợp lý về những chủ điểm cần lưu trữ

Trang 18

CSDL tác nghiệp DW

Dữ liệu kinh doanh: ảnh chụp dữ liệu:

+ Thời gian ngắn 30-60 ngày + Thời gian dài: 5 đến 10 năm

+ Có thể có yếu tố thời gian hoặc

không

+ Luôn có yếu tố thời gian

+ Dữ liệu có thể cập nhật + Khi dữ liệu được chụp lại thì

không cập nhật được Hình 4: Tính thời gian của dữ liệu

1.4.4 Dữ liệu có tính ổn định (nonvolatility)

Dữ liệu trong DW là dữ liệu chỉ đọc và chỉ có thể được kiểm tra, không

được sửa đổi bởi người sử dụng đầu cuối Nó chỉ cho phép thực hiện hai thao

tác cơ bản:

Nạp dữ liệu vào kho

Truy cập vào các vùng trong DW

1.4.5 Dữ liệu không biến động

Thông tin trong DW được tải vào sau khi dữ liệu trong hệ thông tin tác

nghiệp được cho là quá cũ Tính không biến động thể hiện ở chỗ: Dữ liệu

được lưu trữ lâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào

nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp

thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các

mô hình kinh doanh phân tích, dự báo, từ đó có được những quyết định hợp

lý, phù hợp với các qui luật tiến hoá của tự nhiên

Trang 19

1.4.6 Dữ liệu tổng hợp

Dữ liệu tác nghiệp thuần tuý không được lưu trữ trong DW Dữ liệu tổng hợp được tích lại qua nhiều giai đoạn khác nhau theo các chủ điểm như đã nêu trên

1.5 Mô hình của Kho dữ liệu (DW)

1.5.1 Các khái niệm cơ bản

a Khối dữ liệu (Data cube)

Các DW và các công cụ (Tools) OLAP được dựa trên mô hình dữ liệu nhiều chiều Mô hình dữ liệu nhiều chiều nhìn dữ liệu dưới dạng các khối (cube) dữ liệu

Khối dữ liệu cho phép dữ liệu được mô hình và được nhìn theo đa chiều

Các chiều là các phối cảnh hoặc các thực thể mà các đơn vị, tổ chức muốn lưu giữ các bản ghi thông tin theo chúng Ví dụ một Công ty Điện tử có thể xây dựng một DW bán hàng nhằm lưu giữ các bản ghi thông tin về tình hình bán

hàng của công ty theo các chiều thoi_gian, mat_hang, chi_nhanh và vi_tri

Các chiều này cho phép công ty theo dõi được tình hình bán hàng của công ty như tình hình bán của mỗi mặt hàng trong từng tháng, các chi nhánh và vị trí

ở đó những mặt này đã được bán, Mỗi chiều có thể có một bảng liên kết nhằm mô tả rõ hơn về nó được gọi là bảng chiều Chẳng hạn bảng chiều đối

với chiều mat_hang có thể chứa các thuộc tính như ten_mat_hang, chi_nhanh

và kieu Các bảng chiều do người sử dụng xác định hoặc cũng có thể được

sinh ra hoặc được bổ sung một cách tự động dựa trên các phân bố dữ liệu

Các tiêu chuẩn đánh giá: Phân loại và tính toán

Một điểm nhiều chiều trong không gian khối dữ liệu được xác định bởi

bộ giá trị của chiều Ví dụ (thoi_gian = “Q1”, mat_hang = “GTGĐ”, vi_tri =

“Hà nội”) Một tiêu chuẩn đánh giá khối dữ liệu là một hàm số có thể được

Trang 20

đánh giá tại các điểm thuộc không gian khối dữ liệu (hàm số đó được gọi là hàm tích hợp) Một giá trị đánh giá được tính toán đối với một điểm cho trước bằng cách tích hợp dữ liệu ứng với bộ giá trị chiều tương ứng xác định điểm

bộ tập dữ liệu chưa được phân chia Ví dụ các hàm min(), max(), count() đều

Tiêu chuẩn đánh giá là đại số nếu nó nhận được bằng việc áp dụng một hàm tích hợp đại số

Holistic: hàm tích hợp là holistic nếu không tồn tại hàm đại số m đối số (m

là hằng) đặc trưng cho việc tính toán Ví dụ: hàm tính tần xuất xuất hiện của mặt hàng được bán Tansuat() là hàm holistic

Tiêu chuẩn đánh giá là holistic nếu nó nhận được bằng việc áp dụng một hàm tích hợp holistic

Trang 21

Các ứng dụng khối dữ liệu lớn đòi hỏi việc tính toán hiệu quả của các tiêu chuẩn đánh giá đại số, phân bố và thực tế người ta đã xây dựng được nhiều kỹ thuật tính toán như vậy Nhưng có nhiều khó khăn nếu muốn tính toán hiệu quả các tiêu chuẩn đánh giá holistic Khắc phục nhược điểm này người ta sử dụng kỹ thuật xấp xỉ Chẳng hạn thay vì phải tính toán chính xác tần suất xuất hiện của các mặt hàng -Tansuat() đối với tập dữ liệu lớn, người ta có thể chỉ ước lượng giá trị xấp xỉ của hàm Tansuat() đó Trong nhiều trường hợp kỹ thuật này là rất hiệu quả

1.5.2.Mô hình dữ liệu nhiều chiều

Mô hình dữ liệu nhiều chiều được tổ chức xoay quanh một chủ đề trung tâm Chủ đề đó được thể hiện bởi một bảng sự kiện Sự kiện là một tiêu chuẩn đánh giá đo bằng số Ví dụ các sự kiện đối với DW bán hàng ở trên bao

gồm tong_so_ban (tổng số tiền hàng bán được), so_mat_hang_ban (tổng số mặt hàng bán được), tong_so_hang (tổng số hàng công ty có trong kho)

Vi_ tri = “Hà nội”

chuẩn đánh giá là tong_so_ban (đơn vị triệu VNĐ)

Trang 22

872925967980

Bảng 2: Dữ liệu bán hàng của Công ty Điện tử được nhìn theo 3 chiều (3-D) chiều thoi_gian, mat_hang và vi_tri Tiêu chuẩn đánh giá là

Tong_so_ban (đơn vị triệu VNĐ)

Dữ liệu 3-D trong Bảng 2 có thể được biểu diễn dưới dạng Khối dữ liệu như hình 5 ở dưới

Hình 5: Khối dữ liệu 3-D thể hiện cho dữ liệu của bảng 2

Như vậy có thể thấy: dữ liệu 3-D trong bảng 2 được biểu diễn như là một dãy của các bảng dữ liệu 2-D Một cách tổng quát khối dữ liệu n chiều có thể được xem là là một dãy của các khối dữ liệu n-1 chiều theo chiều thứ n đó

Q1

Hà nội

GTGD

825 925 1023 1038

14 31 30 38

400 512 501 580

967

872

Trang 23

Các khối dữ liệu có thể được xem là một phép ẩn dụ của các kho dữ liệu nhiều chiều Để tham chiếu đến nó người ta sử dụng điểm trong không gian nhiều chiều (gọi là cuboid )

1.5.3 Sơ đồ cơ sở dữ liệu nhiều chiều

Mô hình dữ liệu thông dụng nhất đối với DW là mô hình dữ liệu nhiều chiều Mô hình này hiện tồn tại ở 3 dạng là: sơ đồ hình sao, hình bông tuyết

và hình chòm sao sự kiện

a.Sơ đồ hình sao: là sơ đồ được sử dụng nhiều nhất Trong sơ đồ này DW

chứa: (1) một bảng chính (bảng sự kiện trung tâm), bảng này chứa phần nhiều

dữ liệu và không dư thừa; (2) và đi kèm theo là một tập các bảng nhỏ hơn (các bảng chiều), mỗi một bảng ứng cho một chiều

Ví dụ: Sơ đồ hình sao đối với DW Bán hàng của Công ty Điện tử được minh hoạ trong hình 6 DW này được tập trung vào 3 chiều là thời gian, mặt hàng, và vị trí Bảng sự kiện trung tâm chứa các khoá cho mỗi một trong 4

bảng chiều Các tiêu chuẩn đánh giá là: tong_so_ban và so_mat_hang_ban

Trang 24

Hình 6: Sơ đồ hình sao của DW bán hàng của Công ty Điện tử

Như vậy trong sơ đồ hình sao, mỗi chiều được biểu diễn bởi chỉ một bảng và mỗi bảng chứa một tập các thuộc tính

b.Sơ đồ bông tuyết: có thể được xem là một biến thể của sơ đồ hình sao

Trong sơ đồ bông tuyết các bảng chiều được chuẩn hoá Điều này cho phép sơ

đồ bông tuyết có thể giảm được dư thừa dữ liệu tốt hơn sơ đồ hình sao, tuy nhiên cấu trúc bông tuyết có thể làm giảm tính hiệu quả của việc thực hiện các truy vấn

Ví dụ: Hình 7 ở dưới mô tả sơ đồ bông tuyết của DW Bán hàng của Công ty Điện tử Trong sơ đồ này Bảng sự kiện là tương tự như Bảng sự kiện trong sơ

đồ hình sao Sự khác nhau chủ yếu của 2 sơ đồ nêu trên là ở các bảng chiều

Chẳng hạn bảng chiều mat_hang trong sơ đồ hình sao được chuẩn hoá trong

sơ đồ bông tuyết thành 2 bảng chiều Mat_hang và Nha_cung_cap

Ma_TG Ma_mat_hang ma_vi_tri

Tong_so_ban So_mat_hang_ban

Ma_mat_hang

Ten_mat_hang Loai_hang Ten_nha_cung_cap

bảng chiều thoi_gian

bảng chiều vi_tri

bảng chiều mat_ hang bảng sự kiện

Trang 25

Hình 7: Sơ đồ hình bông tuyết của DW bán hàng của Công ty Điện tử

c.Sơ đồ chòm sao sự kiện: Nhiều ứng dụng phức tạp đòi hỏi phải có nhiều

bảng sự kiện cùng có chung các bảng chiều đi kèm Kiểu này của sơ đồ có thể được xem như một cách tập hợp các sao

Ví dụ : Hình 8 mô tả sơ đồ chòm sao sự kiện Trong sơ đồ đó có 2 bảng sự kiện là bảng Ban_hang và Chuyen_cho_hang

Tong_so_ban So_mat_hang_ban

Ma_mathang

Ten_mat_hang Loai_hang

Ma_nha_cung_cap

bảng chiều thoi_gian

bảng chiều vi_tri

bảng chiều mat_hang bảng sự kiện

Ma_nha_cung_cap

Ten_nha_cung_cap bảng chiều nha_cung_cap

Trang 26

Hình 8: Sơ đồ hình chòm sao sự kiện của DW bán hàng của Công ty Điện tử

Như vậy sơ đồ chòm sao sự kiện cho phép các bảng chiều được chia sẻ giữa các bảng sự kiện Chẳng hạn các bảng chiều thoi_gian, mat_hang, vi_tri được chia sẻ giữa cả 2 bảng sự kiện là Ban_hang và Chuyen_cho_hang

Tong_so_ban So_mat_hang_ban bảng chiều thoi_gian

bảng chiều vi_tri bảng chiều mat_hang

Ma_mat_hang Ma_ngươi_cho

Tu_vi_tri Den_vi_tri Gia Tong_mat_hang_chobảng sự kiện chuyen_cho

Ma_nguoi_cho

Ten_nguoi_cho ma_vi_tri

Trang 27

nhất định nên phạm vi thông tin của nó hẹp hơn và thường bao trùm một vài phòng ban nào đó thuộc cơ quan đó Đối với DW người ta thường sử dụng sơ

đồ chùm sao sự kiện để xây dựng nó, còn đối với các Kho dữ liệu chủ đề thì

đó là sơ đồ hình sao hoặc hình bông tuyết

Thể hiện thường xuyên nhất của kho dữ liệu chủ đề là một kho dữ liệu riêng rẽ theo phương diện vật lí, thường được lưu trữ trên một máy chủ riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất định Đôi khi kho

dữ liệu chủ đề được xây dựng một cách đơn giản với các quan hệ theo dạng

hình sao đặc biệt hoặc những siêu khối dữ liệu phục vụ cho việc phân tích của một nhóm người có cùng mối quan tâm trên một phạm vi dữ liệu

Có thể chia kho dữ liệu chủ đề ra làm 2 loại: Kho dữ liệu chủ đề độc lập

và Kho dữ liệu chủ đề phụ thuộc

Kho dữ liệu chủ đề phụ thuộc: chứa những dữ liệu được lấy từ kho dữ

liệu và những dữ liệu này sẽ được trích lọc và tinh chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của kho dữ liệu chủ đề

Kho dữ liệu chủ đề độc lập: không giống như Kho dữ liệu chủ đề phụ

thuộc, kho dữ liệu chủ đề loại này được xây dựng trước kho dữ liệu và dữ liệu được trực tiếp lấy từ các nguồn khác nhau Phương pháp này đơn giản hơn và chi phí thấp hơn nhưng đổi lại có những điểm yếu Mỗi kho dữ liệu chủ đề độc lập có cách tích hợp riêng, do đó dữ liệu từ nhiều kho dữ liệu chủ đề khó đồng nhất với nhau Khi đó xảy ra hai vấn đề đối với kho dữ liệu chủ đề: thứ

nhất là tính ổn định trong các tình huống từ một kho dữ liệu chủ đề nhỏ ban đầu lớn lên nhanh chóng theo nhiều chiều và thứ hai là sự tích hợp dữ liệu Vì

vậy khi thiết kế kho dữ liệu chủ đề phải chú ý kĩ tới tính ổn định của hệ thống,

sự đồng nhất của dữ liệu và vấn đề về khả năng quản lí

Trang 28

Xây dựng kho dữ liệu (Data Warehousing) là một quá trình kĩ thuật thu

thập, quản lí và khai thác dữ liệu một cách hợp lí từ nhiều nguồn khác nhau,

để thiết lập một kho dữ liệu là tập hợp các dữ liệu hợp nhất phản ánh chi tiết

một phần hay toàn bộ công tác kinh doanh của một tổ chức hay nói cách khác,

đây là quá trình xác lập cách nhìn, lập kế hoạch, xây dựng, sử dụng, quản trị,

bảo trì và nâng cấp Kho dữ liệu và Kho dữ liệu chủ đề Không phụ thuộc vào

việc xây dựng một kho dữ liệu hay một kho dữ liệu chủ đề, quá trình rất phức

tạp và luôn luôn thay đổi với trọng tâm là các nhu cầu kinh doanh dựa trên tri

thức lấy dữ liệu làm căn cứ

1.7 Phân bậc khái niệm

Các phân bậc khái niệm cho phép được quản lý ở nhiều mức khác nhau

của sự trừu xuất Phân bậc khái niệm xác định một chuỗi sắp xếp tập các khái

niệm từ mức thấp hơn đến mức cao hơn, tổng quát hơn Ví dụ: các giá trị của

vi_tri như Hà nội, Đà nẵng, Hồ Chí Minh có thể được xếp vào vùng mà các

thành phố này thuộc vào Các vùng này lại được xếp vào đất nước chứa vùng

đó Hình 10 dưới đây mô tả Phân bậc khái niệm theo chiều vi_tri được mô tả

như trên

Hình 9: Phân bậc khái niệm đối với chiều vi_tri

Trang 29

Nhiều phân bậc khái niệm được ngầm định trong sơ đồ CSDL Chẳng hạn đối với chiều vị trí, giả sử rằng vị trí được mô tả bởi các thuộc tính như: so_nha, ten_pho, thanh_pho, ten_thi_xa, ten_vung, và ten_nuoc Giả sử có quan hệ thứ tự toàn phần trên các thuộc tính này và khi đó sẽ hình thành phân bậc khái niệm, chẳng hạn: “so_nha<ten_pho<ten_thi_xa

<thanh_pho<ten_vung<ten_nuoc”

Nếu trên các thuộc tính của chiều chỉ tồn tại các quan hệ thứ tự từng phần, khi đó sẽ hình thành một cấu trúc dàn đối với các thuộc tính của chiều Chẳng hạn so_nha< ten_pho<{thanh_pho; ten_thi_ xa}<ten_vung<ten_nuoc Cấu trúc dàn này được minh hoạ trong hình 10 ở dưới

Hình 10: Cấu trúc dàn của các thuộc tính đối với chiều vi_tri trong DW Bán hàng

Phân bậc khái niệm giữa các thuộc tính trong một CSDL được gọi là sơ

đồ phân bậc Phân bậc khái niệm cũng có thể được xác định bằng cách sử dụng phương pháp rời rạc hoặc nhóm các giá trị đối với một chiều hoặc một thuộc tính cho trước Nói chung là có nhiều phân bậc khái niệm đối với một thuộc tính hoặc một chiều cho trước Điều đó phụ thuộc vào quan điểm của

Ten_nuoc

Ten_pho

So_nha Ten_vung

Trang 30

người sử dụng Các phân bậc khái niệm do người sử dụng hệ thống, chuyên

gia xác định, nhưng cũng có thể được sinh ra một cách tự động dựa trên các

phân tích thống kê của phân bố dữ liệu

Kết luận

Trong chương 1 đã trình bày các vấn đề liên quan đến kho dữ liệu:

Khái niệm kho dữ liệu (DW), bốn mục đích khi xây dựng kho dữ liệu, sáu đặc

điểm của kho dữ liệu

Trong chương này cũng đưa ra mô hình của DW với khái niệm về khối

dữ liệu, các mô hình 2-D, 3-D… biểu diễn cho dữ liệu 2 chiều, 3 chiều,… Cơ

sở dữ liệu nhiều chiều cũng được thể hiện bằng các sơ đồ: hình sao, bông

tuyết, chòm sao sự kiện Đây là cơ sở để biểu diễn dữ liệu trước khi phát hiện

tri thức Nó là tiền đề cho thuật toán phát hiện luật kết hợp ở chương sau Các

vấn đề về luật kết hợp sẽ được trình bày ở chương 2

Cuối chương này cũng trình bày một loại kho DW là kho dữ liệu chủ đề

gồm: kho dữ liệu chủ đề độc lập và kho dữ liệu chủ đề phụ thuộc Các thuộc

tính chiều trong cơ sở dữ liệu có thể được thể hiện trong các mức của phân

bậc khái niệm Nói tóm lại, chương 1 cung cấp những khái niệm và các vấn

đề cơ bản làm tiền đề cho các chương tiếp sau

Trang 31

Chương 2 PHÁT HIỆN LUẬT KẾT HỢP NHIỀU CHIỀU

2.1 Mô hình hình thức của phát hiện luật kết hợp

Kí hiệu I = {i1, i2, …, im} là tập các thuộc tính nhị phân (mỗi thuộc tính biểu thị một mặt hàng trong siêu thị và được gọi là một mục dữ liệu); tập

X ⊂ I được gọi là tập mục dữ liệu; TID là tập định danh của các tác vụ (mỗi

vụ mua hàng được xem là một tác vụ) Quan hệ nhị phân D ⊂ I x TID được gọi là cơ sở dữ liệu Mỗi tác vụ t có thể được biểu diễn như một véc tơ nhị phân, với t[k] = 1 nếu t mua mặt hàng ik, ngược lại t[k] = 0 Một tác vụ t được gọi là chứa tập mục dữ liệu X nếu X ⊂ t Chẳng hạn ở cơ sở dữ liệu D được minh hoạ ở bảng 3, ta có I = { A, C, D, T, W } và TID = {1, 2, 3, 4, 5, 6}, tác vụ 1 chứa tập X = {A, C, T, W}

Luật kết hợp biểu thị mối quan hệ giữa tập con của các tập mục dữ liệu

Một luật kết hợp ngầm định ở dạng X → Y, (X được gọi là tiền đề, Y được gọi là hệ quả) với X, Y là các tập mục dữ liệu (hay itemset) và X ∩Y = ∅ [2],[11]

Ở đây, tập mục dữ liệu X được nói là có độ hỗ trợ (hoặc tần suất) s trong

cơ sở dữ liệu D nếu có s% của các tác vụ trong D chứa tập mục dữ liệu

này[2],[5],[10],[14]

Luật kết hợp (X → Y) được nói là có độ tin cậy c trong D nếu có c% của

các tác vụ chứa X cũng chứa Y

Kí hiệu:

SuppX là độ hỗ trợ của X , Supp(X) = || t∈ D sao cho X ⊂ t|| / ||D||

Conf(X→ Y) là độ tin cậy của luật X→ Y, Conf(X → Y)

=Supp(X∪Y)/Supp(X)

Trang 32

Luật (X → Y) có độ hỗ trợ Supp(X → Y) trong D với

Supp(X→Y)=Supp(X∪Y)

Bảng 4: Cơ sở dữ liệu tác vụ và được biểu diển dưới dạng bảng

minSupp, ở đây minSupp là giá trị nào đó do người sử dụng đưa vào và được gọi là độ hỗ trợ cực tiểu

Trang 33

Định nghĩa độ tin cậy: Luật kết hợp r = X → Y được gọi là luật tin cậy hay luật mong muốn khi và chỉ khi Supp(r) ≥ minSupp và Conf(r) ≥ minConf, ở đây minSupp và minConf là ngưỡng cho trước của các độ hỗ trợ và độ tin cậy và tương ứng được gọi là độ hỗ trợ cực tiểu và độ tin cậy cực tiểu

Luật kết hợp tin cậy r = X → Y được gọi là luật chính xác nếu Conf(r) =

1 và được gọi là xấp xỉ nếu Conf(r) < 1

tin cậy β, qui ước viết gọn dưới dạng X → Y (α; β) có nghĩa là đối với cơ sở

dữ liệu đã cho có α% các tác vụ chứa cả hai tập mục dữ liệu X, Y; trong đó

có β% các tác vụ chứa tập mục dữ liệu X cũng sẽ chứa tập mục dữ liệu Y

Ví dụ: Xét luật AW→C trong ví dụ 2 thì tập mục dữ liệu ACW có độ hỗ trợ là

67% và luật này có độ tin cậy là 100% nên có thể viết luật này dưới dạng AW→C(0,67;1,0)

Trong lĩnh vực bán hàng có thể diễn giải như sau:

- Có 67% những vụ mua sắm mua cả 3 mặt hàng A, C, W

- 100% những vụ mua sắm có mua A, W cũng mua C

Việc tìm ra các luật kết hợp kiểu như vậy sẽ tăng cường các chức năng truy vấn cơ sở dữ liệu và kết xuất thông tin, tri thức từ dữ liệu, chẳng hạn:

• Nhận diện được tất cả các luật có chứa mặt hàng C như là hệ quả Các luật này giúp cửa hàng xây dựng nội dung và thực hiện kế hoạch quảng cáo cho việc bán mặt hàng C

• Nhận diện được tất cả các luật có các mặt hàng A, W ở trong tiền đề Các luật này giúp xác định được những mặt hàng nào sẽ bị ảnh hưởng và tồn đọng khi cửa hàng ngừng không bán các mặt hàng A, W

Trang 34

• Nhận được tất cả các luật có A, W trong phần tiền đề, C nằm trong phần

hệ quả Các luật này giúp cửa hàng xác định được những mặt hàng cần bổ sung thêm để nó cùng được bán với các mặt hàng A, W trong khi vẫn tôn trọng mong muốn là mặt hàng C cũng sẽ được bán

Nhận được tất cả các luật liên quan đến các mặt hàng bố trí ở mỗi gian hàng trong cửa hàng Các luật này giúp bố trí sắp xếp cửa hàng sao cho việc bán các mặt hàng trong gian này tác dụng thúc đẩy việc bán các mặt hàng trong gian kia

2.2 Phát hiện luật kết hợp nhiều chiều

2.2.1 Các khái niệm cơ bản

a CSDL tác vụ nhiều chiều

Trong phát hiện luật kết hợp truyền thống, CSDL được sử dụng để phát hiện được tổ chức thành một tập các bản ghi dựa vào mối quan hệ giữa các tập mục dữ liệu trong một tác vụ [6],[20] Do đó, chỉ xem xét được các tập mục dữ liệu mà bỏ qua các thuộc tính khác được kết hợp với các tác vụ như: thời gian, điạ điểm, các khách hàng Trong khi, các thuộc tính, các ngữ cảnh của các tác vụ cũng cần phải được quan tâm Trong bảng 5, là ví dụ minh hoạ

một CSDL tác vụ về các mặt hàng tại các siêu thị (ID- chỉ số tác vụ xảy ra; X,Y là các chiều đựoc thể hiện bằng các trục toạ độ; các mục dữ liệu) Mỗi

bản ghi chứa một danh sách các tập mục dữ liệu a, b, c, d thể hiện cho các mặt hàng và các vị trí toạ độ x, y của các mục dữ liệu thể hiện cho các chiều như: thời gian, vị trí

Trang 36

Trong phát hiện luật kết hợp nhiều chiều, một tác vụ được định nghĩa gồm hai phần thông tin: danh sách các tập mục dữ liệu và ngữ cảnh xem xét các tác vụ

[9,12] Ở đây, các tập mục dữ liệu trong cơ sở dữ liệu tác vụ nhiều chiều có

thể là các mặt hàng trong một siêu thị hoặc tên các của hàng đại lý của một

hãng kinh doanh… Ngữ cảnh xem xét thường được định nghĩa bởi m thuộc

tính: d1, d2,…, dm mà mỗi thuộc tính thể hiện cho một chiều Các thuộc tính chiều có thể là: thời gian, khoảng cách, nhiệt độ, vị trí… Trong CSDL ở trên,

ta có hai thuộc tính chiều là x và y thể hiện thời gian là ngày mua bán và vị

trí

CSDL nhiều chiều sẽ được định nghĩa như sau:

Kí hiệu: Ι={i1 i2, ,iω } là tập hợp các mục dữ liệu

}D, ,D,

=

D là tập hợp các chiều của thuộc tính

Khi đó, CSDL nhiều chiều là tập các tác vụ T = {t 1 , t 2 , …, t n }, với mỗi tác vụ

Trang 38

Nhận xét: một mục dữ liệu mở rộng hoàn toàn xác định được một điểm trong

không gian m chiều

2, 2,2 2,1 m

1, 1,2

Hai điểm ni và nj là trùng nhau nếu và chỉ nếu: ∀k(1 ≤ k ≤ m), (ni.dk = nj.dk)

Ta có khoảng cách giữa 2 điểm ni và nj là:

)

, ,

.,

(),(n i n j = n j d1 −n i d1 n j d2 −n i d2 n j d m −n i d m

Κ

Như vậy, nếu ta có điểm ni thì hoàn toàn xác định được giá trị toạ độ của nó trong không gian m chiều là n i.d1,n i.d2, ,n i.d m, và nó có thể được biểu diễn như một khoảng cách tương đối khi tham chiếu đến điểm n0 là: K(n0,ni) (với n0=(0,0,…,0))

Trang 39

g Điểm tham chiếu lớn nhất

Cho N = {n1, n2, , nu} là tập các điểm trong không gian m-chiều Điểm tham chiếu lớn nhất của N là nθ thoả mãn với ∀k (1 ≤ k ≤ m)

)., ,

,.min(

.d k n1 d k n2 d k n u d k

nθ =

Ví dụ, Cho 2 điểm n1= (0,2), n2=(1,1) trong không gian 2 chiều, điểm tham chiếu lớn nhất của (n1, n2) là nθ = (0,1) Vì nθ.d1= min(n1.d1, n2.d1) = min(0,1)=0 và nθ.d2=min(n1.d2, n2 d2) = min(2,1)=1

Như vậy, trong không gian m - chiều ta hoàn toàn xác định được điểm ni khi biết K(n i.a1 −nθ.a1,n i.a2 −nθ.a2, ,n i.a m −nθ.a m), ở đây nθ là tham chiếu nào đó được xác định trước

h Tập mục dữ liệu mở rộng chuẩn

Một tập mục dữ liệu mở rộng được gọi là tập mục dữ liệu mở rộng chuẩn nếu điểm tham chiếu của tập mục dữ liệu mở rộng trong Ie là điểm tham chiếu lớn nhất, và với ∀j (1 ≤ j ≤ k), ∀i (1 ≤ i ≤ m) (min(dj, i) = 0)

Kí hiệu: INE là tập mục dữ liệu mở rộng chuẩn

Ví dụ, trong hình 11, ta có I ={∆ e (0, 0) (a), ∆(0,1)(c), ∆(1,1) (d)}là tập mục dữ liệu

mở rộng chuẩn vì mục dữ liệu mở rộng thứ nhất ∆(0, 0) (a) có d1,1=0, d1,2=0, mục dữ liệu mở rộng thứ hai ∆(0,1)(c) có d2,1=0, d2,2=1, tập mục dữ liệu mở rộng thứ ba ∆(1,1) (d) có d3,1=1, d3,2=1 Do đó, min(d1,1 , d2,1 ,

d3,1)=min(0,0,1)=0 và min(d1,2 ,d2,2, d3,2)= min(0,1,1)=0 có nghĩa là giá trị toạ

độ nhỏ nhất của 3 mục dữ liệu a, c, d trong 2 chiều x và y trong I là 0 e

i Tập tác vụ mở rộng chuẩn

Tập các tác vụ mở rộng là tập tác vụ mở rộng chuẩn nếu tất cả các tập mục

dữ liệu mở rộng trong tác vụ là tập mục dữ liệu mở rộng chuẩn

Trang 40

Kí hiệu: TNE: là tập tác vụ mở rộng chuẩn

Ví dụ: T1={U(0,0)(t1),U(0,1)(t6),U(1,1)(t7)}là tập tác vụ mở rộng chuẩn vì có chứa các tập mục dữ liệu mở rộng chuẩn như: I ={∆ e (0, 0) (a), ∆(0,1)(c), ∆(1,1) (d)}

Nhận xét:

- Bất kỳ tập mục dữ liệu không chuẩn nào đều có thể được chuyển thành một tập mục dữ liệu chuẩn thông qua một hàm chuẩn được gọi là Norm với mục đích là để chứa tất cả các tập mục dữ liệu mở rộng hoặc tác vụ mở rộng phức tạp dựa vào điểm tham chiếu lớn nhất của tập mục dữ liệu này

Ví dụ: ta có tập I ={∆ e' (0,2)(a), ∆(0,3) (c), ∆(1,3) (d)} là tập mục dữ liệu không chuẩn vì giá trị nhỏ nhất của y trong I là 2 Ta có thể chuẩn hoá tập mục dữ e'

liệu I e' thành I e"={∆(0, 0) (a), ∆(0,1)(c), ∆(1,1) (d)}, nó giống với Ie bằng cách tịnh tiến các điểm theo toạ độ (0,2)

- Tập mục dữ liệu mở rộng chuẩn dùng để tìm ra các mẫu giống nhau trong một không gian đa chiều

Tính chất 1: Bất kỳ một tập lớn hơn tập mục dữ liệu mở rộng chuẩn (tập tác

vụ mở rộng chuẩn) cũng là một tập mục dữ liệu mở rộng chuẩn (tập tác vụ chuẩn)

Chứng minh:

Giả sử INE là tập mục dữ liệu chuẩn tức là: Ie có điểm tham chiếu lớn nhất Dựa vào định nghĩa:

)}(i), ,

(i),

(i{ (d ,d , ,d ) 1 (d ,d , ,d ) 2 (d ,d , ,d ) k

m k, k,2 k,1 m

2, 2,2 2,1 m

1, 1,2

Định dạng
Số trang	104
Dung lượng	1,63 MB