Ứng dụng cách tiếp cận kho dữ liệu trong hệ thống quản lý học vụ

Các tác giả đóng góp 3 phần lớn: Các tác giả thiết lập các hướng dẫn để trả lời câu hỏi của thuộc tính nào ở mức chiều hoặc thuộc tính riêng; Các tác giả đề nghị hình thức đồ họa cho thi

Trang 1

LỜI CẢM ƠN

Để có được ngày hôm nay, ngày hoàn thành luận văn tốt nghiệp này, bên cạnh sự nổ lực của bản thân, em còn nhận được sự giúp đỡ và hổ trợ quý báu của rất nhiều người

Con xin ghi tạc công lao sinh thành, dưỡng dục trời bể của cha mẹ

Em vô cùng biết ơn quý Thầy Cô đã hết lòng truyền đạt cho em những kiến thức, cũng như những kinh nghiệm của Thầy Cô

Em xin chân thành cám ơn các Thầy hướng dẫn Tiến Sĩ Dương Tuấn Anh và Thầy Thạc Sĩ Nguyễn Trung Trực Các Thầy đã tận tình chỉ bảo em trong suốt quá trình học tập, làm Đề Cương và làm Luận Văn Tốt Nghiệp, các Thầy đã giúp em hoàn thành Luận Văn Tốt Nghiệp

Em xin chân thành cám ơn các anh chị và các Thầy Cô thuộc Phòng Quản lý Sau đại học, Khoa Công Nghệ Thông Tin đã giúp đỡ em trong suốt quá trình học tập tại trường Cũng như tất cả các anh chị và các bạn đã cùng trao đổi, giúp đỡ

em trên con đường học vấn

Thành phố Hồ Chí Minh, tháng 8 năm 2003

Sinh viên Cao Học khóa 11

Võ Thị Ngọc Trân

Trang 2

MỤC LỤC

LỜI CẢM ƠN i

MỤC LỤC ii

DANH MỤC CÁC BẢNG iv

DANH MỤC CÁC HÌNH VẼ v

TÓM TẮT vii

ABSTRACT viii

CHƯƠNG 1 GIỚI THIỆU 1

1.1 TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN CỦA ĐỀ TÀI 1

1.2 PHẠM VI, ĐỘNG CƠ THÚC ĐẨY VÀ MỤC TIÊU 1

1.3 NHỮNG ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN 2

1.4 SƠ LƯỢC CẤU TRÚC LUẬN VĂN 3

CHƯƠNG 2 CÁC CÔNG TRÌNH LIÊN QUAN 5

2.1 GIỚI THIỆU 5

2.2 CÁC CÔNG TRÌNH LIÊN QUAN 5

2.3 SO SÁNH CÁC CÔNG TRÌNH 13

2.4 KẾT LUẬN 15

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT VỀ KHO DỮ LIỆU 16

3.2 TỔNG QUAN VỀ KHO DỮ LIỆU 16

3.3 THIẾT KẾ Ý NIỆM KHO DỮ LIỆU 26

3.4 THIẾT KẾ LUẬN LÝ KHO DỮ LIỆU 32

3.5 THIẾT KẾ VẬT LÝ KHO DỮ LIỆU 40

3.6 KẾT LUẬN 49

CHƯƠNG 4 ỨNG DỤNG CÁCH TIẾP CẬN KHO DỮ LIỆU CHO HỆ THỐNG QUẢN LÝ HỌC VỤ 50

4.2 MÔ TẢ VÀ PHÂN TÍCH ỨNG DỤNG 51

4.3 THIẾT KẾ Ý NIỆM KHO DỮ LIỆU 56

4.4 THIẾT KẾ ỨNG DỤNG 61

Trang 3

4.5 HIỆN THỰC ỨNG DỤNG 68

4.6 KẾT LUẬN 95

CHƯƠNG 5 KẾT LUẬN 97

5.1 ĐÁNH GIÁ VÀ KẾT LUẬN 97

5.2 HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 98

TÀI LIỆU THAM KHẢO 100 PHỤ LỤC A CÔNG CỤ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN A-1

A.1 GIỚI THIỆU A-1 A.2 CÁC TIÊU CHUẨN CHUNG CỦA OLAP A-1 A.3 OLAP CỦA MICROSOFT SQL SERVER A-7 A.4 SO SÁNH GIỮA OLAP CỦA MICROSOFT VÀ ORACLE A-12 A.5 KẾT LUẬN A-16

PHỤ LỤC B CÁC CÔNG CỤ XÂY DỰNG KHO DỮ LIỆU B-1

B.1 GIỚI THIỆU B-1

B.2 DỊCH VỤ CHUYỂN DẠNG DỮ LIỆU (Data Transformation Service, DTS) B-1 B.3 CÁC DỊCH VỤ PHÂN TÍCH (Analysis Services) B-20

B.4 KẾT LUẬN B-27

PHỤ LỤC C CÁCH CÀI ĐẶT CHƯƠNG TRÌNH C-1

C.1 CÁCH CÀI ĐẶT PHẦN MỀM C-1 C.2 CÁCH THIẾT LẬP CẤU HÌNH CHO CHƯƠNG TRÌNH C-1

PHỤ LỤC D CÁC MÀN HÌNH GIAO DIỆN D-1 PHỤ LỤC E BẢNG THUẬT NGỮ VIỆT ANH ĐỐI CHIẾU E-1

Trang 4

DANH MỤC CÁC BẢNG

Bảng 2.1: Phân loại các mức hạn chế 7

Bảng 2.2: So sánh các công trình về mô hình ý niệm kho dữ liệu 15

Bảng 3.1: Các đặc tính của kho dữ liệu 18

Bảng 3.2: So sánh OLTP và kho dữ liệu 19

Bảng 3.3: So sánh kho dữ liệu và trung tâm dữ liệu 21

Bảng 3.4: Các phụ thuộc hàm giữa các mức chiều kết thúc và các độ đo 27

Bảng 3.5: Phân loại các mức hạn chế 30

Bảng 3.6: Bảng tóm tắt lược đồ sự kiện Các sự kiện Tài Khoản 31

Bảng 3.7: Các kỹ thuật khai phá dữ liệu 43

Bảng 4.1: Bảng các phụ thuộc hàm giữa mức chiều kết thúc và độ đo 57

Bảng 4.2: Bảng tóm tắt các lược đồ ý niệm kho dữ liệu 60

Bảng 4.3: Các bảng dùng để quản lý tiến trình nạp dữ liệu 73

Bảng 4.4: Các bảng trong lược đồ phân quyền người sử dụng trong chủ thể 90

Bảng 4.5: Các bảng trong lược đồ quản lý phần truy vấn có tham số 92 Bảng A.1: So sánh OLAP và OLTP A-2 Bảng A.2: 12 luật của Codd về OLAP A-3 Bảng A.3: Tóm tắt các loại phân tích của nhà phân tích A-4 Bảng A.4: So sánh sự khác nhau giữa MOLAP và ROLAP A-7 Bảng A.5: Sự giống nhau giữa OLAP của Microsoft và Oracle A-13 Bảng A.6: Sự khác nhau giữa OLAP của Microsoft và Oracle A-15 Bảng B.1: Các task sao chép và quản lý dữ liệu .B-12 Bảng B.2: Các task chuyển dạng dữ liệu .B-12 Bảng B.3: Các task thực thi các công việc B-13 Bảng B.4: Các thông số sử dụng cho lệnh dtsrun.exe B-18

Trang 5

DANH MỤC CÁC HÌNH VẼ

Hình 3.1: Kiến trúc kho dữ liệu 2 mức tổng quát 19

Hình 3.2: Kiến trúc kho dữ liệu 3 lớp 20

Hình 3.3: Kiến trúc dữ liệu 3 lớp 23

Hình 3.4: Kiến trúc kho dữ liệu 3 lớp theo khía cạnh dòng dữ liệu 25

Hình 3.5: Phần thu nhận dữ liệu hình thành mặt sau của kho dữ liệu 25

Hình 3.6: Tổ chức dữ liệu trong kho dữ liệu 26

Hình 3.7: Mặt trước của kho dữ liệu 26

Hình 3.8: Một phần của lược đồ ý niệm về các sự kiện tài khoản 28

Hình 3.9: Các phân cấp chiều ở dạng đồ họa 29

Hình 3.10: Lược đồ ý niệm Các sự kiện Tài Khoản 31

Hình 3.11: Lược đồ minh họa cho lược đồ hình sao 33

Hình 3.12: Lược đồ minh họa cho lược đồ bông tuyết 35

Hình 3.13: Kiến trúc chi tiết kho dữ liệu 40

Hình 4.1: Sơ đồ ngữ cảnh của hệ thống hỗ trợ ra quyết định về học vụ 52

Hình 4.2: Sơ đồ DFD mức 0 của hệ thống hỗ trợ ra quyết định về học vụ 53

Hình 4.3: Sơ đồ DFD mức 1 của quá trình 1 Nạp dữ liệu vào kho 54

Hình 4.4: Sơ đồ DFD mức 1 của quá trình 2 Truy vấn dữ liệu 55

Hình 4.5: Phân cấp các chiều trong kho dữ liệu 57

Hình 4.6: Lược đồ ý niệm kho dữ liệu 59

Hình 4.7: Kiến trúc kho dữ liệu của hệ thống 61

Hình 4.8: Chiều phân cấp Truong_Khoa 63

Hình 4.9: Chiều và lược đồ phân cấp Truong_Khoa 63

Hình 4.10: Chiều và lược đồ phân cấp Truong_Khoa_BoMon 64

Hình 4.11: Chiều và lược đồ phân cấp Truong_Khoa_Lop 64

Hình 4.12: Chiều và lược đồ phân cấp Truong_Khoa_Lop_SinhVien 65

Hình 4.13: Chiều và lược đồ phân cấp Ten Hoc Ky 65

Hình 4.14: Chiều và lược đồ Ten Truong 66

Hình 4.15: Khối dữ liệu Thong tin ve Lop 66

Hình 4.16: Khối dữ liệu Thong tin ve Sinh Vien 67

Hình 4.17: Khối dữ liệu Thong tin ve TKB 68

Hình 4.18: Giải thuật nạp dữ liệu hiện hành vào kho dữ liệu 70

Hình 4.19: Minh họa việc thực thi các thủ tục khi nạp dữ liệu vào kho dữ liệu 71

Hình 4.20: Lược đồ quản lý tiến trình nạp dữ liệu vào kho dữ liệu 73

Hình 4.21: Tiến trình gắn cơ sở dữ liệu cũ vào kho dữ liệu 74

Hình 4.22: Tiến trình gỡ bỏ cơ sở dữ liệu cũ khỏi kho dữ liệu 75

Hình 4.23: Nạp dữ liệu vào kho dữ liệu 75

Hình 4.24: Xoay chiều dữ liệu 77

Hình 4.25: Duyệt chiều của khối dữ liệu 77

Hình 4.26: Đồ thị minh họa cho khối dữ liệu 78

Trang 6

Hình 4.28: Duyệt khai phá dữ liệu 80

Hình 4.29: Khai phá dữ liệu dạng số kết hợp với đồ thị truyền thống 81

Hình 4.30: Giải thuật tạo câu truy vấn động 83

Hình 4.31: Tiến trình truy vấn theo chế độ từng bước, thiết kế hay trực tiếp 84

Hình 4.32: Truy vấn động 85

Hình 4.33: Giải thuật xây dựng công cụ truy vấn bằng ngôn ngữ Việt 86

Hình 4.34: Tiến trình truy vấn bằng ngôn ngữ Việt 87

Hình 4.35: Truy vấn bằng ngôn ngữ Việt 88

Hình 4.36: Lược đồ phân quyền người sử dụng trong chủ thể 89

Hình 4.37: Lược đồ quản lý phần truy vấn có tham số 90

Hình 4.38: Tiến trình người sử dụng truy vấn các câu truy vấn có tham số 93

Hình 4.39: Truy vấn có tham số 95 Hình B.1: Tổng quan về kiến trúc DTS B-2 Hình B.2: Hộp hội thoại Connection Properties B-4 Hình B.3: Hộp hội thoại Package Properties cho package B-6 Hình B.4: Hộp hội thoại Package Properties cho DTS B-7 Hình B.5: Hộp hội thoại Select Wizard B-9

Hình B.6: Chọn nguồn dữ liệu (Data Source) cho DTS Export Wizard B-9

Hình B.7: DTS Designer B-10 Hình B.8: ActiveX Script task .B-14 Hình B.9: Hộp hội thoại Save DTS Package B-15 Hình B.10: Giao diện người sử dụng từ dtsrunui.exe .B-19 Hình B.11: Kiến trúc Analysis Services B-21 Hình B.12: Hộp hội thoại Usage-Based Optimization Wizard B-23

Trang 7

TÓM TẮT

Cho đến nay, công nghệ thông tin được khai thác nhằm ứng dụng nhiều vào các hệ thống xử lý giao dịch trực tuyến để hỗ trợ nghiệp vụ cho nhiều người sử dụng đầu cuối Tuy nhiên, ở những cấp quản lý càng cao của các hệ thống, công cụ và ứng dụng của công nghệ thông tin dường như chưa được quan tâm nhiều, trong khi đó, người quản lý cấp cao luôn cần số liệu thống kê tương đối chính xác và kịp thời Kho dữ liệu ra đời h ỗ trợ cho người quản lý cấp cao phân tích dữ liệu Kho dữ liệu tích hợp dữ liệu lại với khối lượng dữ liệu lớn và tổ chức dữ liệu theo dạng đa chiều Bên cạnh đó, kho dữ liệu có hỗ

trợ một số công cụ như công cụ xử lý phân tích trực tuyến (OLAP) giúp người sử dụng

xem và xoay chiều dữ liệu thống kê theo các chiều quan tâm; công cụ khai phá dữ liệu

(data mining) giúp tìm hiểu các nhóm dữ liệu tương đương và điều kiện chung của từng

nhóm hay các cây dữ liệu theo tỷ lệ tương ứng trên mỗi nhánh và từ đó, cho người sử dụng cái nhìn rõ hơn về dữ liệu trong kho dữ liệu

Luận văn này nhằm tìm hiểu kho dữ liệu và xây dựng ứng dụng là hệ thống quản lý học vụ của Đại Học Quốc Gia thành phố Hồ Chí Minh và các trường thành viên Các công cụ như OLAP, khai phá dữ liệu được khai thác tối đa, đồng thời những thiếu sót của OLAP trong việc truy xuất dữ liệu được khắc phục qua việc tạo công cụ truy vấn động, cải tiến phần thống kê dữ liệu của khai phá dữ liệu bằng thống kê dạng số và vẽ các dạng đồ thị minh họa Cũng tận dụng khả năng của công cụ OLAP, cơ sở dữ liệu quan hệ và công cụ truy vấn bằng tiếng Anh, phần truy vấn bằng ngôn ngữ Việt có khả năng tạo và thực thi các câu truy vấn ở dạng giao tiếp từng bước hoặc trực tiếp Với mỗi nhóm chủ thể người sử dụng, phần truy vấn có tham số tạo sẵn các câu hỏi thường sử dụng lại nhiều lần, các mẫu báo cáo, các mẫu đồ thị được thiết kế nhằm làm phong phú báo cáo cuối cùng và đa dạng quá trình phân tích dữ liệu của người sử dụng Ngoài ra, để tích hợp dữ liệu từ nhiều hệ thống khác nhau, kho dữ liệu cần có các quá trình lấy, chuyển dạng, nạp và làm tươi dữ liệu theo định thời Các quá trình này đã được xây dựng và quản lý nhờ vào siêu dữ liệu

Trang 8

ABSTRACT

So far, information techno logy has been employed in several online transaction processing systems in order to support end -users in their business However, for higher management levels in organizations, there doesn’t exist so very few tools and applications to support them to retrieve exact and real-time statistic data necessary for their decision-making process Data warehouse, as a new technology, has emerged recently to support top managers to analyze data Data warehouse integrates data sources from many different systems into a large amount of data and then organizes its data into multidimensional form Besides, data warehouse includes some proprietary tools, such as OLAP OLAP helps users view and rotate statistic data according to the dimensions of interest Besides, data mining tools also enable users to discover related data groups as well as common conditions of each group or data trees with a percentage rate for each branch of the trees Using these tools, end -users can obtain a complete view and a clearer understanding about data in the data warehouse

This thesis aims to study data warehouse technology and apply it into an academic information system for Vietnamese National University of Ho Chi Minh City and its three members Several tools such as OLAP and data mining have been employed One drawback of OLAP in querying data has been overcome by creating a dynamic query tool Some data mining tools have also been improved in order to be able to display statistic data in both numeric representation and illustrative chart Together with the capabilities of OLAP, relational database and English query engine, a query tool supporting Vietnamese language has also been developed This query tool can be used

to create and execute queries in two modes: (i) through a wizard and (ii) by entering a query in Vietnamese For users from different subject groups, a parametric query tool can provide in advance several commonly -used query patterns, reporting templates and well-defined charts that help to make final reports attractive and to diversify users’ data analysis process Moreover, integrating data from many different systems requires

a few of processes such as extracting, transforming, loading and refreshing in schedule The processes were implemented and managed through metadata

Trang 9

CHƯƠNG 1 GIỚI THIỆU

GIỚI THIỆU

1.1 TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN CỦA ĐỀ TÀI

Trong nhiều thập niên qua, có rất nhiều cách tiếp cận cơ sở dữ liệu khác nhau Các tiếp cận này ngày một cải tiến dần để phù hợp với thực tế và đáp ứng nhu cầu lưu trữ và sử dụng dữ liệu Từ các tiếp cận hướng tập tin, phân cấp, mạng đến cơ sở dữ liệu quan hệ, các hệ thống phân bố, hướng đối tượng và quan hệ hướng đối tượng, kho dữ liệu cũng ra đời từ đó

Vào những năm 1970, E.F.Codd và một số người khác đã phát triển cơ sở dữ liệu quan hệ Với mô hình quan hệ, tất cả các dữ liệu đều được trình bày ở dạng bảng Cũng

từ đó, ngôn ngữ truy vấn có cấu trúc (SQL) phát triển theo, nhằm để lấy dữ liệu từ các

bảng trong cơ sở dữ liệu quan hệ Tuy nhiên, cơ sở dữ liệu quan hệ chỉ hạn chế việc lưu trữ và trình bày dữ liệu ở dạng hai chiều Còn trong thực tế, có những vấn đề không chỉ nhìn dưới dạng hai chiều mà có thể có nhiều hơn hai chiều Từ đó, cơ sở dữ liệu đa chiều ra đời vào những năm 1990 Đồng thời công cụ OLAP cũng ra đời để truy xuất dữ liệu đa chiều E.F.Codd cũng là người đầu tiên giới thiệu OLAP vào năm 1993 Từ cơ sở dữ liệu đa chiều, công cụ OLAP và những nhu cầu thực tế như tích hợp dữ liệu từ nhiều nguồn dữ liệu có liên quan với nhau lại thành một nguồn dữ liệu thống nhất, trong khi đó những nguồn dữ liệu có liên quan ở những hệ thống hiện hành vẫn hoạt động bình thường với những chức năng của nó, và nhiều nhu cầu khác nữa, kho dữ liệu đã ra đời

Vì kho dữ liệu mới ra đời gần đây, vẫn còn tính mở nên có rất nhiều người định nghĩa kho dữ liệu khác nhau tùy vào cách định nghĩa kho dữ liệu theo cấu trúc, theo chức năng hay theo mục đích của kho dữ liệu Mặc dù cách định nghĩa và quan niệm về kho dữ liệu có khác nhau, nhưng bản thân kho dữ liệu vẫn có những chức năng và đặc điểm nhằm giải quyết những vấn đề thực tế đặt ra và giúp cho người sử dụng dễ dàng hơn khi sử dụng dữ liệu trong kho dữ liệu

1.2 PHẠM VI, ĐỘNG CƠ THÚC ĐẨY VÀ MỤC TIÊU

Ngày nay, với sự ph át triển nhanh của khoa học kỹ thuật, kinh tế và nhiều lĩnh vực khác, dữ liệu ngoài việc sử dụng để lưu trữ một vấn đề, dữ liệu còn tiềm ẩn bên trong những thông tin nào đó Nếu chúng ta sử dụng tốt những thông tin này, chúng ta sẽ có được những quyết định có tính khả thi cao, đúng lúc và phù hợp với xu hướng trong tương lai Nhưng trong thực tế, có nhiều vấn đề đặt ra, chẳng hạn như dữ liệu càng ngày càng nhiều hơn, dữ liệu không còn sử dụng trong các hệ thống hiện hành, dữ liệu ở nhiều nơi trên các hệ thống khác nhau, dữ liệu được xây dựng từ nhiều nhóm người khác

Trang 10

dữ liệu đó Từ những vấn đề thực tế đó, cách tiếp cận kho dữ liệu đã ra đời Tuy nhiên, việc xây dựng kho dữ liệu rất khác nhau tùy thuộc vào những lựa chọn về phần cứng, phần mềm cũng như nghiệp vụ

Mục đích của luận văn này là tìm hiểu lý thuyết về kho dữ liệu và ứng dụng nó trong hệ quản lý học vụ Kho dữ liệu có thể tích hợp dữ liệu không đồng nhất từ nhiều hệ thống có liên quan với nhau thành một hệ thống thống nhất Dữ liệu được đưa về một dạng chung nhất nhờ vào các quá trình như lấy dữ liệu, chuyển dạng dữ liệu, nạp dữ liệu và làm tươi dữ liệu theo thời gian định sẵn và theo chu kỳ Ngoài ra, dữ liệu còn được tổ chức thành dạng đa chiều, nhằm làm tiện lợi hơn cho người sử dụng khi phân tích dữ liệu trên chiều dữ liệu mà người sử dụng quan tâm

Trong hệ quản lý học vụ, để có một thông tin tổng quát, một cái nhìn toàn diện về một chủ đề gì đó, chẳng hạn như các trường muốn cùng nhau tổ chức một buổi học thực tế ở các phân xưởng bên ngoài trường và phân chia sinh viên ở các khu vực trong các phân xưởng sao cho hợp lý, các trường cần nắm một số thông tin về sinh viên, cụ thể là Đại Học Quốc Gia thành phố Hồ Chí Minh và các trường thành viên có bao nhiêu sinh viên, trường nào có nhiều sinh viên nhất, trường nào có ít sinh viên nhất, … Những câu hỏi tổng quát như thế không thể nào giải quyết trên từng hệ thống đơn lẻ của từng trường được Do đó, việc xây dựng kho dữ liệu dùng để quản lý học vụ cho Đại Học Quốc Gia và các trường thành viên, cùng một số công cụ phân tích dữ liệu là cần thiết Lúc đó, bên cạnh việc kho dữ liệu giải quyết được những vấn đề đã nêu, các hệ thống của các trường không phải sửa lại hay xây dựng lại, các hệ thống cũ đó vẫn hoạt động bình thường với những chức năng của nó Riêng đối với kho dữ liệu, cần nạp dữ liệu vào kho theo thời gian định sẵn hoặc theo yêu cầu của người sử dụng

1.3 NHỮNG ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN

Sau đây là những đóng góp chính của luận văn đối với đề tài này:

? Luận văn tìm hiểu các mô hình ý niệm cho kho dữ liệu mới xuất hiện trong những năm gần đây, sau đó áp dụng mô hình ý niệm thích hợp cho kho dữ liệu, và xây dựng kho dữ liệu cho hệ quản lý học vụ như vùng chuẩn bị dữ liệu, cơ sở dữ liệu quan hệ, và cơ sở dữ liệu đa chiều

? Để cập nhật dữ liệu trong kho dữ liệu theo yêu cầu của người sử dụng, luận văn xây dựng công cụ nạp dữ liệu vào kho có sử dụng siêu dữ liệu

? Mặc dù, công cụ OLA P có khả năng lấy dữ liệu đa chiều trong kho, nhưng OLAP không có khả năng lấy bất kỳ dữ liệu chi tiết như SQL Vì thế, luận văn xây dựng thêm công cụ truy vấn động để người sử dụng có thể lấy bất kỳ dữ liệu nào tùy theo yêu cầu

Trang 11

? Cũng tận dụng khả năng của OLAP, cơ sở dữ liệu quan hệ, và công cụ truy vấn bằng tiếng Anh, luận văn có tạo công cụ truy vấn bằng tiếng Việt Công cụ này nhận trực tiếp những câu truy vấn ở dạng tiếng Việt không dấu hoặc ở chế độ giao tiếp từng bước

? Một công cụ thường đi chung với OLAP là khai phá dữ liệu (data mining) Nhưng

khai phá dữ liệu trình bày dạng giao diện mới rất khó nhìn cho người sử dụng Luận văn cũng khắc phục vấn đề này bằng cách tạo dạng trình bày dữ liệu là số và số kết hợp với đồ thị minh họa, đồng thời cũng thêm trang trợ giúp cho người sử dụng

? Luận văn cũng tạo công cụ truy vấn có tham số Công cụ này có mục đích tạo sẵn những câu truy vấn thường được sử dụng lại nhiều lần Đồng thời, luận văn xây dựng thêm các mẫu báo cáo có thể định dạng lại và các loại đồ thị để làm phong phú cho các báo cáo cuối cùng

Luận văn xây dựng và quản lý tất cả các công cụ này dựa vào siêu dữ liệu Luận văn cũng hiện thực tất cả các công cụ này trong môi trường web theo mô hình chủ/khách , nhằm phục vụ cho nhiều người sử dụng khác nhau

1.4 SƠ LƯỢC CẤU TRÚC LUẬN VĂN

Bản thuyết minh luận văn này gồm 5 chương:

Chương 1 Giới thiệu Chương này trình bày hiện trạng thực tế và những lý do thực hiện luận văn này, từ đó nhận ra những vấn đề cần thiết nào đặt ra cho luận văn

Chương 2 Các công trình liên quan Chương này trình bày những vấn đề mà những tác giả đang nghiên cứu hiện nay có liên quan đến luận văn, hoặc có sử dụng trong phần hiện thực chương trình ứng dụng

Chương 3 Cơ sở lý thuyết về kho dữ liệu Chương này trình bày cơ sở lý thuyết về kho dữ liệu từ các khái niệm cơ bản đến phân tích và thiết kế luận lý cũng như vật lý kho dữ liệu

Chương 4 Ứng dụng cách tiếp cận kho dữ liệu cho hệ thống quản lý học vụ Chương này trình bày các mô tả và phân tích hệ thống, thiết kế kho dữ liệu cho hệ quản lý học vụ, và cuối cùng là xây dựng siêu dữ liệu, giải thuật và hiện thực các công cụ cần thiết cho ứng dụng

Chương 5 Kết luận Chương này nhằm đưa ra những kết quả hiện thực được, đánh giá những kết quả đó, và hướng phát triển thêm về sau cho từng kết quả đó

Ngoài ra, bản thuyết minh luận văn có thêm một số phụ lục nhằm giới thiệu chi tiết

Trang 12

thực chương trình ứng dụng, cũng như hướng dẫn sử dụng, cài đặt chương trình đính kèm trên client và trên server, kế đến là các màn hình giao diện minh họa của chương trình, cuối cùng là bảng thuật ngữ Việt Anh đối chiếu

Phụ lục A Công cụ xử lý phân tích trực tuyến

Phụ lục B Các công cụ xây dựng kho dữ liệu

Phụ lục C Cách cài đặt chương trình

Phụ lục D Các màn hình giao diện

Phụ lục E Bảng thuật ngữ Việt Anh đối chiếu

Trang 13

CHƯƠNG 2 CÁC CÔNG TRÌNH LIÊN QUAN

CÁC CÔNG TRÌNH LIÊN QUAN

2.1 GIỚI THIỆU

Cho đến nay, việc thiết kế kho dữ liệu tập trung vào việc to å chức dữ liệu vật lý

(nghĩa là, cấu trúc “bên trong”), vì khối lượng dữ liệu lớn và độ phức tạp của dữ liệu

nhiều

Vài năm trở lại đây, giới nghiên cứu về kho dữ liệu bắt đầu quan tâm đến bước thiết kế ý niệm, tức là bước mô hình ngữ nghĩa Bước này nhằm giao tiếp giữa người thiết kế và người sử dụng, độc lập với vấn đề hiện thực, sớm dò ra các lỗi mô hình, tinh chế tải làm việc và phê chuẩn lược đồ Do đó, luận văn sẽ tìm hiểu một số mô hình ý niệm mới trong phần 2.2 và so sánh các mô hình này trong phần 2.3

Chương này gồm 4 phần chính:

Phần 2.1: Giới thiệu sơ lược nội dung và cấu trúc của chương

Phần 2.2: Các công trình liên quan Phần này trình bày tổng quan về các mô hình ý niệm kho dữ liệu, vì mô hình ý niệm là những nét mới và được nhiều tác giả quan tâm trong những năm gần đây

Phần 2.3: So sánh các công trình liên quan Phần này so sánh các mô hình ý niệm kho dữ liệu, để thấy được điểm mạnh, điểm yếu của các mô hình ý niệm

Phần 2.4: Kết luận

Chương này sử dụng tài liệu tham khảo [1 7], [18], [19], [20] và [21]

2.2 CÁC CÔNG TRÌNH LIÊN QUAN

1 Công trình của Bodo Hüsemann, Jens Lechtenb ưrger, Gottfried Vossen; 2000; trong bài báo “Thiết kế ý niệm kho dữ liệu” (Theo [20]):

Các tác giả đề ra hai yếu tố cần thiết để thiết kế lược đồ kho dữ liệu ở dạng chuẩn

đa chiều tổng quát là:

? Thực tế hiện tại trong kho dữ liệu và các ứng dụng đánh dấu một sự khởi đầu cơ bản từ các nguyên tắc thiết kế lược đồ ở dạng chuẩn hóa

? Không chú ý nhiều đến:

+ Sự phát triển đầy đủ các phương pháp thiết kế kho dữ liệu tổng quát hoặc

Trang 14

+ Sự thiết lập các hướng dẫn cho thiết kế lược đồ tốt hoặc các ràng buộc toàn vẹn trong ngữ cảnh của các mô hình đa chiều

Các tác giả chia quá trình thiết kế kho dữ liệu ý niệm thành ba bước:

? Bước 1: Định nghĩa ngữ cảnh của các độ đo

+ Xác định các phụ thuộc hàm từ các mức của chiều vào các độ đo: bằng cách xác định các khóa tối thiểu cho mỗi độ đo, và định nghĩa phụ thuộc hàm từ khóa tối thie åu đó vào độ đo, các khóa này hình thành nên các mức chiều kết

thúc, và là gốc của các phân cấp trong chiều (với Mỗi chiều phân cấp chỉ có

một mức chiều kết thúc) Nếu các độ đo có cùng một nhóm chiều giống nhau,

thì gom vào cùng một lược đồ sự kiện

+ Thiết kế ý niệm đồ họa bằng cách mô hình lược đồ sự kiện phụ thuộc vào các mức chiều kết thúc

? Bước 2: Thiết kế phân cấp của chiều

+ Xác định tất cả các phụ thuộc hàm giữa các mức của chiều với một chiều có mức chiều kết thúc

o Phân biệt các thuộc tính riêng và các mức chiều theo các yêu cầu lúc

phân tích (Thuộc tính riêng là thuộc tính dùng để chọn lựa dữ liệu, nhưng

không dùng để tích hợp dữ liệu)

o Xác định các phân cấp chiều bằng cách xây dựng đồ thị với các nút là các mức của chiều

o Thêm các thuộc tính riêng vào các mức chiều ở dạng đồ họa

o Xác định các chiều ở dạng lựa chọn hay tùy chọn (là tùy chọn, nếu có

nhiều phân cấp trong một chiều) Vì một chiều có thể có nhiều phân cấp

khác nhau, các phân cấp này tạo cho chiều có tính đầy đủ và các phân cấp cũng không được giao nhau

+ Suy dẫn phân cấp chiều dạng đồ họa

? Bước 3: Định nghĩa các ràng buộc khi tổng hợp dữ liệu

+ Lược đồ kho dữ liệu nên biểu diễn tường minh là tích hợp độ đo nào theo chiều nào bằng hàm tích hợp nào Do đó, các tác giả cũng đề ra bốn mức hạn chế tăng dần của độ đo trong các mức chiều như sau:

Trang 15

Mức hạn chế Các hàm tích hợp dữ liệu có thể áp dụng được

1 {SUM, AVG, MIN, MAX, STDDEV, VAR, COUNT}

2 {AVG, MIN, MAX, STDDEV, VAR, COUNT}

3 {COUNT}

4 {}

Bảng 2.1: Phân loại các mức hạn chế

+ Định nghĩa các mức hạn chế cho tất cả các độ đo theo các đường tích hợp dữ liệu khác nhau trong mỗi lược đồ sự kiện bằng đồ họa

Tóm lại, các tác giả trình bày cách thức lấy lược đồ kho dữ liệu từ lược đồ cơ sở dữ liệu tác vụ ở mức ý niệm Các tác giả đóng góp 3 phần lớn: Các tác giả thiết lập các hướng dẫn để trả lời câu hỏi của thuộc tính nào ở mức chiều hoặc thuộc tính riêng; Các tác giả đề nghị hình thức đồ họa cho thiết kế ý niệm; Các tác giả cũng trình bày tạo

dạng chuẩn đa chiều tổng quát khi thiết kế ý niệm lược đồ kho dữ liệu

2 Công trình của Matteo Golfarelli, Dario Maio, Stefano Rizzi; 1998; trong bài báo

“Thiết kế ý niệm kho dữ liệu từ các lược đồ E/R“ (Theo [17]):

Theo các tác giả, bước tổ chức và tích hợp dữ liệu nhất quán trong kho dữ liệu là khác so với các kỹ thuật dùng trong các hệ thống tác vụ Bước này cũng giữ vai trò tối

ưu hóa hiệu suất của hệ thống bằng cách quản lý độ thưa của dữ liệu và tối ưu hóa truy xuất dữ liệu được kết hợp

Từ nhận xét trên, các tác giả đã đề nghị mô hình ý niệm dạng đồ họa dành cho kho

dữ liệu Đó là mô hình sự kiện chiều (DF, Dimensional Fact) Các tác giả cũng đề ra

phương pháp bán tự động để xây dựng mô hình từ các lược đồ quan hệ thực thể miêu tả

cơ sở dữ liệu tồn tại trước đó

Mô hình sự kiện chiều DF là một tập hợp các lược đồ sự kiện có cấu trúc cây, gồm các phần tử là các sự kiện, các thuộc tính, các chiều và các phân cấp Ngoài ra, có phần

thêm vào các thuộc tính sự kiện đi kèm các chiều (có 3 loại: thuộc tính sự kiện tăng

cường (additive) nếu các chiều được tính toán trên tất cả các phân cấp, thuộc tính sự kiện bán tăng cường (semi-additive) nếu thuộc tính đó không thêm vào một số chiều, thuộc tính sư ï kiện không tăng cường (non-additive) nếu thuộc tính đó không thêm vào bất kỳ chiều nào), khả năng lựa chọn của các thuộc tính chiều, và sự tồn tại của các thuộc tính

không chiều Các lược đồ sự kiện thích hợp có thể bị trùng lắp, để tạo quan hệ và so sánh dữ liệu Cũng có thể kết hợp các thông tin về tải làm việc được dự đoán trước vào các lược đồ sự kiện, nhằm thể hiện trong các mẫu truy vấn, để làm thông tin nhập cho giai đoạn thiết kế Kết quả của giai đoạn thiết kế là các lược đồ kho dữ liệu ở mức luận

Trang 16

Phương pháp luận để xây dựng mô hình DF từ các lược đồ quan hệ – mối liên kết E/R hiện có, phương pháp này gồm các bước:

? Định nghĩa các sự kiện: Lược đồ E/R trình bày sự kiện bởi thực thể hoặc bởi mối liên kết n ngôi giữa các thực thể Mỗi sự kiện trở thành gốc của một lược đồ sự kiện khác

? Với mỗi sự kiện:

+ Xây dựng cây thuộc tính: Cây thuộc tính là cây có:

o Mỗi đỉnh tương ứng với một thuộc tính của lược đồ

o Nút gốc tương ứng với danh định của sự kiện F

o Đối với mỗi đỉnh của v, một thuộc tính tương ứng sẽ xác định tất cả các thuộc tính tương ứng với các con cháu của v

+ Cắt bớt và ghép cây thuộc tính:

o Cắt bớt cây thuộc tính bằng cách bỏ đi bất kỳ nhánh con nào của cây Các thuộc tính bị bỏ sẽ không được đưa vào lược đồ sự kiện, do đó sẽ không được dùng để tích hợp dữ liệu

o Ghép cây thuộc tính khi các con cháu của một đỉnh được giữ lại, mặc dù các đỉnh giữ lại đó của cây thể hiện thông tin không cần thiết Ghép con của nút gốc tương ứng với việc làm giảm độ mịn các thể hiện của sự kiện, và nếu nút ghép có nhiều hơn một con, thì sẽ làm tăng số chiều trong lược đồ sự kiện

+ Định nghĩa các chiều: Chiều xác định cách thức tích hợp các thể hiện sự kiện có ý nghĩa cho quá trình ra quyết định Chọn các chiều từ cây thuộc tính giữa các đỉnh con của nút gốc (bao gồm các thuộc tính con của nút gốc này sau khi ghép cây thuộc tính); và tương ứng với các thuộc tính rời rạc hoặc là miền các thuộc tính liên tục hay rời rạc Sự lựa chọn này quyết định độ mịn của

các thể hiện sự kiện Chiều thời gian có hai loại: ảnh sao (snapshot) và phụ thuộc thời gian (temporal) Lược đồ ảnh sao miêu tả trạng thái hiện tại của

miền ứng dụng; các phiên bản mới của dữ liệu liên tục thay thế các phiên bản cũ của dữ liệu theo thời gian Lược đồ phụ thuộc thời gian miêu tả quá trình tiến hóa của miền ứng dụng qua phạm vi thời gian; thể hiện và lưu trữ tường minh các phiên bản cũ của dữ liệu

+ Định nghĩa các thuộc tính sự kiện: Các thuộc tính sự kiện là tổng các thể hiện của thực thể hoặc là các biểu thức tổng/trung bình/tối thiểu/tối đa liên quan đến các thuộc tính số của cây thuộc tính (không kể đến các thuộc tính được chọn làm chiều của lược đồ sự kiện) Một sự kiện có thể không có thuộc tính nếu thông tin được ghi nhận chỉ là thể hiện sự có mặt của sự kiện Các thuộc tính sự kiện được thể hiện trong các lược đồ sự kiện Bước này có thể tạo thêm bảng chú giải những gì sẽ kết hợp mỗi thuộc tính sự kiện với biểu thức

Trang 17

miêu tả cách tính toán các thuộc tính sự kiện của lược đồ quan hệ thực thể Trong trường hợp, sự kết hợp không cần thiết định nghĩa các thuộc tính sự kiện, vì có thể thực hiện nó ở mức lược đồ quan hệ của các nguồn dữ liệu tác vụ Trong trường hợp, các thể hiện của các thực thể tương ứng một-một với các thể hiện sự kiện, và có thể chuyển trực tiếp các thuộc tính thực thể thành các thuộc tính sự kiện

+ Định nghĩa các phân cấp : Với mỗi phân cấp trên chiều, sắp xếp các thuộc tính trên cây sao cho một nút và con cháu của nút đó có mối liên kết một-một hoặc nhiều-một Cây thuộc tính thể hiện một tổ chức hợp lý cho các phân cấp Ở bước này, cây thuộc tính vẫn có thể bị cắt bớt hay ghép nhằm loại bỏ các chi tiết không thích hợp Ngoài ra, vẫn có thể thêm các mức tích hợp mới bằng cách định nghĩa các miền cho các thuộc tính dạng số, tiêu biểu là chiều thời gian

Tóm lại, các tác giả đề nghị mô hình sự kiện chiều để thiết kế kho dữ liệu và phương pháp luận bán tự động để tạo ra mô hình này từ nguồn tài liệu thực thể - mối liên kết E/R miêu tả hệ thống thông tin của toàn tổ chức Mô hình DF này có nét mới là các sự kiện có cấu trúc cây

3 Công trình của Nectaria Tryfona, Frank Busborg, Jens G.Borch Christiansen; 1999; trong bài báo “StarER: Mô hình ý niệm cho thiết kế kho dữ liệu” (Theo [18]):

Trong môi trường nghiệp vụ thế chấp (cầm cố, mortgage), các tác giả nhận thấy

bước mô hình ý niệm của kho dữ liệu cần:

? Trình bày các sự kiện và các thuộc tính của các sự kiện: Các sự kiện là trung tâm của kho dữ liệu Các sự kiện thật sự của thế giới thực có thể xem như là các quá trình phát sinh dữ liệu theo thời gian Các sự kiện có các thuộc tính Có 3 loại

thuộc tính: cổ phần (stock), sự lưu thông (flow), và giá trị trên một đơn vị

(value-per-unit) Cổ phần ghi lại trạng thái của một cái gì đó ở một thời điểm cụ thể Sự

lưu thông ghi lại sự tích lũy trong một giai đoạn thời gian cho một thông số giám sát môi trường nào đó Giá trị trên một đơn vị tương tự thuộc tính cổ phần, nhưng các đơn vị của thuộc tính khác nhau

? Kết nối chiều thời gian với các sự kiện, chiều thời gian là chiều quan trọng và cần thiết trong kho dữ liệu này

? Trình bày các đối tượng, các thuộc tính của các đối tượng, và các kết hợp giữa các đối tượng: Thông tin kết nối với các sự kiện có thể được phân tích như trong các ứng dụng cổ điển, và được gọi là các đối tượng Giống như các thuộc tính của các sự kiện, các thuộc tính của đối tượng là số, hay là thuộc tính tổng hợp Có 3 loại kết hợp giữa các đối tượng:

+ Chuyên biệt hóa/Tổng quát hóa: chỉ đối tượng là lớp con của đối tượng khác,

Trang 18

+ Tích hợp: chỉ đối tượng là một phần của đối tượng lớn hơn, như phòng tài chánh và phòng quản trị đều là một phần của công ty

+ Thành phần: chỉ đối tượng là một thành viên của lớp đối tượng cao hơn, cả hai đối tượng đều có cùng đặc tính và hành vi, như chi nhánh là thành viên của công ty Thành phần có các đặc điểm là hạn chế (hoặc không) và đầy đủ (hoặc không) để chỉ mức độ ràng buộc về số lượng Thành phần hạn chế có nghĩa là tất cả các thành phần chỉ thuộc một lớp đối tượng cao hơn Thành phần đầy đủ có nghĩa là tất cả các thành phần đều thuộc về một lớp đối tượng cao hơn, và lớp đối tượng đó chỉ có các thành phần này, không có các thành phần nào khác

? Ghi lại sự kết hợp giữa các đối tượng và các sự kiện: Các đối tượng kết hợp theo ngữ nghĩa với các sự kiện

? Phân biệt các chiều và phân loại các chiều thành dạng phân cấp: Các đối tượng kết nối với các sự kiện gọi là chiều Một sự kiện luôn luôn kết nối với một chiều thời gian trong kho dữ liệu này Các chiều thường được kết hợp theo loại thành phần là chiều phân cấp

Sau khi phân tích các yêu cầu của người sử dụng đối với mô hình kho dữ liệu, các tác giả xây dựng mô hình ý niệm mới có tên là starER Mô hình có cấu trúc như sau:

? Tập hợp sự kiện: trình bày một tập hợp các sự kiện của thế giới thực, các sự kiện có chung các đặc điểm hoặc tính chất

? Tập hợp thực thể: trình bày một tập hợp các đối tượng của thế giới thực, tập hợp thực thể có cùng ý nghĩa như mô hình ứng dụng truyền thống

? Tập hợp mối liên kết: trình bày một tập hợp các kết hợp giữa các tập thực thể hoặc giữa các tập thực thể và các tập sự kiện Có thể sử dụng các mối liên kết nhiều-nhiều, nhiều -một, hoặc một-một Tập hợp mối liên kết giữa các tập hợp thực thể có loại chuyên biệt hóa/tổng quát hóa, tích hợp, hoặc thành phần Còn các phân cấp của chiều kết hợp theo loại thành phần có hạn chế hoặc đầy đủ Tóm lại, mô hình starER kết hợp các cấu trúc mạnh về ngữ nghĩa của mô hình thực thể - mối liên kết với cấu trúc tổng quát của lược đồ hình sao Hiện nay, các tác giả

đang xây dựng tiếp công cụ bán tự động (semi-automatic) cho mô hình này, chẳng hạn

như xem xét các luật chuyển đổi cấu trúc starER thành các mô hình luận lý cụ thể như

mô hình quan hệ (là mô hình được sử dụng nhiều bởi các gói phần mềm kho dữ liệu)

4 Công trình của Aris Tsois, Nikos Karayannidis, Timos Sellis; 2001; trong bài báo

“MAC: Mô hình dữ liệu ý niệm cho OLAP” (Theo [19]):

Từ dữ liệu kinh doanh và những vấn đề nảy sinh trong thực tế, các tác giả đã đưa ra một số ví dụ cho thấy các mô hình dữ liệu truyền thống của kho dữ liệu nên cải tiến ở những điều sau:

Trang 19

? Nên định nghĩa các tích hợp dữ liệu theo sự kết hợp các mức tùy ý, thậm chí các mức có thể của cùng một chiều cũng như tập hợp các mức theo một đường phân tích dữ liệu cụ thể

? Nên cho phép định nghĩa nhiều độ đo cho một tập hợp các chiều, và trình bày các độ đo đó theo một khái niệm trong một số trường hợp nào đó, điều này phản ánh sự kiện mà các độ đo đó liên kết với nhau có ý nghĩa

Với những nhận xét trên, các tác giả định nghĩa một mô hình ý niệm mới, mô hình MAC Các tác giả sử dụng một tập hợp tối thiểu các khái niệm OLAP như:

? Các mức của chiều trình bày các loại thành phần của chiều Mỗi thành phần của chiều trình bày một thể hiện nào đó tính chất của thế giới thực mà độ đo OLAP có thể có Cũng có thể liên kết các mức riêng biệt theo các ý nghĩa khác nhau của một mối liên kết duyệt dữ liệu Mối liên kết duyệt dữ liệu xác định ngữ nghĩa của các mức có liên quan với nhau và miêu tả cách thức chia nhóm các thành phần của mức con thành các tập hợp tương ứng với các thành phần của mức cha

? Một tập hợp các mối liên kết duyệt dữ liệu có thể hình thành một đường phân tích dữ liệu của chiều nếu thỏa mãn một số yêu cầu về cấu trúc Một đường phân tích dữ liệu của chiều định nghĩa một kết hợp có ý nghĩa các mối liên kết duyệt

dữ liệu và dùng để mô hình một tuần tự đúng của các tác vụ (duyệt dữ liệu đi

lên/duyệt dữ liệu đi xuống) Nếu một hoặc nhiều đường phân tích dữ liệu của

chiều dùng chung các mức, thì vẫn có thể hình thành một chiều

? Các khối dữ liệu tích hợp đa chiều (MAC, Multidimensional Aggregation Cubes)

định nghĩa mối liên kết giữa các miền của một hoặc nhiều chiều Một MAC có thể có một hoặc nhiều độ đo MAC xem mỗi độ đo như là một thuộc tính nguyên

tử đơn giản của một mối liên kết Một phần tử MAC (còn gọi là phần tử) là một

thể hiện của MAC

Tóm lại, mô hình MAC cung cấp một kết hợp duy nhất các kỹ năng mô hình dữ liệu Mô hình này là mô hình ý niệm đầu tiên cho người sử dụng trung tâm, để định nghĩa các khối dữ liệu như là các mối liên kết có nhiều độ mịn, từ đó làm cho các các lược đồ và các câu truy vấn đơn giản và trực quan hơn nhiều Ngoài ra, cả độ phức tạp của các mối liên kết duyệt dữ liệu và việc sử dụng các đường phân tích dữ liệu dựa vào việc định nghĩa các chiều đều là những nét mới của mô hình này Và cuối cùng là việc định nghĩa các miền của chiều sẽ trình bày tường minh một phương pháp đơn giản, để tối ưu câu truy vấn về ngữ nghĩa ở cả lược đồ và mức thể hiện

5 Công trình của Anindya Datta, Helen Thomas; 1997; trong bài báo “Mô hình ý niệm và đại số cho xử lý phân tích trực tuyến trong các kho dữ liệu” (Theo [21]):

Các tác giả trình bày một mô hình kho dữ liệu/cơ sở dữ liệu đa chiều và đại số cho

Trang 20

(không phân biệt) giữa chiều và độ đo, và cung cấp tính năng OLAP toàn diện (chẳng

hạn; tích hợp dữ liệu: duyệt dữ liệu đi lên và so sánh các giá trị tích hợp, chuyển đổi:

chuyển chiều thành độ đo và ngược lại, phân hoạch: nhóm dữ liệu theo các mục đích tích hợp dữ liệu, và các dạng truy vấn phân tích khác: duyệt dữ liệu đi xuống, kết nối giữa các bảng chiều với bảng sự kiện)

Theo các tác giả, khái niệm khối dữ liệu được sử dụng nhiều, nhưng không có một định nghĩa chính thức về khối dữ liệu, nên các tác giả đã định nghĩa khối dữ liệu dạng đại số theo tập các chiều, tập các độ đo, tập các thuộc tính, và ánh xạ một-nhiều giữa

chiều và thuộc tính (với điều kiện thuộc tính của hai chiều khác nhau không được trùng

nhau) Sau đó, các tác giả định nghĩa thể hiện của khối dữ liệu bằng cách thêm hai khái

niệm vào định nghĩa khối dữ liệu là tập các giá trị V và ánh xạ g giữa các chiều và các giá trị

Ví dụ: Định nghĩa Khối dữ liệu KinhDoanh theo bộ bốn < D, M, A, f > có:

Tập các độ đo M = {SốLượng KinhDoanh}

Tập các chiều D = {ThờiGian, SảnPhẩm, VịTrí}

Tập các thuộc tính A = {Ngày, Tháng, Năm, TênSảnPhẩm, KhốiLượng,

MàuSắc, TênKho, ThànhPhố, Bang, Vùng}

Aùnh xạ f: f(ThờiGian) = {Ngày, Tháng, Năm}

f(SảnPhẩm) = {TênSảnPhẩm, KhốiLượng, MàuSắc}

f(VịTrí) = {TênKho, ThànhPhố, Bang, Vùng}

Từ khối dữ liệu và thể hiện khối dữ liệu, các tác giả định nghĩa các toán tử mới theo hai khái niệm này Giống như đại số quan hệ trên cấu trúc quan hệ của cơ sở dữ liệu quan hệ, các phép toán chọn, chiếu, tích Descartes, kết nối, hợp, hiệu và chia đều thực hiện trên thuộc tính của quan hệ; thì trong OLAP, các phép toán này thực hiện trên chiều của khối dữ liệu Tuy nhiên, với phép hợp và hiệu, hai khối dữ liệu trong phép toán này phải

có cùng miền (domain) chiều, cùng miền độ đo và cùng lượng số (card) về chiều, cùng

lượng số về độ đo, nghĩa là theo các tác giả thì hai khối dữ liệu này tương đương hợp

(union-compatible cubes) Và phép toán kéo và đẩy là hai phép toán mới trong OLAP,

dùng để chuyển đổi qua lại giữa chiều và độ đo Sau đây là các phép toán trong OLAP

do các tác giả này đề nghị:

? Phép chọn (Restriction: ? ): Phép chọn nhằm lấy ra một thể hiện khối dữ liệu có

tập con các giá trị của thể hiện khối dữ liệu ban đầu dựa trên biểu thức luận lý của các chiều trong khối dữ liệu đó

? Phép chiếu (Aggregation: ? ): Phép chiếu nhằm lấy ra một thể hiện khối dữ liệu

có các giá trị độ đo tính trên một số chiều được chọn từ tập các chiều của thể hiện khối dữ liệu ban đầu

Trang 21

? Phép tích Descarts (Cartesian Product: ?): Phép toán này nhằm kết hợp hai thể

hiện khối dữ liệu thành một thể hie än khối dữ liệu mới có chiều là chiều của hai thể hiện, độ đo là độ đo của hai thể hiện, tập các giá trị là tích hai tập các giá trị của hai thể hiện

? Phép kết nối (Join: ): Phép kết nối là trường hợp cụ thể của phép tích

Descartes ở trên, với điều kiện là có tối thiểu một chiều chung giữa hai thể hiện khối dữ liệu Nghĩa là, thực hiện phép tích Descartes giữa hai thể hiện khối dữ liệu, sau đó thực hiện phép chọn dựa trên biểu thức luận lý của các chiều chung

? Phép hợp (Union: ? ): Phép hợp nhằm lấy tất cả các giá trị của hai thể hiện khối

dữ liệu vào tập các giá trị của thể hiện khối dữ liệu mới, còn các thành phần khác của thể hiện khối dữ liệu đều như nhau

? Phép hiệu (Difference: -): Phép hiệu nhằm loại bỏ các giá trị giống nhau của thể

hiện khối dữ liệu này trong thể hiện khối dữ liệu khác

? Phép kéo (Pull: ? ): Phép kéo nhằm chuyển một số độ đo thành các chiều Nghĩa

là, thể hiện khối dữ liệu mới có thêm một số độ đo vào tập các chiều, còn các độ

đo thì có ít độ đo hơn so với thể hiện khối dữ liệu ban đầu

? Phép đẩy (Push: ? ): Phép đẩy nhằm chuyển một số chiều thành độ đo Nghĩa là,

thể hiện khối dữ liệu mới có số chiều ít hơn và số độ đo nhiều hơn so với số chiều và số độ đo của thể hiện khối dữ liệu ban đầu

? Phép chia (Partition: ? ): Phép chia nhằm lấy một số giá trị cụ thể theo các thuộc

tính lựa chọn từ tập các thuộc tính của thể hiện khối dữ liệu ban đầu

Tóm lại, các tác giả trình bày một mô hình ý niệm cho các cơ sở dữ liệu đa chiều Các tác giả cũng trình bày đại số biểu diễn chính xác các câu truy vấn phân tích phức tạp thường gặp trong môi trường OLAP Mô hình này cho phép xử lý đồng nhất giữa chiều và độ đo, và cũng tách riêng cấu trúc và nội dung Ngoài ra, mô hình mới này có thể dùng để xử lý tối ưu hóa trong câu truy vấn

2.3 SO SÁNH CÁC CÔNG TRÌNH

Để có một cái nhìn tổng quát về các mô hình ý niệm kho dữ liệu trong các công trình do một số tác giả đề xuất trong những năm gần đây, chúng ta so sánh các mô hình

ý niệm kho dữ liệu

Trang 22

Mô hình sự kiện chiều

(DF) của

Golfarelli, Maio và Rizzi (1998)

Mô hình

starER của

Tryfona, Bushorg và Christiansen (1999)

Mô hình

MAC của

Tsois, Karayannidis và Sellis (2001)

Mô hình ý niệm và đại

số của Datta

và Thomas (1997)

1.Phương pháp

tiếp cận

Mô hình dùng cách tiếp cận cổ điển là dạng chuẩn

Mô hình bắt đầu từ mô hình thực thể - mối liên kết

Mô hình bắt đầu từ mô hình thực thể - mối liên kết và cấu trúc hình sao

Mô hình bắt đầu từ mô hình thực thể - mối liên kết và chú thích lược đồ bằng thông tin phụ của OLAP

Mô hình bắt đầu từ đại số giống đại số quan hệ trong cơ sở dữ liệu quan hệ

2.Kiểu độ đo Bình thường Bình thường

Có nhiều loại:

cổ phần, sự lưu thông, giá trị trên một đơn vị

Nhiều giá trị độ đo định nghĩa 1 khái niệm để phản ánh ngữ nghĩa

Bình thường

4.Xử lý đối xứng

giữa các chiều

và độ đo

Không Không Có Không Có

5.Mối liên kết

nhiều-nhiều

giữa các sự kiện

và các chiều

Có Có Có Có Có

6.Các phân cấp

giữa các chiều Không Có Có Có Không

9.Mối liên kết

giữa các mức

trong một chiều

Mối liên kết nhiều-một giữa một mức và con cháu của mức đó

Mối liên kết nhiều-nhiều, kết hợp các mức theo 3 loại: chuyên biệt hóa / tổng quát hóa, tích hợp, thành phần

Mối liên kết nhiều-nhiều, phân nhóm / phân loại có ý nghĩa

Mối liên kết nhiều-một giữa một mức và con cháu của mức đó

Trang 23

10.Lược đồ sự

kiện

Ở dạng chuẩn

đa chiều tổng quát

Có cấu trúc cây Nếu kết hợp với chiều thời gian, có 2 loại lược đồ ảnh sao, và phụ thuộc thời gian

Có cấu trúc starER

Khối dữ liệu tích hợp đa chiều MAC

Khối dữ liệu bình thường

Bảng 2.2: So sánh các công trình về mô hình ý niệm kho dữ liệu

ưu hóa câu truy vấn về sau

Nói chung, các công trình trên chủ yếu nâng cao hiệu quả của các mô hình dữ liệu ý niệm cho kho dữ liệu Vì bước thiết kế ý niệm chỉ giao tiếp giữa người thiết kế và người sử dụng, độc lập với vấn đề hiện thực; nên sớm dò ra các lỗi mô hình, tinh chế tải làm việc và phê chuẩn lược đồ Với các mô hình dữ liệu cơ bản của kho dữ liệu, các mô hình dữ liệu cải tiến do nhiều tác giả đề nghị và các công cụ hỗ trợ xây dựng kho dữ liệu, việc xây dựng kho dữ liệu trên server có thể làm bằng tay lúc xây dựng hệ thống Do đó, vấn đề đặt ra là cần xây dựng công cụ nạp dữ liệu vào kho theo yêu cầu của người sử dụng, xây dựng nhiều công cụ truy vấn dữ liệu cho phần giao diện người sử dụng , và các công cụ này có thể phục vụ cho nhiều người sử dụng khác nhau cùng một lúc

Trang 24

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT VỀ KHO DỮ LIỆU

CƠ SỞ LÝ THUYẾT VỀ KHO DỮ LIỆU

3.1 GIỚI THIỆU

Thiết kế kho dữ liệu là để truy vấn và phân tích, chứ không nhằm xử lý giao dịch Kho dữ liệu thường chứa dữ liệu được tích hợp từ nhiều nguồn dữ liệu khác nhau, các nguồn dữ liệu này vẫn ở trong những hệ thống đang hoạt động bình thường với chức năng của riêng nó Kho dữ liệu thường tách khối lượng công việc phân tích ra khỏi công việc giao dịch

Chương này gồm 6 phần chính:

Phần 3.1: Giới thiệu sơ lược nội dung và cấu trúc của chương

Phần 3.2: Tổng quan về kho dữ liệu Phần này trình bày tổng quan về kho dữ liệu như khái niệm, đặc tính, kiến trúc của kho dữ liệu và các thành phần trong kho dữ liệu

như cấu trúc dữ liệu, dòng dữ liệu (Tham khảo [1], [2] và [8])

Phần 3.3: Thiết kế ý niệm kho dữ liệu Phần này trình bày mô hình ý niệm mới ở dạng chuẩn đa chiều tổn g quát Đây là mô hình mà luận văn chọn để áp dụng từ các mô

hình đã tìm hiểu trong chương 2 (Tham khảo [20])

Phần 3.4: Thiết kế luận lý kho dữ liệu Phần này trình bày về các dạng lược đồ của

kho dữ liệu và các vấn đề liên quan đến kho dữ liệu ở mức luận lý (Tham khảo [1], [2],

[8] và [9])

Phần 3.5: Thiết kế vật lý kho dữ liệu Phần này trình bày quá trình chuyển các lược đồ luận lý thành những cấu trúc cơ sở dữ liệu thật sự Trong suốt quá trình này, người thiết kế sẽ điều tiết một số thay đổi do những thông số hệ thống thật sự như: kích thước

máy, số người sử dụng, khả năng lưu trữ, và phần mềm, (Tham khảo [1] và [10])

Phần 3.6: Kết luận

Chương này sử dụng tài liệu tham khảo [1], [2], [8], [9], [10] và [20]

3.2 TỔNG QUAN VỀ KHO DỮ LIỆU

3.2.1 Các khái niệm cơ bản về kho dữ liệu

Trong những thập niên gần đây, kho dữ liệu xuất hiện như là kết quả của những tiến bộ trong lĩnh vực các hệ thống thông tin Những tiến bộ này bao gồm sự phát triển của các hệ quản trị cơ sở dữ liệu quan hệ và mô hình dữ liệu quan hệ; những tiến bộ trong phần cứng đặc biệt về dung lượng lưu trữ và các kie án trúc máy tính song song; việc

Trang 25

người sử dụng đầu cuối tính toán bằng các công cụ và giao diện máy tính trực quan và mạnh; những tiến bộ của những sản phẩm trung gian giúp tăng khả năng kết nối cơ sở dữ liệu nghiệp vụ trên các hệ thống không đồng nhất

Sử dụng kho dữ liệu để hỗ trợ truy vấn và phân tích Kho dữ liệu do nhiều công ty và nhiều tổ chức về lĩnh vực công nghệ thông tin phát triển như Oracle Coporation, Red Brick, … Sau đây là một số định nghĩa về kho dữ liệu do một số tác giả trình bày trong sách và báo chí:

? Theo [1, trang 531] của Inmon và Hackathorn, 1994, kho dữ liệu là một tập hợp

dữ liệu hướng chủ đề, tích hợp, thay đổi theo thời gian và ổn định Kho dữ liệu dùng để hỗ trợ công tác quản lý trong quá trình ra quyết định

? Theo [2, trang 9] của Inmon , xét về mặt vật lý, kho dữ liệu và hệ thống tác vụ

tách rời nhau Kho dữ liệu giữ dữ liệu tích hợp và giữ cả dữ liệu giao dịch nhằm tách quá trình quản lý khỏi cơ sở dữ liệu dùng cho xử lý giao dịch trực tuyến

? Theo [2, trang 9] của Imhoff, 1995 , kho dữ liệu là một tập hợp cơ sở dữ liệu

hướng chủ đề và tích hợp, được thiết kế và tối ưu để hỗ trợ chức năng của hệ hỗ

trợ quyết định (DSS), ở đó mỗi đơn vị dữ liệu thích hợp với thời gian lúc đó

? Theo [2, trang 9] của Ralph Kimball, người sáng lập hệ thống Red Brick, 1996,

kho dữ liệu là một nơi mà người ta có thể truy xuất dữ liệu của chính mình

? Theo [2, trang 9] của Corey và Abbey, 1997 , kho dữ liệu là một tập hợp thông tin

xác nhập, suy dẫn thông tin này trực tiếp từ các hệ thống tác vụ và một số nguồn dữ liệu bên ngoài Mục đích của kho dữ liệu là hỗ trợ các quyết định nghiệp vụ, chứ không hỗ trợ các tác vụ nghiệp vụ

? Theo [2, trang 9] của Badcock, 1995 trong Computerworld , kho dữ liệu là một

kho dữ liệu được tổng hợp hoặc tích hợp ở dạng đơn giản từ các hệ thống tác vụ Các công cụ lập báo cáo và truy xuất dữ liệu hướng người sử dụng đầu cuối cho phép người sử dụng lấy dữ liệu từ kho dữ liệu để hỗ trợ quyết định Như vậy, kho dữ liệu được xem là thông tin, chứ không phải là tác vụ, nhằm hỗ trợ phân tích và quyết định, chứ không hỗ trợ xử lý giao dịch, được xây dựng theo kiến trúc chủ/khách, chứ không dựa trên host theo kiểu cũ

3.2.2 Các đặc tính của kho dữ liệu

Kho dữ liệu có các đặc tính sau:

Hướng chủ đề Tổ chức dữ liệu theo việc người sử dụng dùng dữ liệu đó như thế nào Tích hợp Loại bỏ những dữ liệu không nhất quán, kể cả các thông tin đụng độ và

các danh pháp (nomenclature) Có nghĩa là, làm sạch dữ liệu

Trang 26

Ổn định Dữ liệu trong kho dữ liệu là dạng dữ liệu chỉ đọc Người sử dụng đầu cuối không được cập nhật dữ liệu này Chuỗi thời gian Dữ liệu là dạng dữ liệu theo chuỗi thời gian, không chỉ có các dữ liệu ở trạng thái hiện tại Tổng hợp Tích hợp dữ liệu tác vụ thành dạng dữ liệu có thể dùng để quyết định khi nào thích hợp Lớn hơn Dữ liệu phải lưu thêm chuỗi thời gian nên có nhiều dữ liệu hơn được

duy trì trong kho dữ liệu

Không chuẩn hóa Dữ liệu có thể dư thừa

Siêu dữ liệu Sử dụng dữ liệu miêu tả về dữ liệu cho cả người sử dụng và kho dữ

liệu

Đầu vào Dữ liệu tác vụ (các hệ thống di sản) và dữ liệu bên ngoài khi cần thiết

Bảng 3.1: Các đặc tính của kho dữ liệu

Xem xét tương ứng giữa các đặc tính của hệ thống xử lý giao dịch trực tuyến (OLTP) và của kho dữ liệu (hệ hỗ trợ quyết định, DSS):

Hướng ứng dụng Hướng chủ đề

Sử dụng để điều hành công việc Sử dụng để phân tích công việc

Chứa dữ liệu chi tiết Chứa dữ liệu tổng hợp hoặc đã tinh chế

Cập nhật dữ liệu theo thời gian Dữ liệu tương đối ổn định

Dữ liệu tách rời Dữ liệu tích hợp

Truy xuất lặp (repetitive access) Truy xuất tùy tiện (adhoc access)

Người sử dụng văn phòng Người sử dụng có tri thức (người quản lý)

Nhạy về hiệu suất (Performance Sensitive) Thoải mái về hiệu suất (Performance Relaxed)

Một lần truy vấn một vài mẩu tin Một lần truy xuất một khối lượng lớn mẩu tin

Truy xuất chủ yếu là đọc và cập nhật Truy xuất hầu như là đọc, chỉ cập nhật theo lô

(batch update)

Không dư thừa dữ liệu Dư thừa dữ liệu

Kích thước cơ sở dữ liệu từ 100MB đến

100GB Kích thước cơ sở dữ liệu từ 100GB đến vài terabyte

Trang 27

Hiệu suất giao dịch là độ đo giá trị hiệu suất

của hệ thống Hiệu suất truy vấn là độ đo giá trị hiệu suất của hệ thống Hàng ngàn người sử dụng Hàng trăm người sử dụng

Quản lý toàn bộ Quản lý theo từng tập hợp con

Bảng 3.2: So sánh OLTP và kho dữ liệu

3.2.3 Các kiến trúc kho dữ liệu

Theo [1, trang 534], kho dữ liệu sử dụng 3 kiến trúc: kiến trúc 2 mức tổng quát, kiến

trúc 3 mức mở rộng và kiến trúc dữ liệu 3 mức kết hợp với kiến trúc vật lý 3 mức

Kiến trúc 2 mức tổng quát

Kiến trúc này thích hợp cho những tổ chức nhỏ hoặc trung bình Những tổ chức này có số lượng phần cứng cũng như phần mềm hạn chế và hoạt động trong môi trường tính toán tương đối không đồng nhất

Xây dựng kiến trúc kho dữ liệu 2 mức tổng quát (Hình 3.1) này theo bốn bước:

? Bước 1: Lấy dữ liệu từ các tập tin hệ thống nguồn khác nhau và từ các cơ sở dữ liệu nguồn khác nhau

? Bước 2: Chuyển dạng và tích hợp các dữ liệu từ các hệ thống nguồn khác nhau trước khi đưa vào kho dữ liệu

? Bước 3: Kho dữ liệu là một cơ sở dữ liệu chỉ đọc Tổ chức kho dữ liệu để hỗ trợ quyết định Kho dữ liệu chứa cả dữ liệu tổng hợp và dữ liệu chi tiết

? Bước 4: Người sử dụng truy xuất kho dữ liệu bằng các phương tiện khác nhau như công cụ phân tích và ngôn ngữ truy vấn

Nguồn dữ liệu 1

Nguồn

dữ liệu 2

Kho dữ liệu

Môi trường hỗ trợ quyết định

Chuyển đổi và tích hợp Môi trường tác vụ

Trang 28

Kiến trúc 3 mức mở rộng

Kiến trúc này thích hợp cho những tổ chức lớn hơn Những tổ chức thường có một số nguồn dữ liệu khác nhau và hoạt động trong một môi trường tính toán không đồng nhất,

vì thế phát sinh thêm những vấn đề như duy trì chất lượng dữ liệu, quản lý các quá trình

lấy dữ liệu và thường đi kèm với xu hướng tính toán phân bố (Hình 3.2)

Hình 3.2: Kiến trúc kho dữ liệu 3 lớp

Theo hình vẽ, kiến trúc này gồm có 3 mức: dữ liệu và các hệ thống tác vụ, kho dữ liệu toàn tổ chức và các trung tâm dữ liệu

? Dữ liệu và các hệ thống tác vụ là những cơ sở dữ liệu quan hệ chuẩn hóa Những kiến trúc chuẩn hóa sẽ lưu một khối lượng dữ liệu lớn nhất với một không gian lưu trữ nhỏ nhất, nghĩa là dữ liệu không bị dư thừa Chuẩn hóa là một quá trình phân rã những cấu trúc dữ liệu thành những thành phần dữ liệu nhỏ nhất

? Kho dữ liệu toàn tổ chức (EDW, enterprise data warehouse) là một kho dữ liệu

tích hợp và tập trung Kho dữ liệu này là một nguồn đơn và là một điểm điều khiển, gồm tất cả các dữ liệu, nhằm mục đích:

? Dùng EDW như là một điểm điều khiển để đảm bảo chất lượng và toàn vẹn dữ liệu trước khi người sử dụng truy xuất EDW

? EDW cung cấp mẩu tin công việc có tính lịch sử đối với dữ liệu theo thời gian

Mặc dù EDW là một nguồn đơn gồm tất cả các dữ liệu cho hỗ trợ quyết định, người sử dụng thường không truy xuất trực tiếp EDW, vì EDW quá lớn và quá

Nguồn

dữ liệu 2

Chuyển đổi và tích hợp

Môi trường tác vụ

Kho dữ liệu toàn tổ chức

Trung tâm dữ liệu

Môi trường hỗ trợ quyết định

Chọn và tổng hợp

Trang 29

phức tạp để người sử dụng có thể định hướng cho hầu hết những ứng dụng hỗ trợ quyết định Do đó, người sử dụng có thể truy xuất dữ liệu từ kho dữ liệu và các trung tâm dữ liệu Người sử dụng truy xuất dữ liệu gián tiếp thông qua quá trình duyệt dữ liệu đi xuống

? Một trung tâm dữ liệu là một kho dữ liệu nhưng có tầm vực hạn chế Mỗi trung tâm dữ liệu dùng cho những ứng dụng hỗ trợ quyết định của một nhóm người sử dụng đầu cuối cụ thể

Kho dữ liệu và trung tâm dữ liệu có những khác biệt sau:

Tầm vực Xác nhập Tuyến nghiệp vụ

Các chủ thể Nhiều chủ thể Một chủ thể

Các nguồn dữ liệu Nhiều nguồn dữ liệu Một vài nguồn dữ liệu

Kích thước (điển hình) 100GB - TB+ <100GB

Thời gian thực hiện Vài tháng cho đến vài năm Vài tháng

Bảng 3.3: So sánh kho dữ liệu và trung tâm dữ liệu

Có hai loại trung tâm dữ liệu là trung tâm dữ liệu phụ thuộc và trung tâm dữ liệu độc lập:

? Trung tâm dữ liệu phụ thuộc là một trung tâm dữ liệu lắp đầy dữ liệu từ

kho dữ liệu toàn tổ chức và lớp dữ liệu đã điều hòa (Hình 3.3) (Theo [1,

trang 542], Lớp dữ liệu đã điều hòa là lớp dữ liệu kết hợp với kho dữ liệu toàn tổ chức Lớp dữ liệu này miêu tả bản chất của dữ liệu xuất hiện trong kho dữ liệu toàn tổ chức và cách suy dẫn dữ liệu)

? Trung tâm dữ liệu độc lập là một trung tâm dữ liệu lắp đầy dữ liệu từ môi trường tác vụ, không có sử dụng những lợi ích của lớp dữ liệu đã điều hòa

(Những lợi ích của lớp dữ liệu đã điều hòa là loại bỏ những điều không nhất quán, tạo một dạng dữ liệu chung thống nhất giữa các nguồn dữ liệu

Trang 30

? Dư thừa dữ liệu tăng vì cùng một dữ liệu nhưng thường lưu trong các trung tâm dữ liệu khác nhau

? Thiếu sự tích hợp dữ liệu từ khía cạnh nghiệp vụ, vì đó là trách nhiệm của kho dữ liệu toàn tổ chức

? Tạo một trung tâm dữ liệu độc lập yêu cầu những kết nối chéo, những kết nối này khó thực hiện

? Những người sử dụng khác nhau có những yêu cầu khác nhau về sự hiện diện của dữ liệu trong trung tâm dữ liệu, mà điều này làm cho sự thống nhất của dữ liệu thấp

Như vậy, một tổ chức có kế hoạch phát triển nhiều trung tâm dữ liệu thì nên dùng cách tiếp cận trung tâm dữ liệu phụ thuộc

Những tổ chức lớn có nhiều nguồn dữ liệu không đồng nhất nên dùng kiến trúc kho dữ liệu 3 mức Có ba nhân tố hỗ trợ tiếp cận này:

? Kho dữ liệu toàn tổ chức và trung tâm dữ liệu dùng cho những mục đích rất khác nhau và có những kiến trúc dữ liệu rất khác nhau

? Chuyển dạng dữ liệu nguồn không đồng nhất thành một định dạng thích hợp để

ra quyết định là một quá trình có tín h phức tạp cao

? Dùng các trung tâm dữ liệu cho phép tổ chức tạo ra dữ liệu hỗ trợ quyết định cho mỗi nhóm người sử dụng đầu cuối, và khai thác những điều thuận lợi từ xử lý phân bố

Kiến trúc dữ liệu 3 lớp

Xét các thuật ngữ trong Hình 3.3 sau:

? Một tổ chức lưu dữ liệu tác vụ trong những hệ thống tác vụ khác nhau (và thỉnh

thoảng lưu trong những hệ thống bên ngoài)

? Dữ liệu đã điều hòa là loại dữ liệu lưu trong kho dữ liệu toàn tổ chức Dữ liệu đã điều hòa là dữ liệu có tính lịch sử và chi tiết, có dụng ý là nguồn dữ liệu đơn và có phân quyền cho tất cả những ứng dụng hỗ trợ quyết định Dữ liệu đã điều hòa thường không cho người sử dụng đầu cuối sử dụng trực tiếp

? Dữ liệu suy dẫn là loại dữ liệu lưu trong mỗi trung tâm dữ liệu Chọn, định dạng và tích hợp dữ liệu thành dữ liệu suy dẫn cho những ứng dụng hỗ trợ quyết định cho người sử dụng đầu cuối

Dữ liệu đã điều hòa và dữ liệu suy dẫn đóng vai trò quan trọng trong kiến trúc

dữ liệu Những dữ liệu này là mô hình dữ liệu nghiệp vụ và siêu dữ liệu (Xem

Hình 3.3).

Trang 31

Hình 3.3: Kiến trúc dữ liệu 3 lớp

? Siêu dữ liệu tác vụ: miêu tả dữ liệu trong các hệ thống tác vụ khác nhau (và dữ

liệu bên ngoài) Siêu dữ liệu tác vụ thường tồn tại ở một số định dạng khác nhau

và có chất lượng kém

? Siêu dữ liệu EDW: suy dẫn siêu dữ liệu này từ (hoặc ít nhất là nhất quán với) mô

hình dữ liệu nghiệp vụ Siêu dữ liệu của kho dữ liệu toàn tổ chức miêu tả lớp dữ liệu đã điều hòa và những luật biến đổi d ữ liệu tác vụ thành dữ liệu đã điều hòa

? Siêu dữ liệu của trung tâm dữ liệu: miêu tả lớp dữ liệu suy dẫn và những luật biến đổi dữ liệu đã điều hòa thành dữ liệu suy dẫn

Theo Hình 3.3, lớp dữ liệu đã điều hòa liên kết với mô hình dữ liệu nghiệp vụ Vai

trò của mô hình nghiệp vụ là trình bày một bức tranh toàn cảnh, giải thích tổ chức yêu cầu dữ liệu nào Nếu lớp dữ liệu đã điều hòa là nguồn đơn phân quyền gồm có tất cả các dữ liệu cho hỗ trợ quyết định, lớp dữ liệu này phù hợp với thiết kế đặc tả trong mô hình dữ liệu nghiệp vụ Do đó, tổ chức cần phát triển mô hình dữ liệu nghiệp vụ trước khi sử dụng mô hình để thiết kế kho dữ liệu

Lớp siêu dữ liệu đều liên kết với mỗi lớp trong ba lớp dữ liệu Vai trò của siêu dữ liệu là miêu tả những tính chất hoặc đặc tính của dữ liệu khác

3.2.4 Cấu trúc dữ liệu trong kho dữ liệu

Kho dữ liệu chứa 5 loại dữ liệu là dữ liệu chi tiết hiện hành, dữ liệu chi tiết cũ, dữ liệu tổng hợp sơ bộ, dữ liệu tổng hợp mức cao và siêu dữ liệu

Dữ liệu chi tiết hiện hành

Dữ liệu chi tiết hiện hành phản ánh những gì xảy ra gần đây nhất Loại dữ liệu này rất lớn nếu dữ liệu ở mức chi tiết thấp nhất Để truy xuất nhanh thông tin, chúng ta nên lưu thông tin này trên đĩa Thường có nhiều câu hỏi hỗ trợ quyết định liên quan đến dữ liệu, có thể lấy trực tiếp từ các mẩu tin chi tiết ở các giao dịch

Dữ liệu suy dẫn

Dữ liệu đã điều hòa

Dữ liệu tác vụ

Siêu dữ liệu của trung tâm dữ liệu

Kho dữ liệu toàn tổ chức

Các hệ thống tác vụ

Trung tâm dữ liệu

Siêu dữ liệu EDW

Siêu dữ liệu tác vụ

Trang 32

Dữ liệu chi tiết cũ

Hầu hết các kho dữ liệu đều có các luật trình bày khi ít sử dụng dữ liệu chi tiết, di chuyển dữ liệu từ đĩa cứng vào thiết bị lưu trữ có dung lượng lưu trữ lớn Mặc dù có thể lấy ở dạng chi tiết, nhưng thời gian truy xuất hơi chậm hơn một chút vì phải làm việc với thiết bị lưu trữ có dung lượng lưu trữ lớn Tuy nhiên, thông tin đều giống nhau trên đĩa cứng cũng như trên các thiết bị lưu trữ khác

Dữ liệu tổng hợp sơ bộ

Nhiều ứng dụng hỗ trợ quyết định dựa trên việc tổng hợp dữ liệu giao dịch Tổng hợp theo dạng đoán trước các yêu cầu về số lượng tiêu chuẩn, dễ đáp ứng và cải tiến việc sử dụng kho dữ liệu

Từ quan điểm thiết kế, nên làm hai quyết định: chọn các thuộc tính để tổng hợp , và chọn đơn vị thời gian để tổng hợp Cả hai quyết định này có sự cân nhắc Việc tính toán dữ liệu tổng hợp không thể tính thường xuyên, cũng như vùng nhớ lưu trữ cần thiết cho dữ liệu tổng hợp Nên lựa chọn quyết định thứ hai theo yêu cầu của người sử dụng

Ví dụ: Thuộc tính chọn để tổng hợp là số tín chỉ Chọn đơn vị thời gian tùy thuộc vào

người sử dụng Chẳng hạn, sinh viên muốn biết một học kỳ nào đó sinh viên đã học được bao nhiêu tín chỉ, hay một năm học nào đó sinh viên đã học được bao nhiêu tín chỉ, hay từ khi vào trường cho đến lúc này sinh viên đã học được bao nhiêu tín chỉ

Dữ liệu tổng hợp mức cao

Các nhà quản lý cấp cao thường yêu cầu một số thông tin ở dạng dễ truy xuất, gọn và các thông tin để tư vấn về sau Thông tin này dựa trên việc tổng hợp dữ liệu giao dịch đang lưu trữ trong kho dữ liệu , cũng dựa trên việc tổng hợp dữ liệu trong các giai đoạn có thời gian dài, để từ đó có thể thiết lập các xu hướng Với việc lưu trữ dữ liệu tổng hợp mức cao, cũng cải tiến các lần đáp ứng thông tin

Siêu dữ liệu

Siêu dữ liệu là dữ liệu miêu tả về dữ liệu Dữ liệu là thông tin về kho dữ liệu, chứ không phải là thông tin của kho dữ liệu Siêu dữ liệu cần thiết cho cả nhóm và cả những người sử dụng kho dữ liệu Mỗi nhóm yêu cầu những thông tin khác nhau Đối với nhóm kho dữ liệu, siêu dữ liệu gồm:

? Thư mục về những gì có trong kho dữ liệu: Thư mục chỉ rõ nơi lưu trữ dữ liệu Thư mục là chỉ mục dùng cho câu truy vấn thiên về việc tìm kiếm những thông tin đúng

? Hướng dẫn những ánh xạ dữ liệu từ dạng tác vụ sang dạng kho dữ liệu Khi dữ liệu đưa vào kho dữ liệu, dữ liệu phải ở dạng chuẩn và phải theo những quy ước của kho dữ liệu Nghĩa là, phải làm sạch dữ liệu Hướng dẫn này cung cấp các

Trang 33

chỉ dẫn chuyển dạng mỗi tập dữ liệu cụ thể để dữ liệu ở dạng đúng (dạng chuẩn

của kho dữ liệu)

? Những luật dùng để tổng hợp dữ liệu Đối với người sử dụng kho dữ liệu, siêu dữ liệu gồm:

? Những thuật ngữ công việc dùng để miêu tả dữ liệu

? Những tên kỹ thuật tương ứng với những thuật ngữ công việc, những tên kỹ thuật này có thể sử dụng để truy xuất dữ liệu

? Nguồn dữ liệu, những luật dùng để suy dẫn nguồn dữ liệu và khi tạo ra nguồn dữ liệu

3.2.5 Dòng dữ liệu trong kho dữ liệu

Nhìn dưới khía cạnh dòng dữ liệu, kho dữ liệu liên quan đến 3 lớp:

Hình 3.4: Kiến trúc kho dữ liệu 3 lớp theo khía cạnh dòng dữ liệu

? Mặt sau để nạp dữ liệu và làm sạch dữ liệu

? Kho dữ liệu là một cơ sở dữ liệu chứa cả dữ liệu và siêu dữ liệu

? Mặt trước để người sử dụng truy vấn và tương tác

Trong đó, phần thu nhận dữ liệu hình thành mặt sau của kho dữ liệu:

Hình 3.5: Phần thu nhận dữ liệu hình thành mặt sau của kho dữ liệu

? Đầu tiên dữ liệu nằm ở các hệ thống di sản và các nguồn bên ngoài Theo chu kỳ, chạy phần thu nhận dữ liệu Bước đầu tiên là làm sạch dữ liệu để nhận dạng dữ liệu thiếu và sự thiếu nhất quán trong những thuật ngữ và làm những thay đổi định dạng Sau đó, tính toán những tổng hợp dữ liệu trong lưu trữ Một số tổng hợp dựa trên dữ liệu yêu cầu Tuy nhiên, lưu trữ những tổng hợp khác liên quan việc cập nhật thông tin tổng hợp trong kho dữ liệu Sau đó, nạp dữ liệu làm sạch và dữ liệu tổng hợp vào kho dữ liệu

Các hệ thống

di sản

Các nguồn

bên ngoài

Làm sạch dữ liệu

Tạo dữ liệu tổng hợp

Nạp dữ liệu vào kho dữ liệu

Kho dữ liệu Siêu dữ liệu

Phần thu nhận dữ liệu

Chính kho dữ liệu

Phần client

Mặt sau

Trang 34

? Siêu dữ liệu (thật sự lưu trong kho dữ liệu) hướng dẫn quá trình thu nhận dữ liệu

Nó chứa những luật để làm sạch dữ lie äu, tổng hợp dữ liệu và xác định nơi nạp dữ liệu vào kho dữ liệu

Tổ chức dữ liệu trong kho dữ liệu:

Hình 3.6: Tổ chức dữ liệu trong kho dữ liệu

Kho dữ liệu chứa dữ liệu ở những mức chi tiết khác nhau Thường lưu trữ

(archived) dữ liệu chi tiết cũ, nhưng có thể lấy ra Về mặt vật lý, lưu giữ dữ liệu

chi tiết cũ ngoại tuyến (offline), chẳng hạn gắn (mount) những băng từ vào theo

yêu cầu Lưu dữ liệu chi tiết hiện hành và các dữ liệu tổng hợp ở những mức khác nhau trong kho dữ liệu kèm với siêu dữ liệu

Góc nhìn mặt trước của kho dữ liệu dành cho người sử dụng:

Hình 3.7: Mặt trước của kho dữ liệu

Người sử dụng làm việc trên vấn đề hỗ trợ quyết định ở máy tính và trực tiếp truy vấn kho dữ liệu thông qua siêu dữ liệu Siêu dữ liệu giúp người sử dụng nhận dạng thông tin gì sẵn sàng trong kho dữ liệu Những đáp ứng đối với những câu truy vấn đi qua siêu dữ liệu và hiển thị những đáp ứng trên màn hình

3.3 THIẾT KẾ Ý NIỆM KHO DỮ LIỆU

Luận văn chọn mô hình ý niệm cho kho dữ liệu của các tác giả Hüsemann, Lechtenbưrger và Vossen để trình bày trong phần cơ sở lý thuyết này Vì mô hình này ở dạng chuẩn đa chiều tổng quát, rất thích hợp áp dụng cho nhiều ứng dụng và chính quy hơn so với các mô hình ý niệm khác của một số tác giả khác

Quá trình thiết kế ý niệm kho dữ liệu gồm ba bước:

? Bước 1: Định nghĩa ngữ cảnh của các độ đo

+ Xác định các phụ thuộc hàm từ các mức của chiều vào các độ đo: bằng cách xác định các khóa tối thiểu cho mỗi độ đo, và định nghĩa phụ thuộc hàm từ khóa tối thiểu đó vào độ đo, các khóa này hình thành nên các mức chiều kết

Siêu dữ liệu

Truy vấn Đáp ứng

Dữ liệu chi tiết cũ Dữ liệu chi tiết

hiện hành

Dữ liệu tổng hợp sơ bộ Dữ liệu tổng hợp mức cao Siêu dữ liệu

Trang 35

thúc, và là gốc của các phân cấp trong chiều (với Mỗi chiều phân cấp chỉ có

một mức chiều kết thúc)

Cho tập các độ đo M = {m 1 , …, m k }, tập các thuộc tính chiều D, mỗi sự kiện

có một hàm nào đó từ các mức chiều vào các độ đo

Xác định khóa (tối thiểu) D i ? D cho mỗi độ đo m i, sau đó định nghĩa tập

hợp F key gồm tất cả các phụ thuộc hàm có dạng D i ? m i Cho phụ thuộc hàm

D i ? m i ? F key , các mức chiều trong D i xác định độ đo m i, nhưng không có bất

kỳ mức chiều nào khác có thể xác định m i Thì các mức chiều trong D i là

mức chiều kết thúc, và dùng làm gốc của các phân cấp trong chiều Với mỗi mức chiều kết thúc, chúng ta định nghĩa một chiều tương ứng

Nếu các độ đo có cùng một nhóm chiều giống nhau, thì gom vào cùng một lược đồ sự kiện

Tất cả các độ đo m i , m j có D i =D j thì nhóm m i , m j vào cùng một lược đồ sự

kiện (nghĩa là; m i , m j sử dụng cùng một ngữ cảnh chiều)

+ Thiết kế ý niệm đồ họa bằng cách mô hình lược đồ sự kiện phụ thuộc vào các mức chiều kết thúc

Ví dụ: Xây dựng lược đồ ý niệm về Tài Khoản ở Bước 1:

Xác định các phụ thuộc hàm FD

(MãTàiKhoản, NgàyCóHiệuLực) ? QuyếtToán ? F Key

(MãTàiKhoản, NgàyCóHiệuLực) ? DoanhThu ? F Key

(MãTàiKhoản, NgàyCóHiệuLực) ? MứcTiềnGởi ? F Key

(MãTàiKhoản, NgàyCóHiệuLực) ? TiềnLời ? F Key

Bảng tóm tắt các phụ thuộc hàm giữa các mức chiều kết thúc và các độ đo:

Lược đồ sự kiện Độ đo Chiều Mức chiều kết thúc

Các sự kiện

Tài Khoản

QuyếtToán, DoanhThu, MứcTiềnGởi, TiềnLời

Bảng 3.4: Các phụ thuộc hàm giữa các mức chiều kết thúc và các độ đo

Tất cả các độ đo QuyếtToán, DoanhThu, MứcTiềnGởi, và TiềnLời đều có cùng các mức chiều kết thúc MãTàiKhoản (thuộc chiều TàiKhoản) và NgàyCóHiệuLực (thuộc chiều ThờiGian), nên gom vào cùng một lược đồ sự kiện Các sự kiện Tài Khoản, và trình bày ở dạng đồ họa như sau:

Trang 36

Hình 3.8: Một phần của lược đồ ý niệm về các sự kiện tài khoản

? Bước 2: Thiết kế phân cấp của chiều

+ Xác định tất cả các phụ thuộc hàm giữa các mức của chiều với một chiều dim có mức chiều kết thúc d j như sau:

Giả sử cho các mức chiều d k , d l ? D, d k ? d l là một phụ thuộc hàm đúng và

tồn tại một phụ thuộc hàm (bắc cầu tiềm ẩn) của d k trên d j , thì thêm d k ? d l vào tập hợp F dim

o Phân biệt các thuộc tính riêng và các mức chiều theo các yêu cầu lúc

phân tích (Thuộc tính riêng là thuộc tính dùng để chọn lựa dữ liệu, nhưng

không dùng để tích hợp dữ liệu)

o Xác định các phân cấp chiều bằng cách xây dựng đồ thị với các nút là các mức của chiều

Đồ thị chứa một cạnh từ mức chiều d i vào mức chiều d j , nếu d i ?d j và

d i ? d j là phụ thuộc hàm không bắc cầu, nghĩa là; nếu d i ? d j và không

có mức chiều d k (d k ?d i , d j ) để d i ? d k ? d j

o Thêm các thuộc tính riêng vào các mức chiều ở dạng đồ họa

Thuộc tính riêng d p nối vào mức chiều d l nếu phụ thuộc hàm d l ? d p

không bắc cầu Thuộc tính riêng là tùy chọn hoặc không tùy thuộc vào thông tin đặc tả yêu cầu Ở dạng đồ họa, thuộc tính bắt buộc nối vào mức chiều bằng một nút hình thoi nhỏ, thuộc tính tùy chọn nối trực tiếp vào mức chiều mà không có nút

o Xác định các chiều ở dạng lựa chọn hay tùy chọn (là tùy chọn, nếu có

nhiều phân cấp trong một chiều) Vì một chiều có thể có nhiều phân cấp

khác nhau, các phân cấp này tạo cho chiều có tính đầy đủ và các phân cấp cũng không được giao nhau

Giả sử d l là một mức tách riêng (bắt buộc), mức này xác định các mức chiều tùy chọn d c1 , …, d ck Bây giờ nhóm các mức tùy chọn này bằng

cách xây dựng các tập hợp con không giao nhau {d c1 , …, d ck } để các

Các sự kiện Tài Khoản QuyếtToán

Trang 37

thành phần của các mức trong mỗi nhóm hình thành nên một phân mảnh đầy đủ và không giao nhau gồm các thành phần của mức tách

riêng d l + Suy dẫn phân cấp chiều dạng đồ họa Biểu diễn các nhóm đường tích hợp tùy chọn bằng dấu mũi tên 2 nét

Ví dụ: Xây dựng lược đồ ý niệm về Tài Khoản ở Bước 2: Xác định các phân cấp

cho các mức chiều kết thúc

Các phụ thuộc hàm DF cho chiều ThờiGian, TàiKhoản:

F ThờiGian = {NgàyCóHiệuLực ? Tháng, Tháng ? Quý, Quý ? Năm}

F TàiKhoản = {MãTàiKhoản ? MãTổChức,

MãTàiKhoản ? MãKháchHàng, MãTàiKhoản ? LoạiDoanhThu,

MãTàiKhoản ? LoạiQuyếtToán,

MãTàiKhoản ? MãSảnPhẩm,

MãSảnPhẩm ? LoạiSản Phẩm,

MãTổChức ? NhómTổChức, MãTổChức ? LoạiTổChức,

LoạiTổChức ? LoạiNghiệpVụ,

NhómTổChức ? LoạiNghiệp Vụ,

MãTổChức ? TênTổChức,

MãKháchHàng ? NghềNghiệp, MãKhách Hàng ? ChiNhánh,

NghềNghiệp ? LoạiKháchHàng, ChiNhánh ? LoạiKháchHàng,

MãKháchHàng ? TênKháchHàng, MãKháchHàng ? TuổiKháchHàng} Các chiều phân cấp ở dạng đồ họa:

…

MãTổChức

MãSảnPhẩm LoạiQuyếtToán LoạiDoanhThu

ChiNhánh

TênTổChức

TênKháchHàng TuổiKháchHàng

NhómTổChức LoạiTổChức

LoạiNghiệpVụ

LoạiSảnPhẩm

Trang 38

Trong chiều phân cấp TàiKhoản có thuộc tính TênKháchHàng và TênTổChức là thuộc tính riêng, dùng để miêu tả thêm thông tin cho mức chiều MãKháchHàng và MãTổChức Còn thuộc tính TuổiKháchHàng là thuộc tính riêng tùy chọn cho mức chiều MãKháchHàng, thuộc tính này có thể có giá trị <Null>

Phân cấp chiều có hai loại: Phân cấp đơn và phân cấp đa chiều Chiều ThờiGian thuộc phân cấp đơn, chiều TàiKhoản thuộc phân cấp đa chiều

Trong chiều TàiKhoản, {NghềNghiệp, ChiNhánh} là các mức chiều tùy chọn được nhóm chung với nhau vì mỗi phần tử của MãKháchHàng có liên quan đến NghềNghiệp hoặc ChiNhánh (là NghềNghiệp nếu khách hàng là một cá nhân, là ChiNhánh nếu khách hàng là một tổ chức) Lúc đó, MãKháchHàng là mức tách riêng và LoạiKháchHàng là mức kết nối

? Bước 3: Định nghĩa các ràng buộc khi tổng hợp dữ liệu

+ Lược đồ kho dữ liệu nên biểu diễn tường minh là tích hợp độ đo nào theo chiều nào bằng hàm tích hợp nào

Chúng ta tích hợp thông tin này vào lược đồ sự kiện dạng đồ họa bằng cách nối mỗi cặp các độ đo và các thuộc tính kết thúc bởi một cạnh có nhãn là các hàm tích hợp có ý nghĩa

Do đó, các tác giả cũng đề ra bốn mức hạn chế tăng dần của độ đo trong các

mức chiều trong Bảng 3.5

Cho một cặp (m, d) là độ đo m và mức chiều d, chúng ta kết hợp với một mức hạn chế, nếu tất cả các hàm tích hợp được áp dụng cho m từ mức chiều

d cho đến mỗi mức phụ thuộc hàm cao hơn

Mức hạn chế Các hàm tích hợp dữ liệu có thể áp dụng được

1 {SUM, AVG, MIN, MAX, STDDEV, VAR, COUNT}

2 {AVG, MIN, MAX, STDDEV, VAR, COUNT}

3 {COUNT}

4 {}

Bảng 3.5: Phân loại các mức hạn chế

+ Định nghĩa các mức hạn chế cho tất cả các độ đo theo các đường tích hợp dữ liệu khác nhau trong mỗi lược đồ sự kiện bằng đồ họa:

Với mỗi cặp các độ đo và các mức chiều, chúng ta định nghĩa mức hạn chế để mỗi câu truy vấn đa chiều có ý nghĩa có thể dựa vào các hàm tích hợp cho phép trên mỗi đường tích hợp dữ liệu

Trang 39

Ví dụ: Xây dựng lược đồ ý niệm về Tài Khoản ở Bước 3

Bảng tóm tắt lược đồ ý niệm Các sự kiện Tài Khoản :

Lược đồ sự kiện Độ đo Các mức chiều Mức hạn chế

Bảng 3.6: Bảng tóm tắt lược đồ sự kiện Các sự kiện Tài Khoản

Gán mức hạn chế cho độ đo QuyếtToán ứng với mức chiều MãTàiKhoản là 1 và độ đo QuyếtToán ứng với mức chiều NgàyCóHiệuLực là 2 Điều này có nghĩa toán tử tính tổng SUM cho độ đo QuyếtToán trong mức chiều NgàyCóHiệuLực không có ý nghĩa, nhưng trong mức chiều MãTàiKhoản lại có ý nghĩa

Lược đồ ý niệm Các sự kiện Tài Khoản ở dạng đồ họa:

Hình 3.10: Lược đồ ý niệm Các sự kiện Tài Khoản

Tóm lại, mô hình ý niệm này ở dạng chuẩn đa chiều tổng quát, và có hình thức đồ

MãTổChức

MãSảnPhẩm LoạiQuyếtToán LoạiDoanhThu

ChiNhánh

TênTổChức

TênKháchHàng TuổiKháchHàng

NhómTổChức LoạiTổChức

Trang 40

3.4 THIẾT KẾ LUẬN LÝ KHO DỮ LIỆU

3.4.1 Lược đồ chi tiết và tổng hợp

Dữ liệu chi tiết

Vì lượng dữ liệu chi tiết lớn nên nhiều tổ chức tìm cách để hạn chế lưu trữ và xử lý dữ liệu lặp lại Trong một số kho dữ liệu, không nạp dữ liệu giao dịch chi tiết vào kho dữ liệu Thay vào đó, thực hiện tổng hợp sơ bộ trong quá trình lấy dữ liệu để to ái thiểu chi phí, thời gian truyền và nạp các tập tin Mức tổng hợp giúp tránh tạo ra các báo cáo tốn nhiều thời gian thường hay đi kèm với dữ liệu chi tiết trong kho dữ liệu

Trong những tình huống khác, vẫn tồn tại quyết định cần nạp dữ liệu chi tiết Một cách tiếp cận thay thế là duy trì dữ liệu trong 12 tháng và những tổng hợp khác trong 5 năm hoặc lâu hơn nữa

Sau cùng là quá trình duy trì, lưu trữ và làm sạch dữ liệu chi tiết cũ

Dữ liệu tổng hợp và tóm tắt

Trong nhiều trường hợp, để định hướng, người sử dụng sẽ tìm dữ liệu tổng hợp dễ dàng hơn nhiều Khi tạo một dữ liệu tổng hợp, chúng ta có thể kết sẵn dữ liệu từ các bảng có liên quan khác nhau nhằm tránh làm những phép kết lúc tổng hợp dữ liệu

3.4.2 Lược đồ hình sao

Suy dẫn lược đồ hình sao từ thiết kế cơ sở dữ liệu đa chiều Mỗi hình sao là một bảng nhiều hàng ít cột và tập trung gồm các sự kiện – ghi lại một loại sự kiện hoặc biến cố cụ thể xảy ra trong ngữ cảnh nhiều chiều

Lược đồ hình sao thích hợp cho các câu truy vấn đặc biệt (và các dạng xử lý thông

tin khác), không thích hợp cho xử lý tương tác trực tuyến và do đó không dùng trong các

hệ thống tác vụ

Lược đồ hình sao gồm 2 loại bảng: bảng sự kiện và bảng chiều Bảng sự kiện chứa dữ liệu định lượng hoặc sự kiện Bảng chiều chứa dữ liệu miêu tả về một công việc Lược đồ hình sao đơn giản gồm 1 bảng sự kiện và xung quanh là nhiều bảng chiều

Ví dụ: Bảng sự kiện là ĐiểmMônHọc, và các bảng chiều là GIẢNGVIÊN, SINHVIÊN,

HỌCKỲ và NHÓMHK (nhóm môn học có trong học kỳ) Điểm môn học là sự kết hợp của việc sinh viên đăng ký môn học, giảng viên dạy môn học đó và môn học có trong học kỳ đó Các khóa của các bảng chiều xác định mẩu tin điểm trong bảng sự kiện ĐiểmMônHọc hay bảng sự kiện được xác định và phân loại theo các bảng chiều

Nhìn chung, lược đồ này không phải là mô hình mới, đó là một hiện thực cụ thể của mô hình dữ liệu quan hệ Bảng sự kiện đóng vai trò của một thực thể kết hợp, kết nối các thể hiện của các chiều khác nhau

Định dạng
Số trang	178
Dung lượng	1,44 MB