Các tác giả đóng góp 3 phần lớn: Các tác giả thiết lập các hướng dẫn để trả lời câu hỏi của thuộc tính nào ở mức chiều hoặc thuộc tính riêng; Các tác giả đề nghị hình thức đồ họa cho thi
Trang 1LỜI CẢM ƠN
Để có được ngày hôm nay, ngày hoàn thành luận văn tốt nghiệp này, bên cạnh sự nổ lực của bản thân, em còn nhận được sự giúp đỡ và hổ trợ quý báu của rất nhiều người
Con xin ghi tạc công lao sinh thành, dưỡng dục trời bể của cha mẹ
Em vô cùng biết ơn quý Thầy Cô đã hết lòng truyền đạt cho em những kiến thức, cũng như những kinh nghiệm của Thầy Cô
Em xin chân thành cám ơn các Thầy hướng dẫn Tiến Sĩ Dương Tuấn Anh và Thầy Thạc Sĩ Nguyễn Trung Trực Các Thầy đã tận tình chỉ bảo em trong suốt quá trình học tập, làm Đề Cương và làm Luận Văn Tốt Nghiệp, các Thầy đã giúp em hoàn thành Luận Văn Tốt Nghiệp
Em xin chân thành cám ơn các anh chị và các Thầy Cô thuộc Phòng Quản lý Sau đại học, Khoa Công Nghệ Thông Tin đã giúp đỡ em trong suốt quá trình học tập tại trường Cũng như tất cả các anh chị và các bạn đã cùng trao đổi, giúp đỡ
em trên con đường học vấn
Thành phố Hồ Chí Minh, tháng 8 năm 2003
Sinh viên Cao Học khóa 11
Võ Thị Ngọc Trân
Trang 2MỤC LỤC
LỜI CẢM ƠN i
MỤC LỤC ii
DANH MỤC CÁC BẢNG iv
DANH MỤC CÁC HÌNH VẼ v
TÓM TẮT vii
ABSTRACT viii
CHƯƠNG 1 GIỚI THIỆU 1
1.1 TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN CỦA ĐỀ TÀI 1
1.2 PHẠM VI, ĐỘNG CƠ THÚC ĐẨY VÀ MỤC TIÊU 1
1.3 NHỮNG ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN 2
1.4 SƠ LƯỢC CẤU TRÚC LUẬN VĂN 3
CHƯƠNG 2 CÁC CÔNG TRÌNH LIÊN QUAN 5
2.1 GIỚI THIỆU 5
2.2 CÁC CÔNG TRÌNH LIÊN QUAN 5
2.3 SO SÁNH CÁC CÔNG TRÌNH 13
2.4 KẾT LUẬN 15
CHƯƠNG 3 CƠ SỞ LÝ THUYẾT VỀ KHO DỮ LIỆU 16
3.1 GIỚI THIỆU 16
3.2 TỔNG QUAN VỀ KHO DỮ LIỆU 16
3.3 THIẾT KẾ Ý NIỆM KHO DỮ LIỆU 26
3.4 THIẾT KẾ LUẬN LÝ KHO DỮ LIỆU 32
3.5 THIẾT KẾ VẬT LÝ KHO DỮ LIỆU 40
3.6 KẾT LUẬN 49
CHƯƠNG 4 ỨNG DỤNG CÁCH TIẾP CẬN KHO DỮ LIỆU CHO HỆ THỐNG QUẢN LÝ HỌC VỤ 50
4.1 GIỚI THIỆU 50
4.2 MÔ TẢ VÀ PHÂN TÍCH ỨNG DỤNG 51
4.3 THIẾT KẾ Ý NIỆM KHO DỮ LIỆU 56
4.4 THIẾT KẾ ỨNG DỤNG 61
Trang 34.5 HIỆN THỰC ỨNG DỤNG 68
4.6 KẾT LUẬN 95
CHƯƠNG 5 KẾT LUẬN 97
5.1 ĐÁNH GIÁ VÀ KẾT LUẬN 97
5.2 HƯỚNG PHÁT TRIỂN CỦA LUẬN VĂN 98
TÀI LIỆU THAM KHẢO 100 PHỤ LỤC A CÔNG CỤ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN A-1
A.1 GIỚI THIỆU A-1 A.2 CÁC TIÊU CHUẨN CHUNG CỦA OLAP A-1 A.3 OLAP CỦA MICROSOFT SQL SERVER A-7 A.4 SO SÁNH GIỮA OLAP CỦA MICROSOFT VÀ ORACLE A-12 A.5 KẾT LUẬN A-16
PHỤ LỤC B CÁC CÔNG CỤ XÂY DỰNG KHO DỮ LIỆU B-1
B.1 GIỚI THIỆU B-1
B.2 DỊCH VỤ CHUYỂN DẠNG DỮ LIỆU (Data Transformation Service, DTS) B-1 B.3 CÁC DỊCH VỤ PHÂN TÍCH (Analysis Services) B-20
B.4 KẾT LUẬN B-27
PHỤ LỤC C CÁCH CÀI ĐẶT CHƯƠNG TRÌNH C-1
C.1 CÁCH CÀI ĐẶT PHẦN MỀM C-1 C.2 CÁCH THIẾT LẬP CẤU HÌNH CHO CHƯƠNG TRÌNH C-1
PHỤ LỤC D CÁC MÀN HÌNH GIAO DIỆN D-1 PHỤ LỤC E BẢNG THUẬT NGỮ VIỆT ANH ĐỐI CHIẾU E-1
Trang 4DANH MỤC CÁC BẢNG
Bảng 2.1: Phân loại các mức hạn chế 7
Bảng 2.2: So sánh các công trình về mô hình ý niệm kho dữ liệu 15
Bảng 3.1: Các đặc tính của kho dữ liệu 18
Bảng 3.2: So sánh OLTP và kho dữ liệu 19
Bảng 3.3: So sánh kho dữ liệu và trung tâm dữ liệu 21
Bảng 3.4: Các phụ thuộc hàm giữa các mức chiều kết thúc và các độ đo 27
Bảng 3.5: Phân loại các mức hạn chế 30
Bảng 3.6: Bảng tóm tắt lược đồ sự kiện Các sự kiện Tài Khoản 31
Bảng 3.7: Các kỹ thuật khai phá dữ liệu 43
Bảng 4.1: Bảng các phụ thuộc hàm giữa mức chiều kết thúc và độ đo 57
Bảng 4.2: Bảng tóm tắt các lược đồ ý niệm kho dữ liệu 60
Bảng 4.3: Các bảng dùng để quản lý tiến trình nạp dữ liệu 73
Bảng 4.4: Các bảng trong lược đồ phân quyền người sử dụng trong chủ thể 90
Bảng 4.5: Các bảng trong lược đồ quản lý phần truy vấn có tham số 92 Bảng A.1: So sánh OLAP và OLTP A-2 Bảng A.2: 12 luật của Codd về OLAP A-3 Bảng A.3: Tóm tắt các loại phân tích của nhà phân tích A-4 Bảng A.4: So sánh sự khác nhau giữa MOLAP và ROLAP A-7 Bảng A.5: Sự giống nhau giữa OLAP của Microsoft và Oracle A-13 Bảng A.6: Sự khác nhau giữa OLAP của Microsoft và Oracle A-15 Bảng B.1: Các task sao chép và quản lý dữ liệu .B-12 Bảng B.2: Các task chuyển dạng dữ liệu .B-12 Bảng B.3: Các task thực thi các công việc B-13 Bảng B.4: Các thông số sử dụng cho lệnh dtsrun.exe B-18
Trang 5DANH MỤC CÁC HÌNH VẼ
Hình 3.1: Kiến trúc kho dữ liệu 2 mức tổng quát 19
Hình 3.2: Kiến trúc kho dữ liệu 3 lớp 20
Hình 3.3: Kiến trúc dữ liệu 3 lớp 23
Hình 3.4: Kiến trúc kho dữ liệu 3 lớp theo khía cạnh dòng dữ liệu 25
Hình 3.5: Phần thu nhận dữ liệu hình thành mặt sau của kho dữ liệu 25
Hình 3.6: Tổ chức dữ liệu trong kho dữ liệu 26
Hình 3.7: Mặt trước của kho dữ liệu 26
Hình 3.8: Một phần của lược đồ ý niệm về các sự kiện tài khoản 28
Hình 3.9: Các phân cấp chiều ở dạng đồ họa 29
Hình 3.10: Lược đồ ý niệm Các sự kiện Tài Khoản 31
Hình 3.11: Lược đồ minh họa cho lược đồ hình sao 33
Hình 3.12: Lược đồ minh họa cho lược đồ bông tuyết 35
Hình 3.13: Kiến trúc chi tiết kho dữ liệu 40
Hình 4.1: Sơ đồ ngữ cảnh của hệ thống hỗ trợ ra quyết định về học vụ 52
Hình 4.2: Sơ đồ DFD mức 0 của hệ thống hỗ trợ ra quyết định về học vụ 53
Hình 4.3: Sơ đồ DFD mức 1 của quá trình 1 Nạp dữ liệu vào kho 54
Hình 4.4: Sơ đồ DFD mức 1 của quá trình 2 Truy vấn dữ liệu 55
Hình 4.5: Phân cấp các chiều trong kho dữ liệu 57
Hình 4.6: Lược đồ ý niệm kho dữ liệu 59
Hình 4.7: Kiến trúc kho dữ liệu của hệ thống 61
Hình 4.8: Chiều phân cấp Truong_Khoa 63
Hình 4.9: Chiều và lược đồ phân cấp Truong_Khoa 63
Hình 4.10: Chiều và lược đồ phân cấp Truong_Khoa_BoMon 64
Hình 4.11: Chiều và lược đồ phân cấp Truong_Khoa_Lop 64
Hình 4.12: Chiều và lược đồ phân cấp Truong_Khoa_Lop_SinhVien 65
Hình 4.13: Chiều và lược đồ phân cấp Ten Hoc Ky 65
Hình 4.14: Chiều và lược đồ Ten Truong 66
Hình 4.15: Khối dữ liệu Thong tin ve Lop 66
Hình 4.16: Khối dữ liệu Thong tin ve Sinh Vien 67
Hình 4.17: Khối dữ liệu Thong tin ve TKB 68
Hình 4.18: Giải thuật nạp dữ liệu hiện hành vào kho dữ liệu 70
Hình 4.19: Minh họa việc thực thi các thủ tục khi nạp dữ liệu vào kho dữ liệu 71
Hình 4.20: Lược đồ quản lý tiến trình nạp dữ liệu vào kho dữ liệu 73
Hình 4.21: Tiến trình gắn cơ sở dữ liệu cũ vào kho dữ liệu 74
Hình 4.22: Tiến trình gỡ bỏ cơ sở dữ liệu cũ khỏi kho dữ liệu 75
Hình 4.23: Nạp dữ liệu vào kho dữ liệu 75
Hình 4.24: Xoay chiều dữ liệu 77
Hình 4.25: Duyệt chiều của khối dữ liệu 77
Hình 4.26: Đồ thị minh họa cho khối dữ liệu 78
Trang 6Hình 4.28: Duyệt khai phá dữ liệu 80
Hình 4.29: Khai phá dữ liệu dạng số kết hợp với đồ thị truyền thống 81
Hình 4.30: Giải thuật tạo câu truy vấn động 83
Hình 4.31: Tiến trình truy vấn theo chế độ từng bước, thiết kế hay trực tiếp 84
Hình 4.32: Truy vấn động 85
Hình 4.33: Giải thuật xây dựng công cụ truy vấn bằng ngôn ngữ Việt 86
Hình 4.34: Tiến trình truy vấn bằng ngôn ngữ Việt 87
Hình 4.35: Truy vấn bằng ngôn ngữ Việt 88
Hình 4.36: Lược đồ phân quyền người sử dụng trong chủ thể 89
Hình 4.37: Lược đồ quản lý phần truy vấn có tham số 90
Hình 4.38: Tiến trình người sử dụng truy vấn các câu truy vấn có tham số 93
Hình 4.39: Truy vấn có tham số 95 Hình B.1: Tổng quan về kiến trúc DTS B-2 Hình B.2: Hộp hội thoại Connection Properties B-4 Hình B.3: Hộp hội thoại Package Properties cho package B-6 Hình B.4: Hộp hội thoại Package Properties cho DTS B-7 Hình B.5: Hộp hội thoại Select Wizard B-9
Hình B.6: Chọn nguồn dữ liệu (Data Source) cho DTS Export Wizard B-9
Hình B.7: DTS Designer B-10 Hình B.8: ActiveX Script task .B-14 Hình B.9: Hộp hội thoại Save DTS Package B-15 Hình B.10: Giao diện người sử dụng từ dtsrunui.exe .B-19 Hình B.11: Kiến trúc Analysis Services B-21 Hình B.12: Hộp hội thoại Usage-Based Optimization Wizard B-23
Trang 7TÓM TẮT
Cho đến nay, công nghệ thông tin được khai thác nhằm ứng dụng nhiều vào các hệ thống xử lý giao dịch trực tuyến để hỗ trợ nghiệp vụ cho nhiều người sử dụng đầu cuối Tuy nhiên, ở những cấp quản lý càng cao của các hệ thống, công cụ và ứng dụng của công nghệ thông tin dường như chưa được quan tâm nhiều, trong khi đó, người quản lý cấp cao luôn cần số liệu thống kê tương đối chính xác và kịp thời Kho dữ liệu ra đời h ỗ trợ cho người quản lý cấp cao phân tích dữ liệu Kho dữ liệu tích hợp dữ liệu lại với khối lượng dữ liệu lớn và tổ chức dữ liệu theo dạng đa chiều Bên cạnh đó, kho dữ liệu có hỗ
trợ một số công cụ như công cụ xử lý phân tích trực tuyến (OLAP) giúp người sử dụng
xem và xoay chiều dữ liệu thống kê theo các chiều quan tâm; công cụ khai phá dữ liệu
(data mining) giúp tìm hiểu các nhóm dữ liệu tương đương và điều kiện chung của từng
nhóm hay các cây dữ liệu theo tỷ lệ tương ứng trên mỗi nhánh và từ đó, cho người sử dụng cái nhìn rõ hơn về dữ liệu trong kho dữ liệu
Luận văn này nhằm tìm hiểu kho dữ liệu và xây dựng ứng dụng là hệ thống quản lý học vụ của Đại Học Quốc Gia thành phố Hồ Chí Minh và các trường thành viên Các công cụ như OLAP, khai phá dữ liệu được khai thác tối đa, đồng thời những thiếu sót của OLAP trong việc truy xuất dữ liệu được khắc phục qua việc tạo công cụ truy vấn động, cải tiến phần thống kê dữ liệu của khai phá dữ liệu bằng thống kê dạng số và vẽ các dạng đồ thị minh họa Cũng tận dụng khả năng của công cụ OLAP, cơ sở dữ liệu quan hệ và công cụ truy vấn bằng tiếng Anh, phần truy vấn bằng ngôn ngữ Việt có khả năng tạo và thực thi các câu truy vấn ở dạng giao tiếp từng bước hoặc trực tiếp Với mỗi nhóm chủ thể người sử dụng, phần truy vấn có tham số tạo sẵn các câu hỏi thường sử dụng lại nhiều lần, các mẫu báo cáo, các mẫu đồ thị được thiết kế nhằm làm phong phú báo cáo cuối cùng và đa dạng quá trình phân tích dữ liệu của người sử dụng Ngoài ra, để tích hợp dữ liệu từ nhiều hệ thống khác nhau, kho dữ liệu cần có các quá trình lấy, chuyển dạng, nạp và làm tươi dữ liệu theo định thời Các quá trình này đã được xây dựng và quản lý nhờ vào siêu dữ liệu
Trang 8ABSTRACT
So far, information techno logy has been employed in several online transaction processing systems in order to support end -users in their business However, for higher management levels in organizations, there doesn’t exist so very few tools and applications to support them to retrieve exact and real-time statistic data necessary for their decision-making process Data warehouse, as a new technology, has emerged recently to support top managers to analyze data Data warehouse integrates data sources from many different systems into a large amount of data and then organizes its data into multidimensional form Besides, data warehouse includes some proprietary tools, such as OLAP OLAP helps users view and rotate statistic data according to the dimensions of interest Besides, data mining tools also enable users to discover related data groups as well as common conditions of each group or data trees with a percentage rate for each branch of the trees Using these tools, end -users can obtain a complete view and a clearer understanding about data in the data warehouse
This thesis aims to study data warehouse technology and apply it into an academic information system for Vietnamese National University of Ho Chi Minh City and its three members Several tools such as OLAP and data mining have been employed One drawback of OLAP in querying data has been overcome by creating a dynamic query tool Some data mining tools have also been improved in order to be able to display statistic data in both numeric representation and illustrative chart Together with the capabilities of OLAP, relational database and English query engine, a query tool supporting Vietnamese language has also been developed This query tool can be used
to create and execute queries in two modes: (i) through a wizard and (ii) by entering a query in Vietnamese For users from different subject groups, a parametric query tool can provide in advance several commonly -used query patterns, reporting templates and well-defined charts that help to make final reports attractive and to diversify users’ data analysis process Moreover, integrating data from many different systems requires
a few of processes such as extracting, transforming, loading and refreshing in schedule The processes were implemented and managed through metadata
Trang 9CHƯƠNG 1 GIỚI THIỆU
GIỚI THIỆU
1.1 TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN CỦA ĐỀ TÀI
Trong nhiều thập niên qua, có rất nhiều cách tiếp cận cơ sở dữ liệu khác nhau Các tiếp cận này ngày một cải tiến dần để phù hợp với thực tế và đáp ứng nhu cầu lưu trữ và sử dụng dữ liệu Từ các tiếp cận hướng tập tin, phân cấp, mạng đến cơ sở dữ liệu quan hệ, các hệ thống phân bố, hướng đối tượng và quan hệ hướng đối tượng, kho dữ liệu cũng ra đời từ đó
Vào những năm 1970, E.F.Codd và một số người khác đã phát triển cơ sở dữ liệu quan hệ Với mô hình quan hệ, tất cả các dữ liệu đều được trình bày ở dạng bảng Cũng
từ đó, ngôn ngữ truy vấn có cấu trúc (SQL) phát triển theo, nhằm để lấy dữ liệu từ các
bảng trong cơ sở dữ liệu quan hệ Tuy nhiên, cơ sở dữ liệu quan hệ chỉ hạn chế việc lưu trữ và trình bày dữ liệu ở dạng hai chiều Còn trong thực tế, có những vấn đề không chỉ nhìn dưới dạng hai chiều mà có thể có nhiều hơn hai chiều Từ đó, cơ sở dữ liệu đa chiều ra đời vào những năm 1990 Đồng thời công cụ OLAP cũng ra đời để truy xuất dữ liệu đa chiều E.F.Codd cũng là người đầu tiên giới thiệu OLAP vào năm 1993 Từ cơ sở dữ liệu đa chiều, công cụ OLAP và những nhu cầu thực tế như tích hợp dữ liệu từ nhiều nguồn dữ liệu có liên quan với nhau lại thành một nguồn dữ liệu thống nhất, trong khi đó những nguồn dữ liệu có liên quan ở những hệ thống hiện hành vẫn hoạt động bình thường với những chức năng của nó, và nhiều nhu cầu khác nữa, kho dữ liệu đã ra đời
Vì kho dữ liệu mới ra đời gần đây, vẫn còn tính mở nên có rất nhiều người định nghĩa kho dữ liệu khác nhau tùy vào cách định nghĩa kho dữ liệu theo cấu trúc, theo chức năng hay theo mục đích của kho dữ liệu Mặc dù cách định nghĩa và quan niệm về kho dữ liệu có khác nhau, nhưng bản thân kho dữ liệu vẫn có những chức năng và đặc điểm nhằm giải quyết những vấn đề thực tế đặt ra và giúp cho người sử dụng dễ dàng hơn khi sử dụng dữ liệu trong kho dữ liệu
1.2 PHẠM VI, ĐỘNG CƠ THÚC ĐẨY VÀ MỤC TIÊU
Ngày nay, với sự ph át triển nhanh của khoa học kỹ thuật, kinh tế và nhiều lĩnh vực khác, dữ liệu ngoài việc sử dụng để lưu trữ một vấn đề, dữ liệu còn tiềm ẩn bên trong những thông tin nào đó Nếu chúng ta sử dụng tốt những thông tin này, chúng ta sẽ có được những quyết định có tính khả thi cao, đúng lúc và phù hợp với xu hướng trong tương lai Nhưng trong thực tế, có nhiều vấn đề đặt ra, chẳng hạn như dữ liệu càng ngày càng nhiều hơn, dữ liệu không còn sử dụng trong các hệ thống hiện hành, dữ liệu ở nhiều nơi trên các hệ thống khác nhau, dữ liệu được xây dựng từ nhiều nhóm người khác
Trang 10dữ liệu đó Từ những vấn đề thực tế đó, cách tiếp cận kho dữ liệu đã ra đời Tuy nhiên, việc xây dựng kho dữ liệu rất khác nhau tùy thuộc vào những lựa chọn về phần cứng, phần mềm cũng như nghiệp vụ
Mục đích của luận văn này là tìm hiểu lý thuyết về kho dữ liệu và ứng dụng nó trong hệ quản lý học vụ Kho dữ liệu có thể tích hợp dữ liệu không đồng nhất từ nhiều hệ thống có liên quan với nhau thành một hệ thống thống nhất Dữ liệu được đưa về một dạng chung nhất nhờ vào các quá trình như lấy dữ liệu, chuyển dạng dữ liệu, nạp dữ liệu và làm tươi dữ liệu theo thời gian định sẵn và theo chu kỳ Ngoài ra, dữ liệu còn được tổ chức thành dạng đa chiều, nhằm làm tiện lợi hơn cho người sử dụng khi phân tích dữ liệu trên chiều dữ liệu mà người sử dụng quan tâm
Trong hệ quản lý học vụ, để có một thông tin tổng quát, một cái nhìn toàn diện về một chủ đề gì đó, chẳng hạn như các trường muốn cùng nhau tổ chức một buổi học thực tế ở các phân xưởng bên ngoài trường và phân chia sinh viên ở các khu vực trong các phân xưởng sao cho hợp lý, các trường cần nắm một số thông tin về sinh viên, cụ thể là Đại Học Quốc Gia thành phố Hồ Chí Minh và các trường thành viên có bao nhiêu sinh viên, trường nào có nhiều sinh viên nhất, trường nào có ít sinh viên nhất, … Những câu hỏi tổng quát như thế không thể nào giải quyết trên từng hệ thống đơn lẻ của từng trường được Do đó, việc xây dựng kho dữ liệu dùng để quản lý học vụ cho Đại Học Quốc Gia và các trường thành viên, cùng một số công cụ phân tích dữ liệu là cần thiết Lúc đó, bên cạnh việc kho dữ liệu giải quyết được những vấn đề đã nêu, các hệ thống của các trường không phải sửa lại hay xây dựng lại, các hệ thống cũ đó vẫn hoạt động bình thường với những chức năng của nó Riêng đối với kho dữ liệu, cần nạp dữ liệu vào kho theo thời gian định sẵn hoặc theo yêu cầu của người sử dụng
1.3 NHỮNG ĐÓNG GÓP CHÍNH CỦA LUẬN VĂN
Sau đây là những đóng góp chính của luận văn đối với đề tài này:
? Luận văn tìm hiểu các mô hình ý niệm cho kho dữ liệu mới xuất hiện trong những năm gần đây, sau đó áp dụng mô hình ý niệm thích hợp cho kho dữ liệu, và xây dựng kho dữ liệu cho hệ quản lý học vụ như vùng chuẩn bị dữ liệu, cơ sở dữ liệu quan hệ, và cơ sở dữ liệu đa chiều
? Để cập nhật dữ liệu trong kho dữ liệu theo yêu cầu của người sử dụng, luận văn xây dựng công cụ nạp dữ liệu vào kho có sử dụng siêu dữ liệu
? Mặc dù, công cụ OLA P có khả năng lấy dữ liệu đa chiều trong kho, nhưng OLAP không có khả năng lấy bất kỳ dữ liệu chi tiết như SQL Vì thế, luận văn xây dựng thêm công cụ truy vấn động để người sử dụng có thể lấy bất kỳ dữ liệu nào tùy theo yêu cầu
Trang 11? Cũng tận dụng khả năng của OLAP, cơ sở dữ liệu quan hệ, và công cụ truy vấn bằng tiếng Anh, luận văn có tạo công cụ truy vấn bằng tiếng Việt Công cụ này nhận trực tiếp những câu truy vấn ở dạng tiếng Việt không dấu hoặc ở chế độ giao tiếp từng bước
? Một công cụ thường đi chung với OLAP là khai phá dữ liệu (data mining) Nhưng
khai phá dữ liệu trình bày dạng giao diện mới rất khó nhìn cho người sử dụng Luận văn cũng khắc phục vấn đề này bằng cách tạo dạng trình bày dữ liệu là số và số kết hợp với đồ thị minh họa, đồng thời cũng thêm trang trợ giúp cho người sử dụng
? Luận văn cũng tạo công cụ truy vấn có tham số Công cụ này có mục đích tạo sẵn những câu truy vấn thường được sử dụng lại nhiều lần Đồng thời, luận văn xây dựng thêm các mẫu báo cáo có thể định dạng lại và các loại đồ thị để làm phong phú cho các báo cáo cuối cùng
Luận văn xây dựng và quản lý tất cả các công cụ này dựa vào siêu dữ liệu Luận văn cũng hiện thực tất cả các công cụ này trong môi trường web theo mô hình chủ/khách , nhằm phục vụ cho nhiều người sử dụng khác nhau
1.4 SƠ LƯỢC CẤU TRÚC LUẬN VĂN
Bản thuyết minh luận văn này gồm 5 chương:
Chương 1 Giới thiệu Chương này trình bày hiện trạng thực tế và những lý do thực hiện luận văn này, từ đó nhận ra những vấn đề cần thiết nào đặt ra cho luận văn
Chương 2 Các công trình liên quan Chương này trình bày những vấn đề mà những tác giả đang nghiên cứu hiện nay có liên quan đến luận văn, hoặc có sử dụng trong phần hiện thực chương trình ứng dụng
Chương 3 Cơ sở lý thuyết về kho dữ liệu Chương này trình bày cơ sở lý thuyết về kho dữ liệu từ các khái niệm cơ bản đến phân tích và thiết kế luận lý cũng như vật lý kho dữ liệu
Chương 4 Ứng dụng cách tiếp cận kho dữ liệu cho hệ thống quản lý học vụ Chương này trình bày các mô tả và phân tích hệ thống, thiết kế kho dữ liệu cho hệ quản lý học vụ, và cuối cùng là xây dựng siêu dữ liệu, giải thuật và hiện thực các công cụ cần thiết cho ứng dụng
Chương 5 Kết luận Chương này nhằm đưa ra những kết quả hiện thực được, đánh giá những kết quả đó, và hướng phát triển thêm về sau cho từng kết quả đó
Ngoài ra, bản thuyết minh luận văn có thêm một số phụ lục nhằm giới thiệu chi tiết
Trang 12thực chương trình ứng dụng, cũng như hướng dẫn sử dụng, cài đặt chương trình đính kèm trên client và trên server, kế đến là các màn hình giao diện minh họa của chương trình, cuối cùng là bảng thuật ngữ Việt Anh đối chiếu
Phụ lục A Công cụ xử lý phân tích trực tuyến
Phụ lục B Các công cụ xây dựng kho dữ liệu
Phụ lục C Cách cài đặt chương trình
Phụ lục D Các màn hình giao diện
Phụ lục E Bảng thuật ngữ Việt Anh đối chiếu
Trang 13CHƯƠNG 2 CÁC CÔNG TRÌNH LIÊN QUAN
CÁC CÔNG TRÌNH LIÊN QUAN
2.1 GIỚI THIỆU
Cho đến nay, việc thiết kế kho dữ liệu tập trung vào việc to å chức dữ liệu vật lý
(nghĩa là, cấu trúc “bên trong”), vì khối lượng dữ liệu lớn và độ phức tạp của dữ liệu
nhiều
Vài năm trở lại đây, giới nghiên cứu về kho dữ liệu bắt đầu quan tâm đến bước thiết kế ý niệm, tức là bước mô hình ngữ nghĩa Bước này nhằm giao tiếp giữa người thiết kế và người sử dụng, độc lập với vấn đề hiện thực, sớm dò ra các lỗi mô hình, tinh chế tải làm việc và phê chuẩn lược đồ Do đó, luận văn sẽ tìm hiểu một số mô hình ý niệm mới trong phần 2.2 và so sánh các mô hình này trong phần 2.3
Chương này gồm 4 phần chính:
Phần 2.1: Giới thiệu sơ lược nội dung và cấu trúc của chương
Phần 2.2: Các công trình liên quan Phần này trình bày tổng quan về các mô hình ý niệm kho dữ liệu, vì mô hình ý niệm là những nét mới và được nhiều tác giả quan tâm trong những năm gần đây
Phần 2.3: So sánh các công trình liên quan Phần này so sánh các mô hình ý niệm kho dữ liệu, để thấy được điểm mạnh, điểm yếu của các mô hình ý niệm
Phần 2.4: Kết luận
Chương này sử dụng tài liệu tham khảo [1 7], [18], [19], [20] và [21]
2.2 CÁC CÔNG TRÌNH LIÊN QUAN
1 Công trình của Bodo Hüsemann, Jens Lechtenb ưrger, Gottfried Vossen; 2000; trong bài báo “Thiết kế ý niệm kho dữ liệu” (Theo [20]):
Các tác giả đề ra hai yếu tố cần thiết để thiết kế lược đồ kho dữ liệu ở dạng chuẩn
đa chiều tổng quát là:
? Thực tế hiện tại trong kho dữ liệu và các ứng dụng đánh dấu một sự khởi đầu cơ bản từ các nguyên tắc thiết kế lược đồ ở dạng chuẩn hóa
? Không chú ý nhiều đến:
+ Sự phát triển đầy đủ các phương pháp thiết kế kho dữ liệu tổng quát hoặc
Trang 14+ Sự thiết lập các hướng dẫn cho thiết kế lược đồ tốt hoặc các ràng buộc toàn vẹn trong ngữ cảnh của các mô hình đa chiều
Các tác giả chia quá trình thiết kế kho dữ liệu ý niệm thành ba bước:
? Bước 1: Định nghĩa ngữ cảnh của các độ đo
+ Xác định các phụ thuộc hàm từ các mức của chiều vào các độ đo: bằng cách xác định các khóa tối thiểu cho mỗi độ đo, và định nghĩa phụ thuộc hàm từ khóa tối thie åu đó vào độ đo, các khóa này hình thành nên các mức chiều kết
thúc, và là gốc của các phân cấp trong chiều (với Mỗi chiều phân cấp chỉ có
một mức chiều kết thúc) Nếu các độ đo có cùng một nhóm chiều giống nhau,
thì gom vào cùng một lược đồ sự kiện
+ Thiết kế ý niệm đồ họa bằng cách mô hình lược đồ sự kiện phụ thuộc vào các mức chiều kết thúc
? Bước 2: Thiết kế phân cấp của chiều
+ Xác định tất cả các phụ thuộc hàm giữa các mức của chiều với một chiều có mức chiều kết thúc
o Phân biệt các thuộc tính riêng và các mức chiều theo các yêu cầu lúc
phân tích (Thuộc tính riêng là thuộc tính dùng để chọn lựa dữ liệu, nhưng
không dùng để tích hợp dữ liệu)
o Xác định các phân cấp chiều bằng cách xây dựng đồ thị với các nút là các mức của chiều
o Thêm các thuộc tính riêng vào các mức chiều ở dạng đồ họa
o Xác định các chiều ở dạng lựa chọn hay tùy chọn (là tùy chọn, nếu có
nhiều phân cấp trong một chiều) Vì một chiều có thể có nhiều phân cấp
khác nhau, các phân cấp này tạo cho chiều có tính đầy đủ và các phân cấp cũng không được giao nhau
+ Suy dẫn phân cấp chiều dạng đồ họa
? Bước 3: Định nghĩa các ràng buộc khi tổng hợp dữ liệu
+ Lược đồ kho dữ liệu nên biểu diễn tường minh là tích hợp độ đo nào theo chiều nào bằng hàm tích hợp nào Do đó, các tác giả cũng đề ra bốn mức hạn chế tăng dần của độ đo trong các mức chiều như sau:
Trang 15Mức hạn chế Các hàm tích hợp dữ liệu có thể áp dụng được
1 {SUM, AVG, MIN, MAX, STDDEV, VAR, COUNT}
2 {AVG, MIN, MAX, STDDEV, VAR, COUNT}
3 {COUNT}
4 {}
Bảng 2.1: Phân loại các mức hạn chế
+ Định nghĩa các mức hạn chế cho tất cả các độ đo theo các đường tích hợp dữ liệu khác nhau trong mỗi lược đồ sự kiện bằng đồ họa
Tóm lại, các tác giả trình bày cách thức lấy lược đồ kho dữ liệu từ lược đồ cơ sở dữ liệu tác vụ ở mức ý niệm Các tác giả đóng góp 3 phần lớn: Các tác giả thiết lập các hướng dẫn để trả lời câu hỏi của thuộc tính nào ở mức chiều hoặc thuộc tính riêng; Các tác giả đề nghị hình thức đồ họa cho thiết kế ý niệm; Các tác giả cũng trình bày tạo
dạng chuẩn đa chiều tổng quát khi thiết kế ý niệm lược đồ kho dữ liệu
2 Công trình của Matteo Golfarelli, Dario Maio, Stefano Rizzi; 1998; trong bài báo
“Thiết kế ý niệm kho dữ liệu từ các lược đồ E/R“ (Theo [17]):
Theo các tác giả, bước tổ chức và tích hợp dữ liệu nhất quán trong kho dữ liệu là khác so với các kỹ thuật dùng trong các hệ thống tác vụ Bước này cũng giữ vai trò tối
ưu hóa hiệu suất của hệ thống bằng cách quản lý độ thưa của dữ liệu và tối ưu hóa truy xuất dữ liệu được kết hợp
Từ nhận xét trên, các tác giả đã đề nghị mô hình ý niệm dạng đồ họa dành cho kho
dữ liệu Đó là mô hình sự kiện chiều (DF, Dimensional Fact) Các tác giả cũng đề ra
phương pháp bán tự động để xây dựng mô hình từ các lược đồ quan hệ thực thể miêu tả
cơ sở dữ liệu tồn tại trước đó
Mô hình sự kiện chiều DF là một tập hợp các lược đồ sự kiện có cấu trúc cây, gồm các phần tử là các sự kiện, các thuộc tính, các chiều và các phân cấp Ngoài ra, có phần
thêm vào các thuộc tính sự kiện đi kèm các chiều (có 3 loại: thuộc tính sự kiện tăng
cường (additive) nếu các chiều được tính toán trên tất cả các phân cấp, thuộc tính sự kiện bán tăng cường (semi-additive) nếu thuộc tính đó không thêm vào một số chiều, thuộc tính sư ï kiện không tăng cường (non-additive) nếu thuộc tính đó không thêm vào bất kỳ chiều nào), khả năng lựa chọn của các thuộc tính chiều, và sự tồn tại của các thuộc tính
không chiều Các lược đồ sự kiện thích hợp có thể bị trùng lắp, để tạo quan hệ và so sánh dữ liệu Cũng có thể kết hợp các thông tin về tải làm việc được dự đoán trước vào các lược đồ sự kiện, nhằm thể hiện trong các mẫu truy vấn, để làm thông tin nhập cho giai đoạn thiết kế Kết quả của giai đoạn thiết kế là các lược đồ kho dữ liệu ở mức luận
Trang 16Phương pháp luận để xây dựng mô hình DF từ các lược đồ quan hệ – mối liên kết E/R hiện có, phương pháp này gồm các bước:
? Định nghĩa các sự kiện: Lược đồ E/R trình bày sự kiện bởi thực thể hoặc bởi mối liên kết n ngôi giữa các thực thể Mỗi sự kiện trở thành gốc của một lược đồ sự kiện khác
? Với mỗi sự kiện:
+ Xây dựng cây thuộc tính: Cây thuộc tính là cây có:
o Mỗi đỉnh tương ứng với một thuộc tính của lược đồ
o Nút gốc tương ứng với danh định của sự kiện F
o Đối với mỗi đỉnh của v, một thuộc tính tương ứng sẽ xác định tất cả các thuộc tính tương ứng với các con cháu của v
+ Cắt bớt và ghép cây thuộc tính:
o Cắt bớt cây thuộc tính bằng cách bỏ đi bất kỳ nhánh con nào của cây Các thuộc tính bị bỏ sẽ không được đưa vào lược đồ sự kiện, do đó sẽ không được dùng để tích hợp dữ liệu
o Ghép cây thuộc tính khi các con cháu của một đỉnh được giữ lại, mặc dù các đỉnh giữ lại đó của cây thể hiện thông tin không cần thiết Ghép con của nút gốc tương ứng với việc làm giảm độ mịn các thể hiện của sự kiện, và nếu nút ghép có nhiều hơn một con, thì sẽ làm tăng số chiều trong lược đồ sự kiện
+ Định nghĩa các chiều: Chiều xác định cách thức tích hợp các thể hiện sự kiện có ý nghĩa cho quá trình ra quyết định Chọn các chiều từ cây thuộc tính giữa các đỉnh con của nút gốc (bao gồm các thuộc tính con của nút gốc này sau khi ghép cây thuộc tính); và tương ứng với các thuộc tính rời rạc hoặc là miền các thuộc tính liên tục hay rời rạc Sự lựa chọn này quyết định độ mịn của
các thể hiện sự kiện Chiều thời gian có hai loại: ảnh sao (snapshot) và phụ thuộc thời gian (temporal) Lược đồ ảnh sao miêu tả trạng thái hiện tại của
miền ứng dụng; các phiên bản mới của dữ liệu liên tục thay thế các phiên bản cũ của dữ liệu theo thời gian Lược đồ phụ thuộc thời gian miêu tả quá trình tiến hóa của miền ứng dụng qua phạm vi thời gian; thể hiện và lưu trữ tường minh các phiên bản cũ của dữ liệu
+ Định nghĩa các thuộc tính sự kiện: Các thuộc tính sự kiện là tổng các thể hiện của thực thể hoặc là các biểu thức tổng/trung bình/tối thiểu/tối đa liên quan đến các thuộc tính số của cây thuộc tính (không kể đến các thuộc tính được chọn làm chiều của lược đồ sự kiện) Một sự kiện có thể không có thuộc tính nếu thông tin được ghi nhận chỉ là thể hiện sự có mặt của sự kiện Các thuộc tính sự kiện được thể hiện trong các lược đồ sự kiện Bước này có thể tạo thêm bảng chú giải những gì sẽ kết hợp mỗi thuộc tính sự kiện với biểu thức
Trang 17miêu tả cách tính toán các thuộc tính sự kiện của lược đồ quan hệ thực thể Trong trường hợp, sự kết hợp không cần thiết định nghĩa các thuộc tính sự kiện, vì có thể thực hiện nó ở mức lược đồ quan hệ của các nguồn dữ liệu tác vụ Trong trường hợp, các thể hiện của các thực thể tương ứng một-một với các thể hiện sự kiện, và có thể chuyển trực tiếp các thuộc tính thực thể thành các thuộc tính sự kiện
+ Định nghĩa các phân cấp : Với mỗi phân cấp trên chiều, sắp xếp các thuộc tính trên cây sao cho một nút và con cháu của nút đó có mối liên kết một-một hoặc nhiều-một Cây thuộc tính thể hiện một tổ chức hợp lý cho các phân cấp Ở bước này, cây thuộc tính vẫn có thể bị cắt bớt hay ghép nhằm loại bỏ các chi tiết không thích hợp Ngoài ra, vẫn có thể thêm các mức tích hợp mới bằng cách định nghĩa các miền cho các thuộc tính dạng số, tiêu biểu là chiều thời gian
Tóm lại, các tác giả đề nghị mô hình sự kiện chiều để thiết kế kho dữ liệu và phương pháp luận bán tự động để tạo ra mô hình này từ nguồn tài liệu thực thể - mối liên kết E/R miêu tả hệ thống thông tin của toàn tổ chức Mô hình DF này có nét mới là các sự kiện có cấu trúc cây
3 Công trình của Nectaria Tryfona, Frank Busborg, Jens G.Borch Christiansen; 1999; trong bài báo “StarER: Mô hình ý niệm cho thiết kế kho dữ liệu” (Theo [18]):
Trong môi trường nghiệp vụ thế chấp (cầm cố, mortgage), các tác giả nhận thấy
bước mô hình ý niệm của kho dữ liệu cần:
? Trình bày các sự kiện và các thuộc tính của các sự kiện: Các sự kiện là trung tâm của kho dữ liệu Các sự kiện thật sự của thế giới thực có thể xem như là các quá trình phát sinh dữ liệu theo thời gian Các sự kiện có các thuộc tính Có 3 loại
thuộc tính: cổ phần (stock), sự lưu thông (flow), và giá trị trên một đơn vị
(value-per-unit) Cổ phần ghi lại trạng thái của một cái gì đó ở một thời điểm cụ thể Sự
lưu thông ghi lại sự tích lũy trong một giai đoạn thời gian cho một thông số giám sát môi trường nào đó Giá trị trên một đơn vị tương tự thuộc tính cổ phần, nhưng các đơn vị của thuộc tính khác nhau
? Kết nối chiều thời gian với các sự kiện, chiều thời gian là chiều quan trọng và cần thiết trong kho dữ liệu này
? Trình bày các đối tượng, các thuộc tính của các đối tượng, và các kết hợp giữa các đối tượng: Thông tin kết nối với các sự kiện có thể được phân tích như trong các ứng dụng cổ điển, và được gọi là các đối tượng Giống như các thuộc tính của các sự kiện, các thuộc tính của đối tượng là số, hay là thuộc tính tổng hợp Có 3 loại kết hợp giữa các đối tượng:
+ Chuyên biệt hóa/Tổng quát hóa: chỉ đối tượng là lớp con của đối tượng khác,
Trang 18+ Tích hợp: chỉ đối tượng là một phần của đối tượng lớn hơn, như phòng tài chánh và phòng quản trị đều là một phần của công ty
+ Thành phần: chỉ đối tượng là một thành viên của lớp đối tượng cao hơn, cả hai đối tượng đều có cùng đặc tính và hành vi, như chi nhánh là thành viên của công ty Thành phần có các đặc điểm là hạn chế (hoặc không) và đầy đủ (hoặc không) để chỉ mức độ ràng buộc về số lượng Thành phần hạn chế có nghĩa là tất cả các thành phần chỉ thuộc một lớp đối tượng cao hơn Thành phần đầy đủ có nghĩa là tất cả các thành phần đều thuộc về một lớp đối tượng cao hơn, và lớp đối tượng đó chỉ có các thành phần này, không có các thành phần nào khác
? Ghi lại sự kết hợp giữa các đối tượng và các sự kiện: Các đối tượng kết hợp theo ngữ nghĩa với các sự kiện
? Phân biệt các chiều và phân loại các chiều thành dạng phân cấp: Các đối tượng kết nối với các sự kiện gọi là chiều Một sự kiện luôn luôn kết nối với một chiều thời gian trong kho dữ liệu này Các chiều thường được kết hợp theo loại thành phần là chiều phân cấp
Sau khi phân tích các yêu cầu của người sử dụng đối với mô hình kho dữ liệu, các tác giả xây dựng mô hình ý niệm mới có tên là starER Mô hình có cấu trúc như sau:
? Tập hợp sự kiện: trình bày một tập hợp các sự kiện của thế giới thực, các sự kiện có chung các đặc điểm hoặc tính chất
? Tập hợp thực thể: trình bày một tập hợp các đối tượng của thế giới thực, tập hợp thực thể có cùng ý nghĩa như mô hình ứng dụng truyền thống
? Tập hợp mối liên kết: trình bày một tập hợp các kết hợp giữa các tập thực thể hoặc giữa các tập thực thể và các tập sự kiện Có thể sử dụng các mối liên kết nhiều-nhiều, nhiều -một, hoặc một-một Tập hợp mối liên kết giữa các tập hợp thực thể có loại chuyên biệt hóa/tổng quát hóa, tích hợp, hoặc thành phần Còn các phân cấp của chiều kết hợp theo loại thành phần có hạn chế hoặc đầy đủ Tóm lại, mô hình starER kết hợp các cấu trúc mạnh về ngữ nghĩa của mô hình thực thể - mối liên kết với cấu trúc tổng quát của lược đồ hình sao Hiện nay, các tác giả
đang xây dựng tiếp công cụ bán tự động (semi-automatic) cho mô hình này, chẳng hạn
như xem xét các luật chuyển đổi cấu trúc starER thành các mô hình luận lý cụ thể như
mô hình quan hệ (là mô hình được sử dụng nhiều bởi các gói phần mềm kho dữ liệu)
4 Công trình của Aris Tsois, Nikos Karayannidis, Timos Sellis; 2001; trong bài báo
“MAC: Mô hình dữ liệu ý niệm cho OLAP” (Theo [19]):
Từ dữ liệu kinh doanh và những vấn đề nảy sinh trong thực tế, các tác giả đã đưa ra một số ví dụ cho thấy các mô hình dữ liệu truyền thống của kho dữ liệu nên cải tiến ở những điều sau:
Trang 19? Nên định nghĩa các tích hợp dữ liệu theo sự kết hợp các mức tùy ý, thậm chí các mức có thể của cùng một chiều cũng như tập hợp các mức theo một đường phân tích dữ liệu cụ thể
? Nên cho phép định nghĩa nhiều độ đo cho một tập hợp các chiều, và trình bày các độ đo đó theo một khái niệm trong một số trường hợp nào đó, điều này phản ánh sự kiện mà các độ đo đó liên kết với nhau có ý nghĩa
Với những nhận xét trên, các tác giả định nghĩa một mô hình ý niệm mới, mô hình MAC Các tác giả sử dụng một tập hợp tối thiểu các khái niệm OLAP như:
? Các mức của chiều trình bày các loại thành phần của chiều Mỗi thành phần của chiều trình bày một thể hiện nào đó tính chất của thế giới thực mà độ đo OLAP có thể có Cũng có thể liên kết các mức riêng biệt theo các ý nghĩa khác nhau của một mối liên kết duyệt dữ liệu Mối liên kết duyệt dữ liệu xác định ngữ nghĩa của các mức có liên quan với nhau và miêu tả cách thức chia nhóm các thành phần của mức con thành các tập hợp tương ứng với các thành phần của mức cha
? Một tập hợp các mối liên kết duyệt dữ liệu có thể hình thành một đường phân tích dữ liệu của chiều nếu thỏa mãn một số yêu cầu về cấu trúc Một đường phân tích dữ liệu của chiều định nghĩa một kết hợp có ý nghĩa các mối liên kết duyệt
dữ liệu và dùng để mô hình một tuần tự đúng của các tác vụ (duyệt dữ liệu đi
lên/duyệt dữ liệu đi xuống) Nếu một hoặc nhiều đường phân tích dữ liệu của
chiều dùng chung các mức, thì vẫn có thể hình thành một chiều
? Các khối dữ liệu tích hợp đa chiều (MAC, Multidimensional Aggregation Cubes)
định nghĩa mối liên kết giữa các miền của một hoặc nhiều chiều Một MAC có thể có một hoặc nhiều độ đo MAC xem mỗi độ đo như là một thuộc tính nguyên
tử đơn giản của một mối liên kết Một phần tử MAC (còn gọi là phần tử) là một
thể hiện của MAC
Tóm lại, mô hình MAC cung cấp một kết hợp duy nhất các kỹ năng mô hình dữ liệu Mô hình này là mô hình ý niệm đầu tiên cho người sử dụng trung tâm, để định nghĩa các khối dữ liệu như là các mối liên kết có nhiều độ mịn, từ đó làm cho các các lược đồ và các câu truy vấn đơn giản và trực quan hơn nhiều Ngoài ra, cả độ phức tạp của các mối liên kết duyệt dữ liệu và việc sử dụng các đường phân tích dữ liệu dựa vào việc định nghĩa các chiều đều là những nét mới của mô hình này Và cuối cùng là việc định nghĩa các miền của chiều sẽ trình bày tường minh một phương pháp đơn giản, để tối ưu câu truy vấn về ngữ nghĩa ở cả lược đồ và mức thể hiện
5 Công trình của Anindya Datta, Helen Thomas; 1997; trong bài báo “Mô hình ý niệm và đại số cho xử lý phân tích trực tuyến trong các kho dữ liệu” (Theo [21]):
Các tác giả trình bày một mô hình kho dữ liệu/cơ sở dữ liệu đa chiều và đại số cho
Trang 20(không phân biệt) giữa chiều và độ đo, và cung cấp tính năng OLAP toàn diện (chẳng
hạn; tích hợp dữ liệu: duyệt dữ liệu đi lên và so sánh các giá trị tích hợp, chuyển đổi:
chuyển chiều thành độ đo và ngược lại, phân hoạch: nhóm dữ liệu theo các mục đích tích hợp dữ liệu, và các dạng truy vấn phân tích khác: duyệt dữ liệu đi xuống, kết nối giữa các bảng chiều với bảng sự kiện)
Theo các tác giả, khái niệm khối dữ liệu được sử dụng nhiều, nhưng không có một định nghĩa chính thức về khối dữ liệu, nên các tác giả đã định nghĩa khối dữ liệu dạng đại số theo tập các chiều, tập các độ đo, tập các thuộc tính, và ánh xạ một-nhiều giữa
chiều và thuộc tính (với điều kiện thuộc tính của hai chiều khác nhau không được trùng
nhau) Sau đó, các tác giả định nghĩa thể hiện của khối dữ liệu bằng cách thêm hai khái
niệm vào định nghĩa khối dữ liệu là tập các giá trị V và ánh xạ g giữa các chiều và các giá trị
Ví dụ: Định nghĩa Khối dữ liệu KinhDoanh theo bộ bốn < D, M, A, f > có:
Tập các độ đo M = {SốLượng KinhDoanh}
Tập các chiều D = {ThờiGian, SảnPhẩm, VịTrí}
Tập các thuộc tính A = {Ngày, Tháng, Năm, TênSảnPhẩm, KhốiLượng,
MàuSắc, TênKho, ThànhPhố, Bang, Vùng}
Aùnh xạ f: f(ThờiGian) = {Ngày, Tháng, Năm}
f(SảnPhẩm) = {TênSảnPhẩm, KhốiLượng, MàuSắc}
f(VịTrí) = {TênKho, ThànhPhố, Bang, Vùng}
Từ khối dữ liệu và thể hiện khối dữ liệu, các tác giả định nghĩa các toán tử mới theo hai khái niệm này Giống như đại số quan hệ trên cấu trúc quan hệ của cơ sở dữ liệu quan hệ, các phép toán chọn, chiếu, tích Descartes, kết nối, hợp, hiệu và chia đều thực hiện trên thuộc tính của quan hệ; thì trong OLAP, các phép toán này thực hiện trên chiều của khối dữ liệu Tuy nhiên, với phép hợp và hiệu, hai khối dữ liệu trong phép toán này phải
có cùng miền (domain) chiều, cùng miền độ đo và cùng lượng số (card) về chiều, cùng
lượng số về độ đo, nghĩa là theo các tác giả thì hai khối dữ liệu này tương đương hợp
(union-compatible cubes) Và phép toán kéo và đẩy là hai phép toán mới trong OLAP,
dùng để chuyển đổi qua lại giữa chiều và độ đo Sau đây là các phép toán trong OLAP
do các tác giả này đề nghị:
? Phép chọn (Restriction: ? ): Phép chọn nhằm lấy ra một thể hiện khối dữ liệu có
tập con các giá trị của thể hiện khối dữ liệu ban đầu dựa trên biểu thức luận lý của các chiều trong khối dữ liệu đó
? Phép chiếu (Aggregation: ? ): Phép chiếu nhằm lấy ra một thể hiện khối dữ liệu
có các giá trị độ đo tính trên một số chiều được chọn từ tập các chiều của thể hiện khối dữ liệu ban đầu
Trang 21? Phép tích Descarts (Cartesian Product: ?): Phép toán này nhằm kết hợp hai thể
hiện khối dữ liệu thành một thể hie än khối dữ liệu mới có chiều là chiều của hai thể hiện, độ đo là độ đo của hai thể hiện, tập các giá trị là tích hai tập các giá trị của hai thể hiện
? Phép kết nối (Join: ): Phép kết nối là trường hợp cụ thể của phép tích
Descartes ở trên, với điều kiện là có tối thiểu một chiều chung giữa hai thể hiện khối dữ liệu Nghĩa là, thực hiện phép tích Descartes giữa hai thể hiện khối dữ liệu, sau đó thực hiện phép chọn dựa trên biểu thức luận lý của các chiều chung
? Phép hợp (Union: ? ): Phép hợp nhằm lấy tất cả các giá trị của hai thể hiện khối
dữ liệu vào tập các giá trị của thể hiện khối dữ liệu mới, còn các thành phần khác của thể hiện khối dữ liệu đều như nhau
? Phép hiệu (Difference: -): Phép hiệu nhằm loại bỏ các giá trị giống nhau của thể
hiện khối dữ liệu này trong thể hiện khối dữ liệu khác
? Phép kéo (Pull: ? ): Phép kéo nhằm chuyển một số độ đo thành các chiều Nghĩa
là, thể hiện khối dữ liệu mới có thêm một số độ đo vào tập các chiều, còn các độ
đo thì có ít độ đo hơn so với thể hiện khối dữ liệu ban đầu
? Phép đẩy (Push: ? ): Phép đẩy nhằm chuyển một số chiều thành độ đo Nghĩa là,
thể hiện khối dữ liệu mới có số chiều ít hơn và số độ đo nhiều hơn so với số chiều và số độ đo của thể hiện khối dữ liệu ban đầu
? Phép chia (Partition: ? ): Phép chia nhằm lấy một số giá trị cụ thể theo các thuộc
tính lựa chọn từ tập các thuộc tính của thể hiện khối dữ liệu ban đầu
Tóm lại, các tác giả trình bày một mô hình ý niệm cho các cơ sở dữ liệu đa chiều Các tác giả cũng trình bày đại số biểu diễn chính xác các câu truy vấn phân tích phức tạp thường gặp trong môi trường OLAP Mô hình này cho phép xử lý đồng nhất giữa chiều và độ đo, và cũng tách riêng cấu trúc và nội dung Ngoài ra, mô hình mới này có thể dùng để xử lý tối ưu hóa trong câu truy vấn
2.3 SO SÁNH CÁC CÔNG TRÌNH
Để có một cái nhìn tổng quát về các mô hình ý niệm kho dữ liệu trong các công trình do một số tác giả đề xuất trong những năm gần đây, chúng ta so sánh các mô hình
ý niệm kho dữ liệu
Trang 22Mô hình sự kiện chiều
(DF) của
Golfarelli, Maio và Rizzi (1998)
Mô hình
starER của
Tryfona, Bushorg và Christiansen (1999)
Mô hình
MAC của
Tsois, Karayannidis và Sellis (2001)
Mô hình ý niệm và đại
số của Datta
và Thomas (1997)
1.Phương pháp
tiếp cận
Mô hình dùng cách tiếp cận cổ điển là dạng chuẩn
Mô hình bắt đầu từ mô hình thực thể - mối liên kết
Mô hình bắt đầu từ mô hình thực thể - mối liên kết và cấu trúc hình sao
Mô hình bắt đầu từ mô hình thực thể - mối liên kết và chú thích lược đồ bằng thông tin phụ của OLAP
Mô hình bắt đầu từ đại số giống đại số quan hệ trong cơ sở dữ liệu quan hệ
2.Kiểu độ đo Bình thường Bình thường
Có nhiều loại:
cổ phần, sự lưu thông, giá trị trên một đơn vị
Nhiều giá trị độ đo định nghĩa 1 khái niệm để phản ánh ngữ nghĩa
Bình thường
4.Xử lý đối xứng
giữa các chiều
và độ đo
Không Không Có Không Có
5.Mối liên kết
nhiều-nhiều
giữa các sự kiện
và các chiều
Có Có Có Có Có
6.Các phân cấp
giữa các chiều Không Có Có Có Không
9.Mối liên kết
giữa các mức
trong một chiều
Mối liên kết nhiều-một giữa một mức và con cháu của mức đó
Mối liên kết nhiều-một giữa một mức và con cháu của mức đó
Mối liên kết nhiều-nhiều, kết hợp các mức theo 3 loại: chuyên biệt hóa / tổng quát hóa, tích hợp, thành phần
Mối liên kết nhiều-nhiều, phân nhóm / phân loại có ý nghĩa
Mối liên kết nhiều-một giữa một mức và con cháu của mức đó
Trang 2310.Lược đồ sự
kiện
Ở dạng chuẩn
đa chiều tổng quát
Có cấu trúc cây Nếu kết hợp với chiều thời gian, có 2 loại lược đồ ảnh sao, và phụ thuộc thời gian
Có cấu trúc starER
Khối dữ liệu tích hợp đa chiều MAC
Khối dữ liệu bình thường
Bảng 2.2: So sánh các công trình về mô hình ý niệm kho dữ liệu
ưu hóa câu truy vấn về sau
Nói chung, các công trình trên chủ yếu nâng cao hiệu quả của các mô hình dữ liệu ý niệm cho kho dữ liệu Vì bước thiết kế ý niệm chỉ giao tiếp giữa người thiết kế và người sử dụng, độc lập với vấn đề hiện thực; nên sớm dò ra các lỗi mô hình, tinh chế tải làm việc và phê chuẩn lược đồ Với các mô hình dữ liệu cơ bản của kho dữ liệu, các mô hình dữ liệu cải tiến do nhiều tác giả đề nghị và các công cụ hỗ trợ xây dựng kho dữ liệu, việc xây dựng kho dữ liệu trên server có thể làm bằng tay lúc xây dựng hệ thống Do đó, vấn đề đặt ra là cần xây dựng công cụ nạp dữ liệu vào kho theo yêu cầu của người sử dụng, xây dựng nhiều công cụ truy vấn dữ liệu cho phần giao diện người sử dụng , và các công cụ này có thể phục vụ cho nhiều người sử dụng khác nhau cùng một lúc
Trang 24CHƯƠNG 3 CƠ SỞ LÝ THUYẾT VỀ KHO DỮ LIỆU
CƠ SỞ LÝ THUYẾT VỀ KHO DỮ LIỆU
3.1 GIỚI THIỆU
Thiết kế kho dữ liệu là để truy vấn và phân tích, chứ không nhằm xử lý giao dịch Kho dữ liệu thường chứa dữ liệu được tích hợp từ nhiều nguồn dữ liệu khác nhau, các nguồn dữ liệu này vẫn ở trong những hệ thống đang hoạt động bình thường với chức năng của riêng nó Kho dữ liệu thường tách khối lượng công việc phân tích ra khỏi công việc giao dịch
Chương này gồm 6 phần chính:
Phần 3.1: Giới thiệu sơ lược nội dung và cấu trúc của chương
Phần 3.2: Tổng quan về kho dữ liệu Phần này trình bày tổng quan về kho dữ liệu như khái niệm, đặc tính, kiến trúc của kho dữ liệu và các thành phần trong kho dữ liệu
như cấu trúc dữ liệu, dòng dữ liệu (Tham khảo [1], [2] và [8])
Phần 3.3: Thiết kế ý niệm kho dữ liệu Phần này trình bày mô hình ý niệm mới ở dạng chuẩn đa chiều tổn g quát Đây là mô hình mà luận văn chọn để áp dụng từ các mô
hình đã tìm hiểu trong chương 2 (Tham khảo [20])
Phần 3.4: Thiết kế luận lý kho dữ liệu Phần này trình bày về các dạng lược đồ của
kho dữ liệu và các vấn đề liên quan đến kho dữ liệu ở mức luận lý (Tham khảo [1], [2],
[8] và [9])
Phần 3.5: Thiết kế vật lý kho dữ liệu Phần này trình bày quá trình chuyển các lược đồ luận lý thành những cấu trúc cơ sở dữ liệu thật sự Trong suốt quá trình này, người thiết kế sẽ điều tiết một số thay đổi do những thông số hệ thống thật sự như: kích thước
máy, số người sử dụng, khả năng lưu trữ, và phần mềm, (Tham khảo [1] và [10])
Phần 3.6: Kết luận
Chương này sử dụng tài liệu tham khảo [1], [2], [8], [9], [10] và [20]
3.2 TỔNG QUAN VỀ KHO DỮ LIỆU
3.2.1 Các khái niệm cơ bản về kho dữ liệu
Trong những thập niên gần đây, kho dữ liệu xuất hiện như là kết quả của những tiến bộ trong lĩnh vực các hệ thống thông tin Những tiến bộ này bao gồm sự phát triển của các hệ quản trị cơ sở dữ liệu quan hệ và mô hình dữ liệu quan hệ; những tiến bộ trong phần cứng đặc biệt về dung lượng lưu trữ và các kie án trúc máy tính song song; việc
Trang 25người sử dụng đầu cuối tính toán bằng các công cụ và giao diện máy tính trực quan và mạnh; những tiến bộ của những sản phẩm trung gian giúp tăng khả năng kết nối cơ sở dữ liệu nghiệp vụ trên các hệ thống không đồng nhất
Sử dụng kho dữ liệu để hỗ trợ truy vấn và phân tích Kho dữ liệu do nhiều công ty và nhiều tổ chức về lĩnh vực công nghệ thông tin phát triển như Oracle Coporation, Red Brick, … Sau đây là một số định nghĩa về kho dữ liệu do một số tác giả trình bày trong sách và báo chí:
? Theo [1, trang 531] của Inmon và Hackathorn, 1994, kho dữ liệu là một tập hợp
dữ liệu hướng chủ đề, tích hợp, thay đổi theo thời gian và ổn định Kho dữ liệu dùng để hỗ trợ công tác quản lý trong quá trình ra quyết định
? Theo [2, trang 9] của Inmon , xét về mặt vật lý, kho dữ liệu và hệ thống tác vụ
tách rời nhau Kho dữ liệu giữ dữ liệu tích hợp và giữ cả dữ liệu giao dịch nhằm tách quá trình quản lý khỏi cơ sở dữ liệu dùng cho xử lý giao dịch trực tuyến
? Theo [2, trang 9] của Imhoff, 1995 , kho dữ liệu là một tập hợp cơ sở dữ liệu
hướng chủ đề và tích hợp, được thiết kế và tối ưu để hỗ trợ chức năng của hệ hỗ
trợ quyết định (DSS), ở đó mỗi đơn vị dữ liệu thích hợp với thời gian lúc đó
? Theo [2, trang 9] của Ralph Kimball, người sáng lập hệ thống Red Brick, 1996,
kho dữ liệu là một nơi mà người ta có thể truy xuất dữ liệu của chính mình
? Theo [2, trang 9] của Corey và Abbey, 1997 , kho dữ liệu là một tập hợp thông tin
xác nhập, suy dẫn thông tin này trực tiếp từ các hệ thống tác vụ và một số nguồn dữ liệu bên ngoài Mục đích của kho dữ liệu là hỗ trợ các quyết định nghiệp vụ, chứ không hỗ trợ các tác vụ nghiệp vụ
? Theo [2, trang 9] của Badcock, 1995 trong Computerworld , kho dữ liệu là một
kho dữ liệu được tổng hợp hoặc tích hợp ở dạng đơn giản từ các hệ thống tác vụ Các công cụ lập báo cáo và truy xuất dữ liệu hướng người sử dụng đầu cuối cho phép người sử dụng lấy dữ liệu từ kho dữ liệu để hỗ trợ quyết định Như vậy, kho dữ liệu được xem là thông tin, chứ không phải là tác vụ, nhằm hỗ trợ phân tích và quyết định, chứ không hỗ trợ xử lý giao dịch, được xây dựng theo kiến trúc chủ/khách, chứ không dựa trên host theo kiểu cũ
3.2.2 Các đặc tính của kho dữ liệu
Kho dữ liệu có các đặc tính sau:
Hướng chủ đề Tổ chức dữ liệu theo việc người sử dụng dùng dữ liệu đó như thế nào Tích hợp Loại bỏ những dữ liệu không nhất quán, kể cả các thông tin đụng độ và
các danh pháp (nomenclature) Có nghĩa là, làm sạch dữ liệu
Trang 26Ổn định Dữ liệu trong kho dữ liệu là dạng dữ liệu chỉ đọc Người sử dụng đầu cuối không được cập nhật dữ liệu này Chuỗi thời gian Dữ liệu là dạng dữ liệu theo chuỗi thời gian, không chỉ có các dữ liệu ở trạng thái hiện tại Tổng hợp Tích hợp dữ liệu tác vụ thành dạng dữ liệu có thể dùng để quyết định khi nào thích hợp Lớn hơn Dữ liệu phải lưu thêm chuỗi thời gian nên có nhiều dữ liệu hơn được
duy trì trong kho dữ liệu
Không chuẩn hóa Dữ liệu có thể dư thừa
Siêu dữ liệu Sử dụng dữ liệu miêu tả về dữ liệu cho cả người sử dụng và kho dữ
liệu
Đầu vào Dữ liệu tác vụ (các hệ thống di sản) và dữ liệu bên ngoài khi cần thiết
Bảng 3.1: Các đặc tính của kho dữ liệu
Xem xét tương ứng giữa các đặc tính của hệ thống xử lý giao dịch trực tuyến (OLTP) và của kho dữ liệu (hệ hỗ trợ quyết định, DSS):
Hướng ứng dụng Hướng chủ đề
Sử dụng để điều hành công việc Sử dụng để phân tích công việc
Chứa dữ liệu chi tiết Chứa dữ liệu tổng hợp hoặc đã tinh chế
Cập nhật dữ liệu theo thời gian Dữ liệu tương đối ổn định
Dữ liệu tách rời Dữ liệu tích hợp
Truy xuất lặp (repetitive access) Truy xuất tùy tiện (adhoc access)
Người sử dụng văn phòng Người sử dụng có tri thức (người quản lý)
Nhạy về hiệu suất (Performance Sensitive) Thoải mái về hiệu suất (Performance Relaxed)
Một lần truy vấn một vài mẩu tin Một lần truy xuất một khối lượng lớn mẩu tin
Truy xuất chủ yếu là đọc và cập nhật Truy xuất hầu như là đọc, chỉ cập nhật theo lô
(batch update)
Không dư thừa dữ liệu Dư thừa dữ liệu
Kích thước cơ sở dữ liệu từ 100MB đến
100GB Kích thước cơ sở dữ liệu từ 100GB đến vài terabyte
Trang 27Hiệu suất giao dịch là độ đo giá trị hiệu suất
của hệ thống Hiệu suất truy vấn là độ đo giá trị hiệu suất của hệ thống Hàng ngàn người sử dụng Hàng trăm người sử dụng
Quản lý toàn bộ Quản lý theo từng tập hợp con
Bảng 3.2: So sánh OLTP và kho dữ liệu
3.2.3 Các kiến trúc kho dữ liệu
Theo [1, trang 534], kho dữ liệu sử dụng 3 kiến trúc: kiến trúc 2 mức tổng quát, kiến
trúc 3 mức mở rộng và kiến trúc dữ liệu 3 mức kết hợp với kiến trúc vật lý 3 mức
Kiến trúc 2 mức tổng quát
Kiến trúc này thích hợp cho những tổ chức nhỏ hoặc trung bình Những tổ chức này có số lượng phần cứng cũng như phần mềm hạn chế và hoạt động trong môi trường tính toán tương đối không đồng nhất
Xây dựng kiến trúc kho dữ liệu 2 mức tổng quát (Hình 3.1) này theo bốn bước:
? Bước 1: Lấy dữ liệu từ các tập tin hệ thống nguồn khác nhau và từ các cơ sở dữ liệu nguồn khác nhau
? Bước 2: Chuyển dạng và tích hợp các dữ liệu từ các hệ thống nguồn khác nhau trước khi đưa vào kho dữ liệu
? Bước 3: Kho dữ liệu là một cơ sở dữ liệu chỉ đọc Tổ chức kho dữ liệu để hỗ trợ quyết định Kho dữ liệu chứa cả dữ liệu tổng hợp và dữ liệu chi tiết
? Bước 4: Người sử dụng truy xuất kho dữ liệu bằng các phương tiện khác nhau như công cụ phân tích và ngôn ngữ truy vấn
Nguồn dữ liệu 1
Nguồn
dữ liệu 2
Nguồn dữ liệu 3
Kho dữ liệu
Môi trường hỗ trợ quyết định
Chuyển đổi và tích hợp Môi trường tác vụ
Trang 28Kiến trúc 3 mức mở rộng
Kiến trúc này thích hợp cho những tổ chức lớn hơn Những tổ chức thường có một số nguồn dữ liệu khác nhau và hoạt động trong một môi trường tính toán không đồng nhất,
vì thế phát sinh thêm những vấn đề như duy trì chất lượng dữ liệu, quản lý các quá trình
lấy dữ liệu và thường đi kèm với xu hướng tính toán phân bố (Hình 3.2)
Hình 3.2: Kiến trúc kho dữ liệu 3 lớp
Theo hình vẽ, kiến trúc này gồm có 3 mức: dữ liệu và các hệ thống tác vụ, kho dữ liệu toàn tổ chức và các trung tâm dữ liệu
? Dữ liệu và các hệ thống tác vụ là những cơ sở dữ liệu quan hệ chuẩn hóa Những kiến trúc chuẩn hóa sẽ lưu một khối lượng dữ liệu lớn nhất với một không gian lưu trữ nhỏ nhất, nghĩa là dữ liệu không bị dư thừa Chuẩn hóa là một quá trình phân rã những cấu trúc dữ liệu thành những thành phần dữ liệu nhỏ nhất
? Kho dữ liệu toàn tổ chức (EDW, enterprise data warehouse) là một kho dữ liệu
tích hợp và tập trung Kho dữ liệu này là một nguồn đơn và là một điểm điều khiển, gồm tất cả các dữ liệu, nhằm mục đích:
? Dùng EDW như là một điểm điều khiển để đảm bảo chất lượng và toàn vẹn dữ liệu trước khi người sử dụng truy xuất EDW
? EDW cung cấp mẩu tin công việc có tính lịch sử đối với dữ liệu theo thời gian
Mặc dù EDW là một nguồn đơn gồm tất cả các dữ liệu cho hỗ trợ quyết định, người sử dụng thường không truy xuất trực tiếp EDW, vì EDW quá lớn và quá
Nguồn dữ liệu 1
Nguồn
dữ liệu 2
Nguồn dữ liệu 3
Chuyển đổi và tích hợp
Môi trường tác vụ
Kho dữ liệu toàn tổ chức
Trung tâm dữ liệu
Trung tâm dữ liệu
Môi trường hỗ trợ quyết định
Chọn và tổng hợp
Trang 29phức tạp để người sử dụng có thể định hướng cho hầu hết những ứng dụng hỗ trợ quyết định Do đó, người sử dụng có thể truy xuất dữ liệu từ kho dữ liệu và các trung tâm dữ liệu Người sử dụng truy xuất dữ liệu gián tiếp thông qua quá trình duyệt dữ liệu đi xuống
? Một trung tâm dữ liệu là một kho dữ liệu nhưng có tầm vực hạn chế Mỗi trung tâm dữ liệu dùng cho những ứng dụng hỗ trợ quyết định của một nhóm người sử dụng đầu cuối cụ thể
Kho dữ liệu và trung tâm dữ liệu có những khác biệt sau:
Tầm vực Xác nhập Tuyến nghiệp vụ
Các chủ thể Nhiều chủ thể Một chủ thể
Các nguồn dữ liệu Nhiều nguồn dữ liệu Một vài nguồn dữ liệu
Kích thước (điển hình) 100GB - TB+ <100GB
Thời gian thực hiện Vài tháng cho đến vài năm Vài tháng
Bảng 3.3: So sánh kho dữ liệu và trung tâm dữ liệu
Có hai loại trung tâm dữ liệu là trung tâm dữ liệu phụ thuộc và trung tâm dữ liệu độc lập:
? Trung tâm dữ liệu phụ thuộc là một trung tâm dữ liệu lắp đầy dữ liệu từ
kho dữ liệu toàn tổ chức và lớp dữ liệu đã điều hòa (Hình 3.3) (Theo [1,
trang 542], Lớp dữ liệu đã điều hòa là lớp dữ liệu kết hợp với kho dữ liệu toàn tổ chức Lớp dữ liệu này miêu tả bản chất của dữ liệu xuất hiện trong kho dữ liệu toàn tổ chức và cách suy dẫn dữ liệu)
? Trung tâm dữ liệu độc lập là một trung tâm dữ liệu lắp đầy dữ liệu từ môi trường tác vụ, không có sử dụng những lợi ích của lớp dữ liệu đã điều hòa
(Những lợi ích của lớp dữ liệu đã điều hòa là loại bỏ những điều không nhất quán, tạo một dạng dữ liệu chung thống nhất giữa các nguồn dữ liệu
Trang 30? Dư thừa dữ liệu tăng vì cùng một dữ liệu nhưng thường lưu trong các trung tâm dữ liệu khác nhau
? Thiếu sự tích hợp dữ liệu từ khía cạnh nghiệp vụ, vì đó là trách nhiệm của kho dữ liệu toàn tổ chức
? Tạo một trung tâm dữ liệu độc lập yêu cầu những kết nối chéo, những kết nối này khó thực hiện
? Những người sử dụng khác nhau có những yêu cầu khác nhau về sự hiện diện của dữ liệu trong trung tâm dữ liệu, mà điều này làm cho sự thống nhất của dữ liệu thấp
Như vậy, một tổ chức có kế hoạch phát triển nhiều trung tâm dữ liệu thì nên dùng cách tiếp cận trung tâm dữ liệu phụ thuộc
Những tổ chức lớn có nhiều nguồn dữ liệu không đồng nhất nên dùng kiến trúc kho dữ liệu 3 mức Có ba nhân tố hỗ trợ tiếp cận này:
? Kho dữ liệu toàn tổ chức và trung tâm dữ liệu dùng cho những mục đích rất khác nhau và có những kiến trúc dữ liệu rất khác nhau
? Chuyển dạng dữ liệu nguồn không đồng nhất thành một định dạng thích hợp để
ra quyết định là một quá trình có tín h phức tạp cao
? Dùng các trung tâm dữ liệu cho phép tổ chức tạo ra dữ liệu hỗ trợ quyết định cho mỗi nhóm người sử dụng đầu cuối, và khai thác những điều thuận lợi từ xử lý phân bố
Kiến trúc dữ liệu 3 lớp
Xét các thuật ngữ trong Hình 3.3 sau:
? Một tổ chức lưu dữ liệu tác vụ trong những hệ thống tác vụ khác nhau (và thỉnh
thoảng lưu trong những hệ thống bên ngoài)
? Dữ liệu đã điều hòa là loại dữ liệu lưu trong kho dữ liệu toàn tổ chức Dữ liệu đã điều hòa là dữ liệu có tính lịch sử và chi tiết, có dụng ý là nguồn dữ liệu đơn và có phân quyền cho tất cả những ứng dụng hỗ trợ quyết định Dữ liệu đã điều hòa thường không cho người sử dụng đầu cuối sử dụng trực tiếp
? Dữ liệu suy dẫn là loại dữ liệu lưu trong mỗi trung tâm dữ liệu Chọn, định dạng và tích hợp dữ liệu thành dữ liệu suy dẫn cho những ứng dụng hỗ trợ quyết định cho người sử dụng đầu cuối
Dữ liệu đã điều hòa và dữ liệu suy dẫn đóng vai trò quan trọng trong kiến trúc
dữ liệu Những dữ liệu này là mô hình dữ liệu nghiệp vụ và siêu dữ liệu (Xem
Hình 3.3).
Trang 31Hình 3.3: Kiến trúc dữ liệu 3 lớp
? Siêu dữ liệu tác vụ: miêu tả dữ liệu trong các hệ thống tác vụ khác nhau (và dữ
liệu bên ngoài) Siêu dữ liệu tác vụ thường tồn tại ở một số định dạng khác nhau
và có chất lượng kém
? Siêu dữ liệu EDW: suy dẫn siêu dữ liệu này từ (hoặc ít nhất là nhất quán với) mô
hình dữ liệu nghiệp vụ Siêu dữ liệu của kho dữ liệu toàn tổ chức miêu tả lớp dữ liệu đã điều hòa và những luật biến đổi d ữ liệu tác vụ thành dữ liệu đã điều hòa
? Siêu dữ liệu của trung tâm dữ liệu: miêu tả lớp dữ liệu suy dẫn và những luật biến đổi dữ liệu đã điều hòa thành dữ liệu suy dẫn
Theo Hình 3.3, lớp dữ liệu đã điều hòa liên kết với mô hình dữ liệu nghiệp vụ Vai
trò của mô hình nghiệp vụ là trình bày một bức tranh toàn cảnh, giải thích tổ chức yêu cầu dữ liệu nào Nếu lớp dữ liệu đã điều hòa là nguồn đơn phân quyền gồm có tất cả các dữ liệu cho hỗ trợ quyết định, lớp dữ liệu này phù hợp với thiết kế đặc tả trong mô hình dữ liệu nghiệp vụ Do đó, tổ chức cần phát triển mô hình dữ liệu nghiệp vụ trước khi sử dụng mô hình để thiết kế kho dữ liệu
Lớp siêu dữ liệu đều liên kết với mỗi lớp trong ba lớp dữ liệu Vai trò của siêu dữ liệu là miêu tả những tính chất hoặc đặc tính của dữ liệu khác
3.2.4 Cấu trúc dữ liệu trong kho dữ liệu
Kho dữ liệu chứa 5 loại dữ liệu là dữ liệu chi tiết hiện hành, dữ liệu chi tiết cũ, dữ liệu tổng hợp sơ bộ, dữ liệu tổng hợp mức cao và siêu dữ liệu
Dữ liệu chi tiết hiện hành
Dữ liệu chi tiết hiện hành phản ánh những gì xảy ra gần đây nhất Loại dữ liệu này rất lớn nếu dữ liệu ở mức chi tiết thấp nhất Để truy xuất nhanh thông tin, chúng ta nên lưu thông tin này trên đĩa Thường có nhiều câu hỏi hỗ trợ quyết định liên quan đến dữ liệu, có thể lấy trực tiếp từ các mẩu tin chi tiết ở các giao dịch
Dữ liệu suy dẫn
Dữ liệu đã điều hòa
Dữ liệu tác vụ
Siêu dữ liệu của trung tâm dữ liệu
Kho dữ liệu toàn tổ chức
Các hệ thống tác vụ
Trung tâm dữ liệu
Siêu dữ liệu EDW
Siêu dữ liệu tác vụ
Trang 32Dữ liệu chi tiết cũ
Hầu hết các kho dữ liệu đều có các luật trình bày khi ít sử dụng dữ liệu chi tiết, di chuyển dữ liệu từ đĩa cứng vào thiết bị lưu trữ có dung lượng lưu trữ lớn Mặc dù có thể lấy ở dạng chi tiết, nhưng thời gian truy xuất hơi chậm hơn một chút vì phải làm việc với thiết bị lưu trữ có dung lượng lưu trữ lớn Tuy nhiên, thông tin đều giống nhau trên đĩa cứng cũng như trên các thiết bị lưu trữ khác
Dữ liệu tổng hợp sơ bộ
Nhiều ứng dụng hỗ trợ quyết định dựa trên việc tổng hợp dữ liệu giao dịch Tổng hợp theo dạng đoán trước các yêu cầu về số lượng tiêu chuẩn, dễ đáp ứng và cải tiến việc sử dụng kho dữ liệu
Từ quan điểm thiết kế, nên làm hai quyết định: chọn các thuộc tính để tổng hợp , và chọn đơn vị thời gian để tổng hợp Cả hai quyết định này có sự cân nhắc Việc tính toán dữ liệu tổng hợp không thể tính thường xuyên, cũng như vùng nhớ lưu trữ cần thiết cho dữ liệu tổng hợp Nên lựa chọn quyết định thứ hai theo yêu cầu của người sử dụng
Ví dụ: Thuộc tính chọn để tổng hợp là số tín chỉ Chọn đơn vị thời gian tùy thuộc vào
người sử dụng Chẳng hạn, sinh viên muốn biết một học kỳ nào đó sinh viên đã học được bao nhiêu tín chỉ, hay một năm học nào đó sinh viên đã học được bao nhiêu tín chỉ, hay từ khi vào trường cho đến lúc này sinh viên đã học được bao nhiêu tín chỉ
Dữ liệu tổng hợp mức cao
Các nhà quản lý cấp cao thường yêu cầu một số thông tin ở dạng dễ truy xuất, gọn và các thông tin để tư vấn về sau Thông tin này dựa trên việc tổng hợp dữ liệu giao dịch đang lưu trữ trong kho dữ liệu , cũng dựa trên việc tổng hợp dữ liệu trong các giai đoạn có thời gian dài, để từ đó có thể thiết lập các xu hướng Với việc lưu trữ dữ liệu tổng hợp mức cao, cũng cải tiến các lần đáp ứng thông tin
Siêu dữ liệu
Siêu dữ liệu là dữ liệu miêu tả về dữ liệu Dữ liệu là thông tin về kho dữ liệu, chứ không phải là thông tin của kho dữ liệu Siêu dữ liệu cần thiết cho cả nhóm và cả những người sử dụng kho dữ liệu Mỗi nhóm yêu cầu những thông tin khác nhau Đối với nhóm kho dữ liệu, siêu dữ liệu gồm:
? Thư mục về những gì có trong kho dữ liệu: Thư mục chỉ rõ nơi lưu trữ dữ liệu Thư mục là chỉ mục dùng cho câu truy vấn thiên về việc tìm kiếm những thông tin đúng
? Hướng dẫn những ánh xạ dữ liệu từ dạng tác vụ sang dạng kho dữ liệu Khi dữ liệu đưa vào kho dữ liệu, dữ liệu phải ở dạng chuẩn và phải theo những quy ước của kho dữ liệu Nghĩa là, phải làm sạch dữ liệu Hướng dẫn này cung cấp các
Trang 33chỉ dẫn chuyển dạng mỗi tập dữ liệu cụ thể để dữ liệu ở dạng đúng (dạng chuẩn
của kho dữ liệu)
? Những luật dùng để tổng hợp dữ liệu Đối với người sử dụng kho dữ liệu, siêu dữ liệu gồm:
? Những thuật ngữ công việc dùng để miêu tả dữ liệu
? Những tên kỹ thuật tương ứng với những thuật ngữ công việc, những tên kỹ thuật này có thể sử dụng để truy xuất dữ liệu
? Nguồn dữ liệu, những luật dùng để suy dẫn nguồn dữ liệu và khi tạo ra nguồn dữ liệu
3.2.5 Dòng dữ liệu trong kho dữ liệu
Nhìn dưới khía cạnh dòng dữ liệu, kho dữ liệu liên quan đến 3 lớp:
Hình 3.4: Kiến trúc kho dữ liệu 3 lớp theo khía cạnh dòng dữ liệu
? Mặt sau để nạp dữ liệu và làm sạch dữ liệu
? Kho dữ liệu là một cơ sở dữ liệu chứa cả dữ liệu và siêu dữ liệu
? Mặt trước để người sử dụng truy vấn và tương tác
Trong đó, phần thu nhận dữ liệu hình thành mặt sau của kho dữ liệu:
Hình 3.5: Phần thu nhận dữ liệu hình thành mặt sau của kho dữ liệu
? Đầu tiên dữ liệu nằm ở các hệ thống di sản và các nguồn bên ngoài Theo chu kỳ, chạy phần thu nhận dữ liệu Bước đầu tiên là làm sạch dữ liệu để nhận dạng dữ liệu thiếu và sự thiếu nhất quán trong những thuật ngữ và làm những thay đổi định dạng Sau đó, tính toán những tổng hợp dữ liệu trong lưu trữ Một số tổng hợp dựa trên dữ liệu yêu cầu Tuy nhiên, lưu trữ những tổng hợp khác liên quan việc cập nhật thông tin tổng hợp trong kho dữ liệu Sau đó, nạp dữ liệu làm sạch và dữ liệu tổng hợp vào kho dữ liệu
Các hệ thống
di sản
Các nguồn
bên ngoài
Làm sạch dữ liệu
Tạo dữ liệu tổng hợp
Nạp dữ liệu vào kho dữ liệu
Kho dữ liệu Siêu dữ liệu
Phần thu nhận dữ liệu
Chính kho dữ liệu
Phần client
Mặt sau
Trang 34? Siêu dữ liệu (thật sự lưu trong kho dữ liệu) hướng dẫn quá trình thu nhận dữ liệu
Nó chứa những luật để làm sạch dữ lie äu, tổng hợp dữ liệu và xác định nơi nạp dữ liệu vào kho dữ liệu
Tổ chức dữ liệu trong kho dữ liệu:
Hình 3.6: Tổ chức dữ liệu trong kho dữ liệu
Kho dữ liệu chứa dữ liệu ở những mức chi tiết khác nhau Thường lưu trữ
(archived) dữ liệu chi tiết cũ, nhưng có thể lấy ra Về mặt vật lý, lưu giữ dữ liệu
chi tiết cũ ngoại tuyến (offline), chẳng hạn gắn (mount) những băng từ vào theo
yêu cầu Lưu dữ liệu chi tiết hiện hành và các dữ liệu tổng hợp ở những mức khác nhau trong kho dữ liệu kèm với siêu dữ liệu
Góc nhìn mặt trước của kho dữ liệu dành cho người sử dụng:
Hình 3.7: Mặt trước của kho dữ liệu
Người sử dụng làm việc trên vấn đề hỗ trợ quyết định ở máy tính và trực tiếp truy vấn kho dữ liệu thông qua siêu dữ liệu Siêu dữ liệu giúp người sử dụng nhận dạng thông tin gì sẵn sàng trong kho dữ liệu Những đáp ứng đối với những câu truy vấn đi qua siêu dữ liệu và hiển thị những đáp ứng trên màn hình
3.3 THIẾT KẾ Ý NIỆM KHO DỮ LIỆU
Luận văn chọn mô hình ý niệm cho kho dữ liệu của các tác giả Hüsemann, Lechtenbưrger và Vossen để trình bày trong phần cơ sở lý thuyết này Vì mô hình này ở dạng chuẩn đa chiều tổng quát, rất thích hợp áp dụng cho nhiều ứng dụng và chính quy hơn so với các mô hình ý niệm khác của một số tác giả khác
Quá trình thiết kế ý niệm kho dữ liệu gồm ba bước:
? Bước 1: Định nghĩa ngữ cảnh của các độ đo
+ Xác định các phụ thuộc hàm từ các mức của chiều vào các độ đo: bằng cách xác định các khóa tối thiểu cho mỗi độ đo, và định nghĩa phụ thuộc hàm từ khóa tối thiểu đó vào độ đo, các khóa này hình thành nên các mức chiều kết
Siêu dữ liệu
Truy vấn Đáp ứng
Dữ liệu chi tiết cũ Dữ liệu chi tiết
hiện hành
Dữ liệu tổng hợp sơ bộ Dữ liệu tổng hợp mức cao Siêu dữ liệu
Trang 35thúc, và là gốc của các phân cấp trong chiều (với Mỗi chiều phân cấp chỉ có
một mức chiều kết thúc)
Cho tập các độ đo M = {m 1 , …, m k }, tập các thuộc tính chiều D, mỗi sự kiện
có một hàm nào đó từ các mức chiều vào các độ đo
Xác định khóa (tối thiểu) D i ? D cho mỗi độ đo m i, sau đó định nghĩa tập
hợp F key gồm tất cả các phụ thuộc hàm có dạng D i ? m i Cho phụ thuộc hàm
D i ? m i ? F key , các mức chiều trong D i xác định độ đo m i, nhưng không có bất
kỳ mức chiều nào khác có thể xác định m i Thì các mức chiều trong D i là
mức chiều kết thúc, và dùng làm gốc của các phân cấp trong chiều Với mỗi mức chiều kết thúc, chúng ta định nghĩa một chiều tương ứng
Nếu các độ đo có cùng một nhóm chiều giống nhau, thì gom vào cùng một lược đồ sự kiện
Tất cả các độ đo m i , m j có D i =D j thì nhóm m i , m j vào cùng một lược đồ sự
kiện (nghĩa là; m i , m j sử dụng cùng một ngữ cảnh chiều)
+ Thiết kế ý niệm đồ họa bằng cách mô hình lược đồ sự kiện phụ thuộc vào các mức chiều kết thúc
Ví dụ: Xây dựng lược đồ ý niệm về Tài Khoản ở Bước 1:
Xác định các phụ thuộc hàm FD
(MãTàiKhoản, NgàyCóHiệuLực) ? QuyếtToán ? F Key
(MãTàiKhoản, NgàyCóHiệuLực) ? DoanhThu ? F Key
(MãTàiKhoản, NgàyCóHiệuLực) ? MứcTiềnGởi ? F Key
(MãTàiKhoản, NgàyCóHiệuLực) ? TiềnLời ? F Key
Bảng tóm tắt các phụ thuộc hàm giữa các mức chiều kết thúc và các độ đo:
Lược đồ sự kiện Độ đo Chiều Mức chiều kết thúc
Các sự kiện
Tài Khoản
QuyếtToán, DoanhThu, MứcTiềnGởi, TiềnLời
Bảng 3.4: Các phụ thuộc hàm giữa các mức chiều kết thúc và các độ đo
Tất cả các độ đo QuyếtToán, DoanhThu, MứcTiềnGởi, và TiềnLời đều có cùng các mức chiều kết thúc MãTàiKhoản (thuộc chiều TàiKhoản) và NgàyCóHiệuLực (thuộc chiều ThờiGian), nên gom vào cùng một lược đồ sự kiện Các sự kiện Tài Khoản, và trình bày ở dạng đồ họa như sau:
Trang 36Hình 3.8: Một phần của lược đồ ý niệm về các sự kiện tài khoản
? Bước 2: Thiết kế phân cấp của chiều
+ Xác định tất cả các phụ thuộc hàm giữa các mức của chiều với một chiều dim có mức chiều kết thúc d j như sau:
Giả sử cho các mức chiều d k , d l ? D, d k ? d l là một phụ thuộc hàm đúng và
tồn tại một phụ thuộc hàm (bắc cầu tiềm ẩn) của d k trên d j , thì thêm d k ? d l vào tập hợp F dim
o Phân biệt các thuộc tính riêng và các mức chiều theo các yêu cầu lúc
phân tích (Thuộc tính riêng là thuộc tính dùng để chọn lựa dữ liệu, nhưng
không dùng để tích hợp dữ liệu)
o Xác định các phân cấp chiều bằng cách xây dựng đồ thị với các nút là các mức của chiều
Đồ thị chứa một cạnh từ mức chiều d i vào mức chiều d j , nếu d i ?d j và
d i ? d j là phụ thuộc hàm không bắc cầu, nghĩa là; nếu d i ? d j và không
có mức chiều d k (d k ?d i , d j ) để d i ? d k ? d j
o Thêm các thuộc tính riêng vào các mức chiều ở dạng đồ họa
Thuộc tính riêng d p nối vào mức chiều d l nếu phụ thuộc hàm d l ? d p
không bắc cầu Thuộc tính riêng là tùy chọn hoặc không tùy thuộc vào thông tin đặc tả yêu cầu Ở dạng đồ họa, thuộc tính bắt buộc nối vào mức chiều bằng một nút hình thoi nhỏ, thuộc tính tùy chọn nối trực tiếp vào mức chiều mà không có nút
o Xác định các chiều ở dạng lựa chọn hay tùy chọn (là tùy chọn, nếu có
nhiều phân cấp trong một chiều) Vì một chiều có thể có nhiều phân cấp
khác nhau, các phân cấp này tạo cho chiều có tính đầy đủ và các phân cấp cũng không được giao nhau
Giả sử d l là một mức tách riêng (bắt buộc), mức này xác định các mức chiều tùy chọn d c1 , …, d ck Bây giờ nhóm các mức tùy chọn này bằng
cách xây dựng các tập hợp con không giao nhau {d c1 , …, d ck } để các
Các sự kiện Tài Khoản QuyếtToán
Trang 37thành phần của các mức trong mỗi nhóm hình thành nên một phân mảnh đầy đủ và không giao nhau gồm các thành phần của mức tách
riêng d l + Suy dẫn phân cấp chiều dạng đồ họa Biểu diễn các nhóm đường tích hợp tùy chọn bằng dấu mũi tên 2 nét
Ví dụ: Xây dựng lược đồ ý niệm về Tài Khoản ở Bước 2: Xác định các phân cấp
cho các mức chiều kết thúc
Các phụ thuộc hàm DF cho chiều ThờiGian, TàiKhoản:
F ThờiGian = {NgàyCóHiệuLực ? Tháng, Tháng ? Quý, Quý ? Năm}
F TàiKhoản = {MãTàiKhoản ? MãTổChức,
MãTàiKhoản ? MãKháchHàng, MãTàiKhoản ? LoạiDoanhThu,
MãTàiKhoản ? LoạiQuyếtToán,
MãTàiKhoản ? MãSảnPhẩm,
MãSảnPhẩm ? LoạiSản Phẩm,
MãTổChức ? NhómTổChức, MãTổChức ? LoạiTổChức,
LoạiTổChức ? LoạiNghiệpVụ,
NhómTổChức ? LoạiNghiệp Vụ,
MãTổChức ? TênTổChức,
MãKháchHàng ? NghềNghiệp, MãKhách Hàng ? ChiNhánh,
NghềNghiệp ? LoạiKháchHàng, ChiNhánh ? LoạiKháchHàng,
MãKháchHàng ? TênKháchHàng, MãKháchHàng ? TuổiKháchHàng} Các chiều phân cấp ở dạng đồ họa:
…
…
MãTổChức
MãSảnPhẩm LoạiQuyếtToán LoạiDoanhThu
ChiNhánh
TênTổChức
TênKháchHàng TuổiKháchHàng
NhómTổChức LoạiTổChức
LoạiNghiệpVụ
LoạiSảnPhẩm
Trang 38Trong chiều phân cấp TàiKhoản có thuộc tính TênKháchHàng và TênTổChức là thuộc tính riêng, dùng để miêu tả thêm thông tin cho mức chiều MãKháchHàng và MãTổChức Còn thuộc tính TuổiKháchHàng là thuộc tính riêng tùy chọn cho mức chiều MãKháchHàng, thuộc tính này có thể có giá trị <Null>
Phân cấp chiều có hai loại: Phân cấp đơn và phân cấp đa chiều Chiều ThờiGian thuộc phân cấp đơn, chiều TàiKhoản thuộc phân cấp đa chiều
Trong chiều TàiKhoản, {NghềNghiệp, ChiNhánh} là các mức chiều tùy chọn được nhóm chung với nhau vì mỗi phần tử của MãKháchHàng có liên quan đến NghềNghiệp hoặc ChiNhánh (là NghềNghiệp nếu khách hàng là một cá nhân, là ChiNhánh nếu khách hàng là một tổ chức) Lúc đó, MãKháchHàng là mức tách riêng và LoạiKháchHàng là mức kết nối
? Bước 3: Định nghĩa các ràng buộc khi tổng hợp dữ liệu
+ Lược đồ kho dữ liệu nên biểu diễn tường minh là tích hợp độ đo nào theo chiều nào bằng hàm tích hợp nào
Chúng ta tích hợp thông tin này vào lược đồ sự kiện dạng đồ họa bằng cách nối mỗi cặp các độ đo và các thuộc tính kết thúc bởi một cạnh có nhãn là các hàm tích hợp có ý nghĩa
Do đó, các tác giả cũng đề ra bốn mức hạn chế tăng dần của độ đo trong các
mức chiều trong Bảng 3.5
Cho một cặp (m, d) là độ đo m và mức chiều d, chúng ta kết hợp với một mức hạn chế, nếu tất cả các hàm tích hợp được áp dụng cho m từ mức chiều
d cho đến mỗi mức phụ thuộc hàm cao hơn
Mức hạn chế Các hàm tích hợp dữ liệu có thể áp dụng được
1 {SUM, AVG, MIN, MAX, STDDEV, VAR, COUNT}
2 {AVG, MIN, MAX, STDDEV, VAR, COUNT}
3 {COUNT}
4 {}
Bảng 3.5: Phân loại các mức hạn chế
+ Định nghĩa các mức hạn chế cho tất cả các độ đo theo các đường tích hợp dữ liệu khác nhau trong mỗi lược đồ sự kiện bằng đồ họa:
Với mỗi cặp các độ đo và các mức chiều, chúng ta định nghĩa mức hạn chế để mỗi câu truy vấn đa chiều có ý nghĩa có thể dựa vào các hàm tích hợp cho phép trên mỗi đường tích hợp dữ liệu
Trang 39Ví dụ: Xây dựng lược đồ ý niệm về Tài Khoản ở Bước 3
Bảng tóm tắt lược đồ ý niệm Các sự kiện Tài Khoản :
Lược đồ sự kiện Độ đo Các mức chiều Mức hạn chế
Bảng 3.6: Bảng tóm tắt lược đồ sự kiện Các sự kiện Tài Khoản
Gán mức hạn chế cho độ đo QuyếtToán ứng với mức chiều MãTàiKhoản là 1 và độ đo QuyếtToán ứng với mức chiều NgàyCóHiệuLực là 2 Điều này có nghĩa toán tử tính tổng SUM cho độ đo QuyếtToán trong mức chiều NgàyCóHiệuLực không có ý nghĩa, nhưng trong mức chiều MãTàiKhoản lại có ý nghĩa
Lược đồ ý niệm Các sự kiện Tài Khoản ở dạng đồ họa:
Hình 3.10: Lược đồ ý niệm Các sự kiện Tài Khoản
Tóm lại, mô hình ý niệm này ở dạng chuẩn đa chiều tổng quát, và có hình thức đồ
MãTổChức
MãSảnPhẩm LoạiQuyếtToán LoạiDoanhThu
ChiNhánh
TênTổChức
TênKháchHàng TuổiKháchHàng
NhómTổChức LoạiTổChức
Trang 403.4 THIẾT KẾ LUẬN LÝ KHO DỮ LIỆU
3.4.1 Lược đồ chi tiết và tổng hợp
Dữ liệu chi tiết
Vì lượng dữ liệu chi tiết lớn nên nhiều tổ chức tìm cách để hạn chế lưu trữ và xử lý dữ liệu lặp lại Trong một số kho dữ liệu, không nạp dữ liệu giao dịch chi tiết vào kho dữ liệu Thay vào đó, thực hiện tổng hợp sơ bộ trong quá trình lấy dữ liệu để to ái thiểu chi phí, thời gian truyền và nạp các tập tin Mức tổng hợp giúp tránh tạo ra các báo cáo tốn nhiều thời gian thường hay đi kèm với dữ liệu chi tiết trong kho dữ liệu
Trong những tình huống khác, vẫn tồn tại quyết định cần nạp dữ liệu chi tiết Một cách tiếp cận thay thế là duy trì dữ liệu trong 12 tháng và những tổng hợp khác trong 5 năm hoặc lâu hơn nữa
Sau cùng là quá trình duy trì, lưu trữ và làm sạch dữ liệu chi tiết cũ
Dữ liệu tổng hợp và tóm tắt
Trong nhiều trường hợp, để định hướng, người sử dụng sẽ tìm dữ liệu tổng hợp dễ dàng hơn nhiều Khi tạo một dữ liệu tổng hợp, chúng ta có thể kết sẵn dữ liệu từ các bảng có liên quan khác nhau nhằm tránh làm những phép kết lúc tổng hợp dữ liệu
3.4.2 Lược đồ hình sao
Suy dẫn lược đồ hình sao từ thiết kế cơ sở dữ liệu đa chiều Mỗi hình sao là một bảng nhiều hàng ít cột và tập trung gồm các sự kiện – ghi lại một loại sự kiện hoặc biến cố cụ thể xảy ra trong ngữ cảnh nhiều chiều
Lược đồ hình sao thích hợp cho các câu truy vấn đặc biệt (và các dạng xử lý thông
tin khác), không thích hợp cho xử lý tương tác trực tuyến và do đó không dùng trong các
hệ thống tác vụ
Lược đồ hình sao gồm 2 loại bảng: bảng sự kiện và bảng chiều Bảng sự kiện chứa dữ liệu định lượng hoặc sự kiện Bảng chiều chứa dữ liệu miêu tả về một công việc Lược đồ hình sao đơn giản gồm 1 bảng sự kiện và xung quanh là nhiều bảng chiều
Ví dụ: Bảng sự kiện là ĐiểmMônHọc, và các bảng chiều là GIẢNGVIÊN, SINHVIÊN,
HỌCKỲ và NHÓMHK (nhóm môn học có trong học kỳ) Điểm môn học là sự kết hợp của việc sinh viên đăng ký môn học, giảng viên dạy môn học đó và môn học có trong học kỳ đó Các khóa của các bảng chiều xác định mẩu tin điểm trong bảng sự kiện ĐiểmMônHọc hay bảng sự kiện được xác định và phân loại theo các bảng chiều
Nhìn chung, lược đồ này không phải là mô hình mới, đó là một hiện thực cụ thể của mô hình dữ liệu quan hệ Bảng sự kiện đóng vai trò của một thực thể kết hợp, kết nối các thể hiện của các chiều khác nhau