BẢNG DANH SÁCH CÁC TỪ VIẾT TẮT BI Business Intelligent Trí tuệ doanh nghiệp BIDS Business Intelligent Development Studio Trình phát triển trí tuệ doanh nghiệp DM Data Mart Kho dữ liệu ch
Trang 3DANH SÁCH HÌNH VẼ 4
DANH SÁCH BẢNG BIỂU 5
LỜI MỞ ĐẦU 6
Chương 1 TỔNG QUAN VỀ KHO DỮ LIỆU 8
1.1 Các khái niệm 8
1.1.1 Kho dữ liệu 8
1.1.2 Mục đích của kho dữ liệu 8
1.1.3 Đặc tính của kho dữ liệu 8
1.1.4 Phân biệt kho dữ liệu với cơ sở dữ liệu tác nghiệp 10
1.2 Kiến trúc kho dữ liệu 11
1.2.1 Nguồn dữ liệu 11
1.2.2 Kho dữ liệu 11
1.2.3 Kho dữ liệu chuyên biệt 12
1.2.4 Kho siêu dữ liệu 12
1.2.5 Vùng chứa tạm 12
1.2.6 Người dùng 13
1.3 Qui trình xây dựng kho dữ liệu 13
1.3.1 Qui trình xây dựng kho dữ liệu 13
1.3.2 Chi tiết các bước xây dựng kho dữ liệu 14
1.4 Tổng kết chương 20
Chương 2 CÔNG NGHỆ KHO DỮ LIỆU TRONG SQL SERVER 21
2.1 Lý do sử dụng công nghệ kho dữ liệu của Microsoft 21
2.2 Giải pháp tổng thể kho dữ liệu của Microsoft 22
2.3 Cải tiến cho kho dữ liệu trong SQL Server 2008 23
2.4 Các công cụ cho kho dữ liệu trong SQL Server 2008 24
2.4.1 Dịch vụ tích hợp dữ liệu 25
2.4.2 Dịch vụ Báo cáo 29
2.4.3 Dịch vụ phân tích 31
2.4.4 Bộ công cụ phát triển trí tuệ doanh nghiệp 33
2.4.5 Công cụ quản lý SQL Server 34
2.4.6 Dịch vụ tác nhân SQL Server 35
2.5 Qui trình xây dựng kho dữ liệu của Microsoft 36
2.6 Tổng kết chương 37
Chương 3 XÂY DỰNG KHO DỮ LIỆU SIÊU THỊ 38
3.1 Giới thiệu về siêu thị 38
3.2 Yêu cầu xây dựng kho dữ liệu 39
Trang 43.3 Phạm vi thực hiện trong luận văn 41
3.4 Dữ liệu nguồn cho kho dữ liệu 41
3.5 Xây dựng kho dữ liệu siêu thị 44
3.5.1 Kiến trúc tổng thể kho dữ liệu 44
3.5.2 Thiết kế cấu trúc dữ liệu 46
3.5.3 Thiết kế vật lý 50
3.5.4 Thiết kế các gói tích hợp dữ liệu 52
3.5.5 Thiết kế khối dữ liệu 59
3.5.6 Khai thác khối dữ liệu 62
3.5.7 Tạo các mẫu báo cáo phân tích 66
3.5.8 Tạo lịch thực hiện công việc tự động 66
3.6 Tổng kết chương 67
Chương 4 KẾT QUẢ CÀI ĐẶT THỬ NGHIỆM 68
4.1 Môi trường cài đặt 68
4.2 Dữ liệu thử nghiệm 68
4.3 Kết quả chạy thử nghiệm 70
4.3.1 Thời gian chạy tích hợp dữ liệu 70
4.3.2 Thời gian cập nhật khối dữ liệu 70
4.3.3 Thời gian phân tích số liệu 71
4.4 Một số mẫu phân tích và báo cáo 71
4.4.1 Các mẫu báo cáo 71
4.4.2 Các mẫu phân tích 72
4.5 Tổng kết chương 73
KẾT LUẬN 74
TÀI LIỆU THAM KHẢO 76
Tiếng Việt 76
Tiếng Anh 76
Trang 5BẢNG DANH SÁCH CÁC TỪ VIẾT TẮT
BI Business Intelligent Trí tuệ doanh nghiệp
BIDS Business Intelligent Development Studio Trình phát triển trí tuệ doanh
nghiệp
DM Data Mart Kho dữ liệu chuyên biệt
DW Data Warehouse Kho dữ liệu
XML Extensible Markup Language Ngôn ngữ đánh dấu mở rộng ETL Extract - Transform - Load Trích rút – Biến đổi – Nạp HOLAP Hybrid OLAP OLAP ghép
MOLAP Multidimensional OLAP OLAP đa chiều
OLAP Online Analytical Processsing Xử lý phân tích trực tuyến OLTP Online Transaction Processing Xử lý giao dịch trực tuyến ODS Operational Database Store Kho dữ liệu tác nghiệp
POS Point Of Sale Điểm bán hàng
RDBMS Relational DataBase Management
System
Hệ quản trị CSDL quan hệ
ROLAP Relational OLAP OLAP quan hệ
SCD Slowly Changing Dimension Chiều thay đổi chậm
SSAS SQL Server Analysis Services Dịch vụ phân tích của SQL
Server SSIS SQL Server Integration Service Dịch vụ tích hợp của SQL Server SSMS SQL Server Management Studio Trình quản lý của SQL Server SSRS SQL Server Reporting Services Dịch vụ báo cáo của SQL Server UDM Unified Dimensional Model Mô hình chiều thống nhất
Trang 6DANH SÁCH HÌNH VẼ
Hình 1.1 Đặc tính của kho dữ liệu 8
Hình 1.2 Kiến trúc kho dữ liệu 11
Hình 1.3 Ví dụ về lược đồ hình sao 12
Hình 1.4 Ví dụ phân tích dữ liệu bởi người dùng 13
Hình 1.5 Qui trình xây dựng kho dữ liệu 14
Hình 1.6 Các bước xây dựng mô hình kho dữ liệu 16
Hình 1.7 Ví dụ về các bảng tổng hợp 17
Hình 1.8 Mô hình SMP 18
Hình 1.9 Mô hình Cluster 19
Hình 2.1 Giải pháp DW/BI của Microsoft 22
Hình 2.2 Kiến trúc dịch vụ tích hợp SSIS 25
Hình 2.3 Ví dụ về một luồng dữ liệu 27
Hình 2.4 Kiến trúc dịch vụ báo cáo SSRS 30
Hình 2.5 Kiến trúc dịch vụ phân tích SSAS 32
Hình 2.6 Màn hình khởi tạo mẫu dự án DW/BI trong BIDS 34
Hình 2.7 Màn hình quản lý của SQL Server 35
Hình 2.8 Màn hình tạo công việc 35
Hình 2.9 Qui trình xây dựng kho dữ liệu của Microsoft 36
Hình 3.1 Mô hình hoạt động của phềm mềm quản lý siêu thị 38
Hình 3.2 Các chiều phân tích theo các chủ đề 40
Hình 3.3 Sơ đồ quan hệ các bảng dữ liệu nguồn 43
Hình 3.4 Kiến trúc tổng thể kho dữ liệu siêu thị 44
Hình 3.5 Sơ đồ cấu trúc các bảng dữ liệu của SieuThi_DW 47
Hình 3.6 Sơ đồ cấu trúc các bảng dữ liệu của SieuThi_DM 49
Hình 3.7 Sơ đồ tổ chức lưu trữ cho SieuThi_DM 52
Hình 3.8 Gói tích hợp PKG_STG_Controller 53
Hình 3.9 Gói tích hợp PKG_DW_Controller 55
Hình 3.10 Gói tích hợp PKG_DM_Controller 58
Hình 3.11 Màn hình kết nối đến SieuThi_DM 59
Hình 3.12 Màn hình dữ liệu nguồn cho khối 60
Hình 3.13 Màn hình cấu trúc khối Cube_POSRetail 60
Hình 3.14 Cấu hình khối dữ liệu Cube_POSRetail 61
Hình 3.15 Màn hình cập nhật cho khối dữ liệu 62
Hình 3.16 Màn hình kết nối đến khối dữ liệu từ Excel 63
Hình 3.17 Màn hình hiện danh sách các trường của PivotTable 64
Hình 3.18 Mẫu phân tích trong Excel sử dụng PivotTable 65
Hình 3.19 Màn hình SieuThi_Job của tác nhân SQL Server 67
Hình 4.1 Màn hình lịch sử chạy Job_SieuThi_01 70
Hình 4.2 Danh sách các báo cáo 71
Hình 4.3 Báo cáo “BC01 - Doanh thu bán hàng theo các năm” 71
Hình 4.4 Báo cáo “BC11 - Top 10 mặt hàng doanh số cao trong tháng” 72
Hình 4.5 Mẫu phân tích số lượng bán theo hàng hóa và thời gian 72
Hình 4.6 Mẫu phân tích doanh thu theo tháng giữa các năm 73
Trang 7DANH SÁCH BẢNG BIỂU
Bảng 3.1 Danh sách các bảng trong kho dữ liệu SieuThi_SRC 42
Bảng 3.2 Danh sách các bảng trong kho dữ liệu SieuThi_DW 48
Bảng 3.3 Danh sách các bảng trong kho dữ liệu SieuThi_DM 49
Bảng 3.4 Danh sách các gói tích hợp cho SieuThi_STG 53
Bảng 3.5 Danh sách các gói tích hợp cho SieuThi_DW 56
Bảng 3.6 Danh sách các gói tích hợp cho SieuThi_DM 58
Bảng 4.1 Số bản ghi của các bảng trong SieuThi_SRC 68
Bảng 4.2 Số bản ghi của các bảng trong SieuThi_DW 69
Bảng 4.3 Số bản ghi của các bảng trong SieuThi_DM 69
Trang 8LỜI MỞ ĐẦU
Việc xây dựng kho dữ liệu phục vụ cho phân tích và báo cáo của các doanh nghiệp sẽ là xu thế tất yếu trong những năm tới ở Việt nam Thực ra, kho dữ liệu đã được áp dụng khá phổ biến tại các nước phát triển như Mỹ, Úc, Đức, Nhật Tại Việt nam thì cho đến nay kho dữ liệu cũng đã được bắt đầu áp dụng cho một số ngành đi tiên phong trong lĩnh vực CNTT như Ngân hàng, Tài chính và Bưu chính Viễn thông Nhưng nhìn chung số lượng doanh nghiệp có kho dữ liệu là chưa nhiều, vì các doanh nghiệp vẫn đang phải ưu tiên phần mềm phục vụ tác nghiệp như kế toán, nhân sự, tiền lương, bán hàng, đặt hàng, hoạch định doanh nghiệp, phần mềm lõi, phần mềm quản
lý quan hệ khách hàng Nhưng trong vài năm tới, khi các phần mềm tác nghiệp đã được áp dụng phổ biến và chạy ổn định thì việc làm thế nào để khai thác được khối dữ liệu tác nghiệp đã có một cách hiệu quả nhất là điều mà các doanh nghiệp sẽ rất quan tâm
Nhận thấy được xu thế này, nên tên đề tài đã được đăng ký là “Nghiên cứu giải
pháp kho dữ liệu trong SQL Server 2008 và áp dụng trong Thương mại” cho luận văn
tốt nghiệp Hy vọng đây là cơ hội tốt để nghiên cứu và tìm hiểu tổng quan về kho dữ liệu và qui trình xây dựng nó, để nghiên cứu các giải pháp công nghệ cho kho dữ liệu của Microsoft nói chung và của SQL Server 2008 nói riêng, và cuối cùng là việc áp dụng những gì nghiên cứu được để xây dựng thử nghiệm kho dữ liệu cho bài toán thực
tế trong lĩnh vực thương mại
Nhờ sự giúp đỡ của bạn bè mà một phần dữ liệu để thử nghiệm và một số yêu
cầu về kho dữ liệu của siêu thị bán lẻ T-Mart đã được thu thập Vì vậy, bài toán áp dụng thử nghiệm là xây dựng kho dữ liệu cho siêu thị T-Mart
Ngoài phần mở đầu, phần kết luận, nội dung luận văn được chia thành 4 chương như sau:
Chương 1 Tổng quan về kho dữ liệu, chương này trình bày một cách tổng thể về
các khái niệm kho dữ liệu, cấu trúc kho dữ liệu, qui trình xây dựng kho dữ liệu, và cách thức khai thác kho dữ liệu
Chương 2 Tìm hiểu công nghệ kho dữ liệu trong SQL Server, chương này trình
bày giải pháp công nghệ kho dữ liệu của Microsoft, mà đặc biệt là của SQL Server
2008 Ngoài ra cũng trình bày một số công cụ được sử dụng trong việc xây dựng kho
dữ liệu như: SSIS dùng cho tích hợp, SSRS dùng cho báo cáo, SSAS dùng cho phân tích dữ liệu và SSMS dùng cho việc theo dõi và quản lý
Chương 3 Xây dựng kho dữ liệu siêu thị, chương này chủ yếu tập trung trình bày
những gì liên quan đến việc xây dựng kho dữ liệu siêu thị Nội dung bao gồm phạm vi
và yêu cầu bài toán, cấu trúc dữ liệu nguồn và đích, chi tiết các gói tích hợp dữ liệu cài
Trang 9đặt bởi SSIS, chi tiết khối dữ liệu cài đặt bởi SSAS và cuối cùng các mẫu các báo cáo
và phân tích nhằm khai thác kho dữ liệu
Chương 4 Kết quả cài đặt thử nghiệm Chương này tóm tắt các phần đã được cài
đặt và chạy thử nghiệm như: dữ liệu nguồn và đích, thời gian chạy các gói tích hợp, thời gian cập nhật khối dữ liệu, thời gian đáp ứng khi phân tích, và các mẫu phân tích
và báo cáo
Phần kết luận trình bày tổng hợp các kết quả thực hiện luận văn cũng như các phần cần mở rộng khi áp dụng cho thực tế
Trang 10Chương 1 TỔNG QUAN VỀ KHO DỮ LIỆU
1.1 Các khái niệm
1.1.1 Kho dữ liệu
Định nghĩa: kho dữ liệu (Data Warehouse - DW) là tuyển tập các CSDL tích hợp,
hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn
vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể [1]
Thực ra, cũng có nhiều định nghĩa về kho dữ liệu khác nhau, nhưng tất cả đều hướng đến mục đích là hỗ trợ cho chức năng trợ giúp quyết định
Ngoài việc chứa đựng một CSDL quan hệ, kho dữ liệu còn bao gồm các bước tích hợp dữ liệu, công nghệ OLAP, các công cụ phân tích, và các ứng dụng cho việc thu thập và cung cấp dữ liệu tới người sử dụng
1.1.2 Mục đích của kho dữ liệu
Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các vấn đề cơ bản sau:
Tích hợp dữ liệu từ nhiều nguồn khác nhau;
Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc
dữ liệu theo những hướng chủ đề nhất định;
Sử dụng cho các hệ thống hỗ trợ quyết định, các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt
1.1.3 Đặc tính của kho dữ liệu
Kho dữ liệu có các đặc tính như Hình 1.1, gồm bốn đặc tính sau:
Hình 1.1 Đặc tính của kho dữ liệu
Trang 11Nội dung dữ liệu được lưu trữ trong kho dữ liệu và CSDL tác nghiệp cũng khác nhau:
Kho dữ liệu không lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu có tính tổng hợp phục vụ chủ yếu cho quá trình phân tích nhằm trợ giúp ra quyết định
CSDL tác nghiệp lại cần những dữ liệu chi tiết, phục vụ trực tiếp cho những yêu cầu xử lý theo các chức năng của lĩnh vực ứng dụng hiện thời
Do vậy mối quan hệ của dữ liệu trong những hệ thống này cũng khác, đòi hỏi phải có tính chính xác và có tính thời sự
1.1.3.2 Tính tích hợp
Tính tích hợp được thể hiện bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗn tạp khác nhau Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng để đảm bảo sự đồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo thuộc tính giữa các nguồn khác nhau Kho dữ liệu phải đưa các dữ liệu từ các nguồn khác nhau về định dạng phù hợp Ngoài ra cũng cần phải giải quyết những vấn đề như xung đột tên và mâu thuẫn giữa các đơn vị đo
1.1.3.3 Tính ổn định
Tính ổn định thể hiện ở chỗ dữ liệu trong kho dữ liệu chỉ đọc và khai thác, không được sửa đổi bởi người sử dụng đầu cuối Nó chỉ cho phép thực hiện hai thao tác cơ bản:
Nạp dữ liệu vào kho dữ liệu
Truy cập dữ liệu từ kho dữ liệu
Thông tin trong kho dữ liệu được nạp vào sau khi dữ liệu trong hệ thống tác nghiệp đã xong giao dịch Tính không biến động thể hiện ở chỗ dữ liệu được lưu trữ lâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ
Trang 12trong kho vẫn không bị xoá và sửa đổi, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo
Tuy nhiên, trong thực tế nếu các bảng dữ liệu có kích thước quá lớn thì cũng phải
có kế hoạch để lưu trữ bớt các dữ liệu trong quá khứ, thời gian có thể sau 5-10 năm tuỳ theo yêu cầu nghiệp vụ báo cáo liên quan Sau khi lưu trữ dữ liệu cũ thì có thể xoá đi hoặc lưu trữ sang chỗ khác để giảm bớt dung lượng cần cho việc lưu trữ và tăng tốc độ truy cập
1.1.3.4 Tính lịch sử
Tính lịch sử thể hiện rằng yếu tố thời gian luôn được lưu trữ trong kho dữ liệu Kho dữ liệu thường chứa một khối lượng lớn dữ liệu trong quá khứ, dữ liệu được lưu trữ thành hàng loạt các bản chụp ảnh, mỗi bản ghi phản ánh giá trị của dữ liệu tại một thời điểm nhất định Điều này cho phép người sử dụng có thể lấy lại dữ liệu lịch sử và
so sánh dữ liệu cho các giai đoạn khác nhau Yếu tố thời gian đóng vai trò như một phần của khoá để đảm bảo tính duy nhất của một hàng và cung cấp đặc trưng về thời gian cho dữ liệu
1.1.4 Phân biệt kho dữ liệu với cơ sở dữ liệu tác nghiệp
Trên cơ sở các đặc trưng của kho dữ liệu thì có thể phân biệt kho dữ liệu với những CSDL tác nghiệp như sau:
Kho dữ liệu được xây dựng theo hướng chủ đề, nó được thực hiện theo ý
đồ của người sử dụng đầu cuối
Kho dữ liệu thường quản lý một khối lượng lớn thông tin hơn so với CSDL tác nghiệp
Kho dữ liệu có thể lưu trữ các thông tin tổng hợp theo một chủ đề nghiệp
vụ nào đó sao cho tạo ra các thông tin phục vụ hiệu quả cho việc phân tích của người sử dụng
Kho dữ liệu thông thường chứa các dữ liệu lịch sử kết nối nhiều năm của các thông tin tác nghiệp, khác với dữ liệu trong CSDL tác nghiệp thường
là mới, có tính thời sự trong khoảng thời gian ngắn
Kho dữ liệu chỉ chứa các dữ liệu của CSDL tác nghiệp mà đã được chắt lọc và tổng hợp, chỉ chứa những dữ liệu cần thiết cho công tác quản lý hay trợ giúp quyết định
Trang 131.2 Kiến trúc kho dữ liệu
Kiến trúc đầy đủ của kho dữ liệu bao gồm năm tầng như Hình 1.2 bên dưới Nhưng thực tế không phải lúc nào cũng cần có đầy đủ cả năm tầng này Tầng Staging
Area và Data Mart có thể bỏ đi tùy theo yêu cầu cụ thể của từng dự án
Hình 1.2 Kiến trúc kho dữ liệu
1.2.1 Nguồn dữ liệu
Nguồn dữ liệu cho kho dữ liệu có thể một trong các dạng sau:
CSDL của các phần mềm ứng dụng hoặc của các hệ thống tác nghiệp được lưu trữ bởi một hệ quản trị CSDL như Oracle, SQL Server, Access, DB2…
Các tập tin phẳng, các tập tin nhật ký, bảng tính Excel…
1.2.2 Kho dữ liệu
Kho dữ liệu hay còn gọi là kho dữ liệu mức doanh nghiệp là thành phần chứa dữ liệu lịch sử của nhiều chủ đề khác nhau, nó bao gồm cả dữ liệu thô và dữ liệu đã được tổng hợp ở một mức thấp Cụ thể như sau:
Dữ liệu thô: đây là phần chứa toàn bộ dữ liệu ở mức chi tiết nhất được lấy
từ dữ liệu nguồn sau khi đã loại bỏ những dữ liệu không cần thiết và biến đổi chúng, trong phần này dữ liệu thường vẫn được tổ chức tuân theo chuẩn 3NF (Third Normal Form)
Dữ liệu tổng hợp: đây là phần chứa dữ liệu ở mức tổng hợp hơn, được nhóm theo một số chiều nhất định, tùy theo mục đích cụ thể của từng tổ chức mà tạo ra các bảng tổng hợp khác nhau Các bảng dữ liệu tổng hợp
Trang 14này thường tổ chức phi chuẩn và được dùng cho mục đích phân tích báo cáo cũng như đầu vào dữ liệu cho việc xây dựng các kho dữ liệu chuyên biệt
1.2.3 Kho dữ liệu chuyên biệt
Kho dữ liệu chuyên biệt là thành phần chứa dữ liệu tổng hợp theo một chủ đề nào
đó như bán hàng, tồn kho, đặt hàng, thu nợ nhằm phục vụ cho việc truy vấn, báo cáo
và phân tích dữ liệu một cách dễ dàng và nhanh chóng có kết quả Trong thành phần này mô hình dữ liệu thường được tổ chức dưới dạng lược đồ hình sao, bao gồm bảng
dữ liệu thống kê nằm ở trung tâm gọi là bảng sự kiện và các chiều thống kê gọi là bảng chiều nằm ở xung quanh
Ví dụ: lược đồ hình sao về bán hàng như Hình 1.3 ở dưới
Hình 1.3 Ví dụ về lược đồ hình sao
1.2.4 Kho siêu dữ liệu
Kho siêu dữ liệu là thành phần chứa dữ liệu định nghĩa về cấu trúc kho dữ liệu, định nghĩa về các công việc (Job) cho quá trình tích hợp, chứa các dữ liệu về người sử dụng và quyền hạn Nó có thể được lưu trữ trong một cơ sở dữ liệu quan hệ hoặc dưới dạng hệ thống tập tin có cấu trúc
1.2.5 Vùng chứa tạm
Vùng chứa tạm là thành phần chứa dữ liệu trung gian phục vụ cho quá trình tích hợp dữ liệu được hiệu quả hơn, nó không có ý nghĩa với người dùng đầu cuối Vùng
Trang 15dữ liệu tạm có thể được lưu trữ trong một cơ sở dữ liệu quan hệ hoặc dưới dạng hệ thống tập tin phẳng
1.2.6 Người dùng
Người dùng sẽ sử dụng các công cụ để khai thác kho dữ liệu, các công cụ này có thể chạy trên nền web hoặc desktop Các công việc khai thác kho dữ liệu bao gồm: truy vấn, phân tích, báo cáo và khai phá dữ liệu Việc thực hiện phân tích số liệu có thể
thực hiện như ví dụ ở Hình 1.4 bên dưới
Hình 1.4 Ví dụ phân tích dữ liệu bởi người dùng
1.3 Qui trình xây dựng kho dữ liệu
1.3.1 Qui trình xây dựng kho dữ liệu
Việc xây dựng và phát triển kho dữ liệu là một việc không đơn giản, nó đòi hỏi phải có một phương pháp tiếp cận thích hợp Hiện nay có nhiều cách tiếp cận khác nhau nhưng đều dựa trên ba kiểu cơ bản sau:
Tiếp cận theo hướng tăng dần
Tiếp cận theo hướng từ trên xuống
Tiếp cận theo hướng từ dưới lên
Mỗi cách tiếp cận đều có các ưu và nhược điểm riêng, cách tiếp cận như Hình 1.5
sau đây là một phương pháp tiếp cận phổ biến hiện nay
Trang 16Hình 1.5 Qui trình xây dựng kho dữ liệu
Như vậy, để xây dựng và phát triển kho dữ liệu cần phải thực hiện các công việc
Lập kế hoạch cài đặt vật lý: bao gồm việc lựa chọn kiến trúc tính toán cho
hệ thống máy chủ phục vụ cho kho dữ liệu và lập kế hoạch lưu trữ dữ liệu Xây dựng qui trình tích hợp cho kho dữ liệu: xây dựng ra các công việc để thực hiện việc tích hợp dữ liệu từ nguồn vào kho dữ liệu
Quản trị kho dữ liệu: cài đặt đưa vào sử dụng kho dữ liệu, quản lý khai thác và cập nhật dữ liệu liên tục cho kho dữ liệu
1.3.2 Chi tiết các bước xây dựng kho dữ liệu
1.3.2.1 Lập kế hoạch xây dựng kho dữ liệu
Việc lập kế hoạch xây dựng kho dữ liệu bao gồm các nội dung cơ bản sau:
Lập kế hoạch tài chính: phải ước lượng được tổng chi phí cần đầu tư cho việc xây dựng và phát triển kho dữ liệu cũng như ai là người cung cấp và quản lý chi phí
Trang 17Lập kế hoạch về nghiệp vụ: phải định nghĩa được các mục đích nghiệp vụ
mà kho dữ liệu sẽ mang lại, định nghĩa các chủ đề mà kho dữ liệu sẽ hướng đến
Lập kế hoạch về kỹ thuật: phải xác định được yêu cầu kỹ thuật để đáp ứng cho kho dữ liệu Bao gồm bản thiết kế kiến trúc tổng thể của kho dữ liệu,
mô tả các chức năng của từng thành phần cấu thành nên kho dữ liệu, yêu cầu cụ thể về phần mềm, phần cứng và các tài nguyên mạng, sự ước lượng
về hiệu năng và kích cỡ của chúng
1.3.2.2 Xác định các yêu cầu khai thác thông tin từ kho dữ liệu
Mục đích chính của việc xây dựng và phát triển kho dữ liệu là phục vụ cho vai trò khai thác thông tin của người dùng, vì vậy việc xác định được yêu cầu khai khác thông tin của người sử dụng là rất quan trọng và nó là căn cứ để đánh giá mức độ thành công của kho dữ liệu Công việc này bao gồm các nội dung cơ bản sau:
Xác định các dạng người sử dụng của kho dữ liệu: thông thường có bốn dạng người sử dụng kho dữ liệu là lãnh đạo, quản lý phòng ban, chuyên viên phân tích và cán bộ tin học
Xác định tập hợp các yêu cầu của người sử dụng: xác định các nghiệp vụ, các thuộc tính các phân cấp mà nguời dùng cần khai thác
Xác định yêu cầu khai thác thông tin của người sử dụng: xác định các mức
độ yêu cầu phân tích là tổng hợp, chi tiết, bất thường… cũng như cách thức khai thác
Xác định các công việc quản lý việc khai thác của người sử dụng: yêu cầu cho việc truy cập và khai thác thông tin của người sử dụng phải được quản
lý sao cho vừa đảm bảo được tính dễ dàng cho người dùng nhưng vẫn vừa đảm bảo được tính an toàn và bảo mật của hệ thống
1.3.2.3 Xây dựng mô hình kho dữ liệu
Việc xây dựng mô hình kho dữ liệu sẽ được thực hiện qua bốn bước cơ bản sau:
Trang 18Hình 1.6 Các bước xây dựng mô hình kho dữ liệu
Việc xác định mô hình nghiệp vụ dựa trên các bước sau:
Xác định các yêu cầu nghiệp vụ
Xác định các đại lượng tính toán như số lượng, thành tiền, khuyến mãi Xác định các chiều dữ liệu như hàng hoá, khách hàng, kênh bán hàng, vùng miền, thời gian
Xác định các định nghĩa nghiệp vụ và các qui tắc nghiệp vụ
Xác định nguồn dữ liệu chính: nguồn dữ liệu có liên quan đến các nghiệp
vụ cần thiết cho kho dữ liệu
Xác định nguồn dữ liệu khác: nguồn dữ liệu từ bên ngoài, dữ liệu không phải dạng CSDL quan hệ
Tạo mô hình logic: thực hiện sau khi xác định được các chủ đề cho kho dữ liệu thì cần xác định mô hình logic của kho dữ liệu Có ba loại kiểu mô hình thường dùng cho kho dữ liệu là: mô hình chuẩn hoá, mô hình phi chuẩn hoá và mô hình hình sao Chi tiết cho từng mô hình như sau:
Mô hình chuẩn hoá: tức là dữ liệu được tổ chức theo chuẩn, thường là theo chuẩn 3NF giống như khi tổ chức dữ liệu trong OLTP
Mô hình phi chuẩn: dữ liệu được lưu trữ đầy trong các bảng Mục đích là phi chuẩn hoá các bảng để thêm hầu hết các cột được truy nhập vào một
Trang 19bảng chung để tránh việc kết hợp các bảng lại với nhau nhằm tăng tốc độ truy vấn và dễ dàng thực hiện truy vấn
Mô hình hình sao: dữ liệu được tổ chức thành các sơ đồ hình sao gồm có một bảng sự kiện nằm ở trung tâm và các bảng chiều nằm ở xung quanh Bảng sự kiện chứa các đại lượng tính toán và các trường tham chiếu tới các bảng chiều
Tạo mô hình mức tổng hợp: mô hình này chứa các loại bảng dữ liệu sau:
Bảng tổng hợp: chứa dữ liệu tổng hợp ở mức cao thường là tổng hợp dữ liệu từ bảng sự kiện theo một hoặc vài chiều
Bảng tính trước: chứa dữ liệu đã được tính toán sẵn nhằm phục vụ cho mục đích khai thác nào đó, thường dữ liệu cho các bảng bày không cho phép lên mức cao hơn nữa và để có được dữ liệu này phải thực hiện việc tính toán phức tạp
Bảng kiểu chụp ảnh: các bảng dữ liệu này chứa dữ liệu gắn chặt với yếu tố thời gian, giống như việc chụp ảnh, tại các thời điểm khác nhau thì tập dữ liệu cũng khác nhau Các bảng này thường chứa các tập dữ liệu được lặp lại theo các chu kỳ khác nhau như ngày, tuần, tháng năm… Ví dụ: bảng chứa số dư của từng loại tiền theo ngày, bảng chứa số lượng khách hàng đang ở trạng thái hoạt động theo từng vùng và theo từng ngày, các bảng
này được sinh ra tuỳ theo yêu cầu khai thác dữ liệu Hình 1.7 bên dưới là
ví dụ về mô hình mức tổng hợp
Hình 1.7 Ví dụ về các bảng tổng hợp
Tạo mô hình vật lý: đây chính là bước chuyển đổi từ mô hình logic sang mô hình vật lý, tức là thực hiện cài đặt các bảng dữ liệu lên một cơ sở dữ liệu cụ thể Các công việc phải làm trong bước này bao gồm:
Trang 20Định nghĩa qui ước đặt tên và các chuẩn qui định chung cho kho dữ liệu
Ví dụ: tên bảng chiều thì bắt đầu bằng tiền tố DIM_, tên bảng sự kiện thì bắt đầu bằng FACT_, tên index thì bắt đầu bằng IDX_
Thiết lập các chỉ mục: cho mục đích thực hiện truy vấn được nhanh hơn Thiết lập các phân vùng: cho mục đích truy vấn được nhanh và dễ bảo trì kho dữ liệu sau này
Cấu hình tối ưu cho kho dữ liệu: bằng cách thiết lập các tham số cho CSDL để tăng hiệu năng thực hiện truy vấn và đảm bảo an toàn cho kho
Chọn lựa mô hình vật lý: việc xác định mô hình vật lý thường theo một trong các
mô hình phổ biến sau:
Mô hình SMP (Symmetric Multi-Processing): tức là kiến trúc mà nhiều CPU trên cùng một máy chủ cùng chia sẻ một bộ nhớ và hệ thống đĩa, chi
tiết như Hình 1.8 bên dưới
Hình 1.8 Mô hình SMP
Mô hình Cluster: là mô hình mà gồm có nhiều máy chủ được nối với nhau thành một khối thống nhất và cùng chia sẻ chung hệ thống đĩa ngoài, như
Hình 1.9, cùng tham gia vào xử lý các công việc với nhau Ở góc độ người
dùng có thể xem các máy chủ này tương đương như một máy chủ Các máy chủ này thường được nối với nhau thông qua một thiết bị hỗ trợ băng thông rộng
Trang 21Hình 1.9 Mô hình Cluster
Lập giải pháp lưu trữ: việc thiết lập giải pháp lưu trữ bao gồm các công việc sau:
Lập kế hoạch tạo phân vùng cho các bảng có kích thước lớn: việc tạo phân vùng phải cân nhắc nên tạo theo dọc hay ngang, cũng như theo kiểu phạm
vi, băm, liệt kê hoặc là kết hợp
Lập kế hoạch tạo chỉ mục xem xét nên lập chỉ mục cho các bảng nào, trường nào, đối với một chỉ mục phải cân nhắc là nên chọn kiểu chỉ mục
là BTree hay Bitmap
Lập kế hoạch an toàn cho hệ thống đĩa: chọn mức RAID (Redundant Array of Independent Disks) hợp lý cho hệ thống đĩa
Lập kế hoạch sao lưu dự phòng: có nhiều giải pháp sao lưu khác nhau như trực tuyến hoặc ngoại tuyến, sao lưu đầy đủ, sao lưu một phần, hay sao lưu chỉ những gì thay đổi
1.3.2.5 Xây dựng qui trình tích hợp dữ liệu
Sau khi có được các mô hình vật lý của kho dữ liệu thì sẽ tiến hành xây dựng qui trình tích hợp dữ liệu cho kho dữ liệu, nhiệm vụ chính của bước này là phải lấy dữ liệu nguồn, biến đổi dữ liệu nguồn thành dữ liệu có giá trị và nạp nó vào dữ liệu đích Qui trình tích hợp được thực hiện tuần tự qua các bước sau:
Trích dữ liệu: tiến hành đọc các dữ liệu nguồn một cách có chọn lọc, dữ liệu ở đây có thể là dữ liệu đang sử dụng cho tác nghiệp, dữ liệu đang được lưu trữ, và dữ liệu từ bên ngoài tổ chức
Biến đổi dữ liệu: quá trình biến đổi dữ liệu có thể đơn giản hoặc phức tạp tuỳ thuộc và dữ liệu nguồn và dữ liệu đích
Nạp dữ liệu: tiến hành nạp dữ liệu đã được biến đổi vào các bảng trong kho dữ liệu đích Quá trình nạp dữ liệu có thể thực hiện theo từng hàng hoặc theo từng bó
1.3.2.6 Quản trị kho dữ liệu
Trang 22Sau khi kho dữ liệu được đưa vào sử dụng thì yêu cầu rất quan trọng là nó phải được quản lý và theo dõi thường xuyên, sao cho đảm bảo thông suốt cho người dùng khai thác thông tin hiệu quả nhất Việc quản trị kho dữ liệu bao gồm các tác vụ sau:
Quản lý về an toàn, bảo mật và độ ưu tiên
Quản lý sự truy cập từ nhiều người khác nhau
Kiểm tra chất lượng dữ liệu thường xuyên
Kiểm tra quá trình tích hợp thường xuyên
Quản lý và cập nhật kho siêu dữ liệu
Giám sát và lập các báo cáo về tình hình sử dụng và trạng thái của kho dữ liệu như thời gian sử dụng, số người khai thác, thời gian đáp ứng các yêu cầu
Quản lý qui trình sao lưu
Lập kế hoạch sẵn sàng phục hồi kho dữ liệu khi có sự cố
Lập kế hoạch để nâng cấp và mở rộng hệ thống đĩa, bộ nhớ, băng thông sẵn sàng cho sự gia tăng kích cỡ của kho dữ liệu theo thời gian
Lập kế hoạch lưu trữ bớt các dữ liệu cũ không cần thiết cho việc khai thác
ra các thiết bị lưu trữ ngoài kho dữ liệu
Lập kế hoạch mở rộng phạm vi dữ liệu của kho dữ liệu khi yêu cầu nghiệp
vụ thay đổi
1.3.2.7 Hỗ trợ khai thác kho dữ liệu
Cái đích chính của việc xây dựng kho dữ liệu là cung cấp thông tin hỗ trợ cho các nhà quản lý đưa ra các quyết định chiến lược hiệu quả hơn Nên phải có kế hoạch trang bị các công cụ và đào tạo sử dụng nhằm nâng cao khả năng khai thác kho dữ liệu
1.4 Tổng kết chương
Chương này chủ yếu trình bày một cách cô đọng các nội dung cơ bản về kho dữ liệu, với mục đích chỉ đưa ra các nội dung cơ bản làm nền tảng cho các chương tiếp theo Các nội dung được trình bày bao gồm các khái niệm, các đặc tính, kiến trúc tổng thể, và qui trình thực hiện việc xây dựng kho dữ liệu
Trang 23Chương 2 CÔNG NGHỆ KHO DỮ LIỆU TRONG SQL SERVER
2.1 Lý do sử dụng công nghệ kho dữ liệu của Microsoft
Để xây dựng kho dữ liệu có thể sử dụng nhiều công cụ của các hãng khác nhau trên thị trường như Oracle, IBM, Microsoft, SAP, Business Objects, SAS Các hãng lớn như Oracle, IBM, và Microsoft đều có giải pháp và bộ công cụ đầy đủ cho việc thiết kế và xây dựng kho dữ liệu Mỗi hãng đều có những ưu điểm và nhược điểm nhất định, nên tùy vào điều kiện cụ thể của từng dự án mà cân nhắc chọn giải pháp và bộ công cụ của hãng nào cho phù hợp
Phạm vi của luận văn này chỉ tập trung vào việc sử dụng công nghệ của hãng Microsoft, mà công nghệ nền tảng là dựa trên SQL Server 2008, cho việc xây dựng kho dữ liệu Sau đây là một số ưu điểm của công nghệ của Microsoft cho việc xây dựng kho dữ liệu:
Tính toàn diện: thể hiện việc ở cung cấp đầy đủ từ mức hệ điều hành, hệ quản trị CSDL, và môi trường phát triển, đến cổng chia sẻ thông tin, bộ công cụ hỗ trợ văn phòng mà đặc biệt là bảng tính Excel Hoàn toàn có thể xây dựng một kho dữ liệu hoặc giải pháp trí tuệ doanh nghiệp hoàn chỉnh
mà chỉ cần sử dụng bộ công cụ phần mềm của Microsoft Ngoài ra, cũng yên tâm rằng công cụ phần phần mềm này hoàn toàn tương thích với nhau
và hoạt động một cách hiệu quả
Chi phí đầu tư thấp: chi phí ở đây bao gồm chi phí bản quyền phần mềm, chi phí hỗ trợ kỹ thuật, chi phí đào tạo, chi phí phát triển, và chi phí vận hành hệ thống Thông thường, chi phí cho để có bản quyền hệ quản trị CSDL SQL Server của Microsoft thường ít hơn các hãng khác Việc quản trị SQL Server cũng dễ hơn các hệ quản trị CSDL khác nên giảm được số lượng nhân lực và thời gian đào tạo đáng kể Ngoài ra, ngày nay công
nghệ lập trình Net sử dụng CSDL SQL Server là khá phổ biến tại các
doanh nghiệp nên họ có thể tận dụng được nguồn nhân lực này cho việc tiếp nhận và phát triển mở rộng cho kho dữ liệu
Tính mở: mặc dù có thể xây dựng một kho dữ liệu hoàn chỉnh chỉ sử dụng duy nhất các công cụ của Microsoft nhưng các công cụ này hoàn toàn có thể được thay thế bởi các công cụ của các nhà phát triển thứ ba
Tính hiệu năng cao và mở rộng: tính đến thời điểm hiện nay thì kho dữ liệu được xây dựng dựa trên công nghệ của Microsoft có dung lượng đến
10 terabytes khá phổ biến và đã có một số kho dữ liệu mà dung lượng đạt đến mức 50 terabytes Microsoft cũng đã và đang mở rộng các dòng sản
Trang 24phẩm của SQL Server cho phép xử lý song song nhằm hướng đến kho dữ liệu mức hàng trăm terabytes
Microsoft đã đẩy mạnh đầu tư vào lĩnh vực trí tuệ doanh nghiệp, bản thân SQL Server 2008 đã tích hợp bộ công cụ phát triển ứng dụng trí tuệ doanh nghiệp một cách đầy đủ từ việc tích hợp dữ liệu, đến việc lập báo cáo, phân tích số liệu, và quản lý
2.2 Giải pháp tổng thể kho dữ liệu của Microsoft
Những năm gần đây Microsoft đã tập trung vào giải pháp trí tuệ doanh nghiệp nói chung hay hẹp hơn là giải pháp kho dữ liệu, họ xác định đây là một trong những hướng chính mà hãng sẽ tiếp tục theo đuổi Giải pháp tổng thể của Microsoft cho
DW/BI được thể hiện như Hình 2.1 bên dưới
Hình 2.1 Giải pháp DW/BI của Microsoft
Tầng dữ liệu nguồn: là tầng chứa dữ liệu nguồn cho kho dữ liệu, có thể lấy dữ liệu từ nhiều ứng dụng khác nhau như Microsoft Dynamic, Siebel, SAP và từ nhiều
hệ quản trị CSDL khác nhau như Oracle, DB2, Informix…
Tầng nền tảng: là tầng chứa toàn bộ công cụ nền tảng cho trí tuệ doanh nghiệp Tầng này bao gồm các công cụ và dịch vụ sau:
Dịch vụ tích hợp dữ liệu SSIS: là nền tảng để xây dựng giải pháp tích hợp
dữ liệu, tức tạo các gói dùng cho việc việc trích rút, thực hiện các phép biến đổi, và cuối cùng là nạp vào đích
Hệ quản trị CSDL SQL Server: là phần lõi để lưu trữ, xử lý và bảo đảm an ninh dữ liệu Nó cung cấp kiểm soát truy cập và xử lý giao dịch nhanh chóng để đáp ứng hầu hết các yêu cầu dữ liệu
Trang 25Dịch vụ báo cáo SSRS: cho phép tạo các báo cáo từ nhiều nguồn dữ liệu, xuất bản báo cáo trong các định dạng khác nhau, và quản lý sử dụng một cách tập trung
Dịch vụ phân tích SSAS: hỗ trợ công nghệ OLAP cho phép tạo, khai thác
và quản lý các khối đa chiều chứa dữ liệu tổng hợp từ các nguồn dữ liệu khác nhau Ngoài ra cũng cho phép thiết kế, tạo và trình bày trực quan mô hình khai phá dữ liệu Những mô hình này được xây dựng từ các nguồn
dữ liệu khác nhau bằng cách sử dụng nhiều thuật toán khai phá dữ liệu chuẩn
Tầng khai thác: là tầng chứa các công cụ dùng cho người sử dụng đầu cuối thực
hiện việc khai thác kho dữ liệu như sử dụng Excel hay PerformancePoint để tạo các
bảng tính, báo cáo, bảng điều khiển, thẻ tính điểm Ngoài ra tầng này cũng là môi trường để phân phối và chia sẻ các bảng tính, báo cáo, bảng điều khiển… cho những người sử dụng đầu cuối trên mạng Intranet hoặc Internet thông qua phần mềm
SharePoint
2.3 Cải tiến cho kho dữ liệu trong SQL Server 2008
SQL Server 2008 đã có những cải tiến đáng kể dành cho kho dữ liệu và theo họ cho biết có thể đáp ứng 95% các yêu cầu của kho dữ liệu trên thị trường hiện nay Sau đây là một số thay đổi của SQL Server 2008 cho kho dữ liệu:
Cho phép tạo các bảng sự kiện với kích thước rất lớn lên tới 100 tỷ hàng Cung cấp câu lệnh thao thác gộp, câu lệnh này thực hiện các thao tác đối với các bảng dữ liệu với hiệu năng rất tốt ngoài ra cũng nhờ gộp các thao tác thêm mới, sửa và xóa vào một câu lệnh nên giúp việc viết các câu lệnh sáng sủa và nhanh hơn
Cải tiến câu lệnh chèn vào bảng một tập các hàng dữ liệu từ câu lệnh chọn nhằm tăng tốc độ thực hiện và giảm thiểu bộ nhớ làm việc
Hỗ trợ khả năng bắt các sự thay đổi (Change Data Capture - CDC) cho CSDL nguồn chạy trên SQL SERVER 2008, đây là khả năng tự đánh dấu
sự thay đổi của một bảng theo thời gian và cho phép lấy ra tập dữ liệu thay đổi trong một khoảng thời gian chỉ ra Tính năng này thường áp dụng cho các bảng dữ liệu nguồn mà chưa có cột ghi lại sự thay đổi dữ liệu theo thời gian
Cải tiến công cụ tra cứu dùng cho tích hợp, cho phép sử dụng bộ nhớ đệm một cách tối đa tại máy chủ tích hợp
Trang 26Cho phép nén dữ liệu lưu trữ cho các bảng sự kiện giúp có thể giảm dung lượng lưu trữ xuống được từ 2-7 lần
Cải tiến công nghệ phân vùng và xử lý song song giúp có thể đáp ứng câu truy vấn nhanh hơn 3-5 lần so với phiên bản 2005
Cải tiến việc thực thi câu lệnh truy vấn cho giản đồ hình sao, thời gian thực thi nhanh đáng kể nhờ áp dụng công nghệ chỉ mục Bitmap trong quá trình thực thi
Cho phép thực hiện sao lưu nén: tính năng sao lưu nén không chỉ giảm kích thước đáng kể mà còn giảm cả thời gian thực hiện so với sao lưu thông thường Ngoài ra SQL Server 2008 còn cho phép sao lưu CSDL lên đến 200GB bằng câu lệnh của chính nó
Cải tiến khả năng quản lý tài nguyên như bộ nhớ, bộ vi xử lý, và các tiến trình Cho phép thực hiện cấu hình tài nguyên sử dụng cho từng người dùng, ứng dụng và phiên làm việc
2.4 Các công cụ cho kho dữ liệu trong SQL Server 2008
SQL Server 2008 không chỉ là một hệ quản trị CSDL (RDBMS) hay dùng trong các ứng dụng tác nghiệp mà còn là bộ công cụ đầy đủ hỗ trợ cho việc xây dựng kho dữ liệu Cụ thể SQL Server 2008 hỗ trợ các công cụ và dịch vụ cho việc xây dựng kho dữ liệu như sau:
Hệ quản trị CSDL quan hệ: dùng để cài đặt CSDL quan hệ cho kho dữ liệu
Dịch vụ tích hợp dữ liệu: sử dụng để tạo các gói để tích hợp dữ liệu
Dịch vụ báo cáo: sử dụng cho việc cài đặt, quản lý và trình bày các báo cáo
Dịch vụ phân tích: sử dụng cho việc thiết kế cài đặt các khối dữ liệu, dùng cho việc phân tích dữ liệu theo đa chiều
Công cụ quản lý: công cụ để quản lý và theo dõi toàn bộ các dịch vụ ở trên Ngoài SSMS còn cho phép tạo các công việc và thiết lập lịch biểu để thực thi tự động cho các công việc, cũng như cho phép theo dõi và điều khiển các công việc
Công cụ phát triển BI của SQL Server: là một phần nằm trong bộ công cụ phát triển ứng dụng Visual Studio 2008 của Microsoft hỗ trợ cho việc phát triển các ứng dụng BI nói chung và kho dữ liệu nói riêng
Trang 27Chi tiết về kiến trúc và các tính năng cơ bản của các dịch vụ chính sử dụng để xây dựng và quản lý kho dữ liệu sẽ được trình bày chi tiết hơn trong các phần kế tiếp theo sau
2.4.1 Dịch vụ tích hợp dữ liệu
SSIS là nền tảng cho việc tích hợp dữ liệu, cung cấp các chức năng giúp cho việc phát triển qui trình tích hợp dữ liệu khi xây dựng kho dữ liệu được nhanh và hiệu quả hơn SSIS cung cấp một giao diện phát triển bằng đồ họa, người dùng có thể kéo và thả các đối tượng của SSIS hay cũng có thể kết hợp lập trình bằng mã lệnh trong giao diện soạn thảo
Kiến trúc của dịch vụ tích hợp SSIS như Hình 2.2 sau đây
Hình 2.2 Kiến trúc dịch vụ tích hợp SSIS
Trang 28Kiến trúc của SSIS chứa bốn thành phần cơ bản:
Dịch vụ SSIS;
Lõi thời gian chạy và các thực thi thời gian chạy của SSIS;
Luồng dữ liệu và các thành phần của luồng dữ liệu;
Người sử dụng đầu cuối SSIS
Dịch vụ SSIS là một dịch vụ của Windows được cài đặt khi tiến hành cài đặt thành phần SSIS của SQL Server 2008, nó theo dõi việc thực thi của các gói
Lõi thời gian chạy và các chương trình hỗ trợ cho nó sẽ thực thi các gói tích hợp SSIS Chúng sẽ quản lý, ghi nhật ký, gỡ rối, cấu hình kết nối và thực hiện các thao tác của gói Hơn nữa nó còn quản lý các sự kiện sinh ra trong thời gian chạy và thực hiện việc gửi thư điện tử hoặc ghi nhật ký
Gói: gói là thành phần lõi của SSIS Một gói có thể xem như một chương trình thực thi của hệ điều hành Windows Về cơ bản, gói là tập các nhiệm vụ được thực hiện
theo một cách có trật tự Một gói có thể được ghi vào CSDL MSDB, một CSDL hệ thống mặc định của SQL Server, hoặc là ghi ra dưới dạng một tập tin có đuôi là dtsx
Tác vụ: một tác vụ là đơn vị công việc Tác vụ trong một gói cũng giống như một phương thức thực hiện trong ngôn ngữ lập trình Có thể là việc di chuyển tập tin, nạp nội dung tập tin và CSDL, gửi một thư điện tử Tác vụ thường được cung cấp sẵn bởi SSIS nhưng cũng có thể tạo ra các tác vụ riêng bằng cách sử dụng ngôn ngữ lập trình
C# hoặc VB.net dựa trên mô hình đối tượng của SSIS Một số tác vụ phổ biến được
cung cấp sẵn trong SSIS như sau:
Bulk Insert Task: nạp dữ liệu vào một bảng sử dụng câu lệnh BULK
INSERT SQL
Data Flow Task: đây là tác vụ đặc biệt dùng để lấy dữ liệu từ nguồn, biến
đổi và nạp vào đích
Execute Package Task: cho phép thưc thi một gói trong gói hiện hành, tạo
cho gói SSIS có tính mô đun hóa
Execute Process Task: cho phép thực thi một chương trình bên ngoài cho
một nhiệm vụ nào đấy Ví dụ: thực hiện chia nhỏ một một tập tin thành nhiều tập tin con, trước khi xử lý từng tập tin con
Execute SQL Task: thực thi một câu lệnh SQL hoặc một thủ tục lưu trữ File System Task: tác vụ này cho phép thao tác với tập tin và thư mục Các
thao tác như tạo mới, đổi tên, sao chép hoặc xóa
Trang 29FTP Task: gửi nhận tập tin thông qua một dịch vụ truyền tập tin
Script Task: chạy một đoạn mã nguồn bằng VB.NET hoặc C#
Send Mail Task: thực hiện gửi thư điện tử
Analysis Services Processing Task: thực hiện các thao tác cho các khối dữ
liệu
Web Service Task: thực hiện một phương thức nào đấy của một dịch vụ
web
XML Task: thực thi một tác vụ nào đấy cho tập tin XML Nó thực hiện
phân tích hoặc xử lý một tập tin XML Nó cũng có thể ghép, chia tách hoặc định dạng lại tập tin XML
Các phần tử luồng dữ liệu: khi tạo một tác vụ luồng dữ liệu, thì BIDS sẽ hiện ra các phần tử luồng dữ liệu sử dụng cho việc thiết kế Thẻ luồng điều khiển chứa các luồng chính của gói, còn thẻ luồng dữ liệu sẽ chứa các bước biến đổi về dữ liệu Có thể tạo nhiều luồng dữ liệu trong thẻ luồng điều khiển, và khi kích vào một luồng dữ liệu nào đấy dữ liệu thì thẻ luồng điều khiển sẽ hiện ra tất cả các bước biến đổi cho luồng
dữ liệu đấy Hình 2.3 dưới đây là ví dụ về nội dung của một luồng dữ liệu
Hình 2.3 Ví dụ về một luồng dữ liệu
Nguồn: nguồn là nơi để chỉ ra vị trí của nguồn dữ liệu sẽ được lấy vào trước khi
xử lý Nguồn thông thường chỉ đến một kết nối của gói SSIS Sau đây là một số nguồn phổ biến được sử dụng trong SSIS:
OLE DB: kết nối đến một nguồn dữ liệu OLE DB như SQL Server,
Access, Oracle, hoặc DB 2
Trang 30Excel: chỉ đến một bảng tính Excel Với nguồn này thì có thể thực hiện
câu lênh truy vấn SQL để lấy một số dữ liệu cần thiết trong bảng tính
Flat File: kết nối đến tập tin mà các các cột dữ liệu được phân cách bởi
các dấu phân cách hoặc chiều dài các cột là cố định
XML: lấy dữ liệu từ một tập tin XML
ADO.NET: cho phép kết nối đến nguồn dữ liệu thông qua ODBC
Đích: trong một luồng dữ liệu thì đích có thể từ một nguồn hoặc một phép biến đổi Một số loại đích hỗ trợ trong SSIS như sau:
Excel: ghi dữ liệu ra một tập tin Excel đã có trước
Flat file: ghi dữ liệu ra tập tin phẳng, tức có phân cách hoặc chiều dài cố
định
OLE: ghi dữ liệu dữ liệu ra SQL Server, Access, Oracle, hoặc DB2
SQL Server: Ghi dữ liệu ra một SQL Server, cách này sẽ nhanh và hiệu
quả
Các phép biến đổi: các phép biến đổi là thành phần chính của luồng dữ liệu dùng
để thay đổi dữ liệu theo ý của bạn Ví dụ: bạn muốn dữ liệu được tổng hợp và sắp xếp thì sẽ cần hai phép biến đổi Các phép biến đổi của SSIS thường được thực hiện trong
bộ nhớ nên thường nhanh hơn việc đọc đĩa Sau đây là một số phép biến đổi cơ bản cung cấp sẵn trong SSIS:
Aggregate: tổng hợp dữu liệu từ phép biến đổi trước hoặc từ nguồn Thực
chất tương tự như câu lệnh GROUP BY trong T-SQL
Conditional Split: chia dữ liệu dựa trên điều kiện Phép biến đổi này tương
đương câu lệnh CASE trong T-SQL
Data Conversion: chuyển đổi kiểu cho các cột dữ liệu, tượng tự như câu
lệnh CAST trong T-SQL
Derived Column: thực hiện cập nhật dữ liệu hoặc tạo cột mới bằng công
thức Ví dụ: có thể tính cột lợi nhuận dựa trên cột chi phí và giá bán ra
Fuzzy Grouping: thực hiện làm sạch hoặc tìm kiếm các hàng mà gần như
trùng nhau
Fuzzy Lookup: tra cứu và chuẩn hóa dữ liệu dựa trên logic mờ Ví dụ:
chuyển tên “xuan” thành “xuân” hoặc “thanhf” sang “thành”
Trang 31Lookup: thực hiện việc tra cứu dữ liệu bởi một cột khóa và lấy ra một cột
khác tương ứng với dữ liệu khớp Ví dụ: có thể dùng mã hàng hóa để tra cứu và lấy ra tên hàng hóa
Row Count: lưu số hàng của luồng dữ liệu bằng một biến để sử dụng cho
một số bước khác và công việc giám sát
Slowly Changing Dimension: đây là phép biến đổi gộp các thao tác thêm
mới và cập nhật dữ liệu cho các bảng chiều trong kho dữ liệu
Sort: sắp xếp dữ liệu theo các cột chỉ ra
Union All: gộp nhiều tập dữ liệu vào một tập duy nhất
2.4.2 Dịch vụ Báo cáo
Dịch vụ báo cáo cho phép tạo báo cáo lấy từ nhiều nguồn dữ liệu khác nhau, hiển thị các dữ liệu một cách đa dạng như bảng biểu, ma trận, danh sách, đồng hồ đo, và biểu đồ, và cũng như xuất ra một số định dạng thông dụng chẳng hạn như Word, Excel, PDF, XML, và HTML mà không cần viết mã lệnh Dịch vụ báo cáo cung cấp nhiều chức năng để tự động hoá việc phân phối các báo cáo dựa trên lịch, và tích hợp với Microsoft Office SharePoint Server Hơn nữa, dịch vụ báo cáo có một tập các thư viện lập trình mà có thể gọi từ các các dịch vụ web, giúp bạn có thể tự động hóa hầu hết các phần của báo cáo của bạn thông qua qua ngôn ngữ kịch bản hoặc ngôn ngữ lập trình
Dịch vụ SSRS trong SQL Server 2008 có những cải tiến sau:
Công cụ cấu hình dịch vụ báo cáo được gói gọn lại, chỉ cần một công cụ duy nhất có thể thiết lập cấu hình cho môi trường báo cáo
Kiến trúc mới hỗ trợ tốt hơn cho dịch vụ thông tin Internet, và cải thiện đáng kể khả năng phân trang và bộ nhớ đệm cho các báo cáo
Cải tiến đáng kể nhất là các tính năng Tablix, đây là một tính năng mạnh cho phép kết hợp bảng và ma trận trong một vùng của báo cáo Trong quá khứ, để đưa ra báo cáo loại này phải tạo ra nhiều báo cáo và viết mã để ẩn
và hiện các phần hiển thị và các cột
Dịch vụ báo cáo cải tiến việc xuất các báo cáo ra dạng Excel và Word Tích hợp công cụ thiết kế báo cáo vào bộ phát triển trí tuệ doanh nghiệp, cung cấp đầy đủ các tính năng để tạo các báo báo phức tạp
Kiến trúc của dịch vụ cáo thể hiện như Hình 2.4 bên dưới
Trang 32Hình 2.4 Kiến trúc dịch vụ báo cáo SSRS
Ngày nay hầu hết các doanh nghiệp lưu trữ một lượng lớn dữ liệu, mà các dữ liệu này có thể làm cơ sở cho nhiều quyết định quan trọng ảnh hưởng đến việc thực hiện và chỉ đạo của doanh nghiệp Tuy nhiên, trước khi có dịch vụ báo cáo gắn với với SQL Server 2000 ra đời thì việc tạo ra các báo cáo dựa trên dữ liệu này thường sử dụng các công cụ của bên thứ ba nên đắt tiền, mà các bên thứ ba thường xuyên sử dụng các định dạng độc quyền cho các báo cáo và khó có thể tích hợp được Một trong những mục tiêu của dịch vụ báo cáo là cung cấp một nền tảng duy nhất, tiêu chuẩn cho khả năng thiết kế, sáng tạo, triển khai, và quản lý của tất cả các báo cáo Đồng thời, cũng thúc đẩy sự tương thích giữa các môi trường báo cáo khác nhau bằng cách áp dụng một ngôn ngữ dựa trên chuẩn ngôn ngữ XML để định nghĩa các báo cáo, hay còn được là
là ngôn ngữ định nghĩa báo cáo RDL
Report Server Service: đây là dịch vụ của Windows mà đưa ra các chức năng sử
dụng cho các dịch vụ web và ứng dụng web quản lý báo cáo Nó cũng có nhiệm vụ xử
lý các yêu cầu từ người dùng, sinh ra các báo và quản lý các tác vụ Chi tiết các thành
phần bên trong Report Server Service như sau:
Report Manager: quản lý báo cáo là công cụ dựa trên nền web sử dụng
cho việc xem và trình diễn báo cáo, đăng ký báo cáo, thay đổi tính chất báo cáo, an ninh, cấu hình, và một loạt các nhiệm vụ khác Quản lý báo cáo đã không còn lưu trữ trong IIS, mà đã trở thành một phần của cốt lõi
của Report Server Service
Trang 33Report Server Web Services: là giao diện lập trình web, cho phép xử lý
báo cáo và bảo trì các tác vụ
Background Processing: là thành phần chủ yếu chịu trách nhiệm tạo ra và
phân phối các báo cáo dựa trên lịch biểu Nó cũng có chức năng bảo trì CSDL cho máy chủ báo cáo
Authentication: dịch vụ báo cáo không còn được cài trên IIS nữa, nên việc
thực thi nó cần phải xác thực riêng, có thể dựa trên sự xác thực mở rộng của Windows là mặc định hay các kiểu xác thực khác
HTTP listener: dịch vụ báo cáo cũng cung cấp cơ chế ghi nhật ký riêng
cho nó mà không dùng nhật ký mặc định của IIS
Metadata Catalog: lưu trữ tất cả các thông tin liên quan đến báo cáo, chẳng hạn
như định nghĩa báo cáo, các nguồn dữ liệu, các thông số báo cáo, báo cáo lưu trữ, thiết lập bảo mật, lập kế hoạch và phân phát thông tin, và thực hiện báo cáo thông tin đăng nhập
Report Builder: là một ứng dụng đồ họa truy cập thông qua thành phần quản lý
báo cáo Cho phép người sử dụng thiết kế các báo cáo đơn giản và bất thường Đặc biệt phù hợp cho người sử dụng cuối mà không có môi trường phát triển báo cáo đầy
đủ các tính năng
Report Designer: là công cụ đồ họa được nhúng vào bộ công cụ BIDS và cũng có
thể chạy như một ứng dụng độc lập, cho phép thiết kế và triển khai báo cáo chỉ bằng cách kéo và thả
2.4.3 Dịch vụ phân tích
SSAS trong là một trong những dịch vụ chính của SQL Server 2008 dùng để xây dựng các chiều và các khối dữ liệu cho kho dữ liệu, trong phiên bản mới này còn hỗ trợ một số thuật toán khai phá dữ liệu, điều này cung cấp cho người quản lý có cái nhìn sâu hơn về dữ liệu của họ Ngoài ra, SSAS cũng là một phần nền tảng của BI SSAS trong SQL Server 2008 đã được tái kiến trúc nhằm nâng cao khả năng mở rộng và tính tin cậy, trong môi trường doanh nghiệp, và khả năng bảo mật dữ liệu SSAS cung cấp khả năng tích hợp nhiều đối tượng của SSAS nhằm tăng khả năng mở rộng Ngoài ra dịch vụ này còn cung cấp các thuật toán để quản lý hiệu quả các khối kích thước lớn SSAS cung cấp đa dạng các công cụ để tạo lập OLAP một cách hiệu quả và quản lý một cách dễ dàng
SSAS hỗ trợ chuẩn XML, có nghĩa việc trao đổi dữ liệu giữa SSAS với các máy khách là XML, sự thay đổi này nâng cao khả năng tương tác giữa các máy khách và máy chủ Việc lưu trữ siêu dữ liệu trong cũng được thực hiện dưới dạng XML Ngoài
Trang 34ra, trong phiên bản 2008 còn cho phép người dùng tùy chọn việc lưu trữ dữ liệu và dữ liệu tổng hợp dưới dạng đối tượng của SSAS hay dạng CSDL quan hệ Việc lưu trữ dữ liệu theo định dạng đối tượng của SSAS có thể xử lý tốt hơn và truy vấn nhanh hơn dạng cơ sở dữ liệu quan hệ Có 3 cách lưu trữ dữ liệu chính trong SSAS:
MOLAP: đây là mô hình lưu trữ mà dữ liệu theo định dạng của SSAS Cách lưu trữ này cho hiệu quả truy vấn tốt nhất và có thể xử lý các tính toán phức tạp Điểm yếu của cách lưu trữ này là tốn dung lượng và không thể xem được dữ liệu mới cho đến khi làm mới lại khối dữ liệu
ROLAP: đây là cách lưu trữ mà dữ liệu chính được lưu trữ trong CSDL quan hệ Cách truy vấn trên SSAS được thay đổi sang kiểu truy vấn trên CSDL quan hệ mỗi khi thực thi điều này làm giảm hiệu năng của truy vấn, các truy vấn thường rất chậm so với mô hình trên Điểm mạnh của cách lưu trữ này là dung lượng khối dữ liệu chỉ giới hạn bởi dung lượng của cơ
sở dữ liệu quan hệ
HOLAP: đây là mô hình tích hợp của cả hai mô hình trên, dữ liệu thông thường được lưu trữ dưới dạng CSDL quan hệ trong khi các dữ liệu tổng hợp được lưu trữ dưới dạng đối tượng SSAS Nếu dữ liệu yêu cầu là dạng tổng hợp thì sẽ thực hiện truy vấn tại SSAS còn nếu dữ liệu yêu cầu là dạng chi tiết truy vấn sẽ được dịch và truy vấn tại CSDL quan hệ Điều này làm tăng tốc độ xử lý của mô hình ROLAP và tận dụng được khả năng lưu trữ của mô hình ROLAP
Kiến trúc của dịch vụ phân tích trong SQL Server 2008 như Hình 2.5 bên dưới
Hình 2.5 Kiến trúc dịch vụ phân tích SSAS
Thành phần chính của dịch vụ phân tích là mô hình chiều thống nhất (UDM) Đây là mô hình chiều đại diện cho kho dữ liệu quan hệ và kho dữ liệu đa chiều UDM cung cấp một cầu nối, hay có thể hiểu là một giao diện chuẩn để nối các đầu cuối khác
Trang 35nhau như Excel hay dịch vụ báo cáo với các ngồn dữ liệu hỗn tạp Thay vì sử dụng các ngôn ngữ gốc để truy cập các nguồn dữ liệu thì UDM cho phép người dùng sử dụng các lệnh của UDM
Một số lượng lớn các tính năng của dịch vụ phân tích xây dựng trong UDM Những tính năng này bao gồm các hệ thống phân cấp, sự phân loại, biểu diễn thời gian, biên dịch ngôn ngữ… thậm chí cả các chức năng cao cấp như bộ đệm chủ động
và phân tích cũng là một phần của UDM và coi như có sẵn trong dịch vụ báo cáo Ngày nay, XML và dịch vụ web đã trở nên phổ biến và quan trọng, nên dịch vụ phân tích cũng theo xu hướng kỹ thuật này Máy chủ dịch vụ phân tích hoạt động giống như một dịch vụ web và không có gì ngạc nhiên khi thấy ngôn ngữ để quản lý máy chủ dịch vụ phân tích cũng dựa trên XML Tất cả các giao tiếp giữa máy khách và máy chủ phân tích đều qua chuẩn XML/A
Dịch vụ phân tích trong SQL Server 2008 không lưu trữ tất cả các chiều vào bộ nhớ Giống như một hệ điều hành chỉ giữ một số trang trong bộ nhớ còn lại một số trang hoán đổi sang đĩa cứng, dịch vụ phân tích cũng sử dụng cả bộ nhớ vật lý và không gian đĩa Lợi ích của phương pháp này là dịch vụ phân tích hỗ trợ kích thước các chiều gần như không có giới hạn Ví dụ, dịch vụ phân tích trong SQL Server 2000
sẽ bị hạn chế bởi dung lượng bộ nhớ trong còn dịch vụ phân tích trong SQL Server
2008 có thể tận dụng lợi thế của bộ nhớ đệm trên đĩa nên không bị giới hạn bởi dung lượng bộ nhớ trong
2.4.4 Bộ công cụ phát triển trí tuệ doanh nghiệp
Khi dịch vụ báo cáo của SQL Server 2000 được phát hành, Visual Studio là cách duy nhất để người dùng có thể tạo và quản lý báo cáo Tuy nhiên, nhiều nhà phát triển không chuyên nghiệp ngại sử dụng bởi khác với giao diện quen thuộc của họ Khi SQL Server 2005 được phát hành, Microsoft đã đáp ứng mối quan tâm của người sử dụng và cung cấp một giao diện mới không chỉ cho việc tạo và quản lý các báo cáo mà còn được sử dụng cho các các tác vụ phân tích và tích hợp dữ liệu Vì vậy, BIDS đã được phát hành và từ đây người dùng đã có một công cụ chuyên nghiệp cho nhu cầu
BI của họ
Thực tế thì SQL Server 2008 đã chứa sẵn một phần bộ Visual Studio 2008, tức là không phải chứa cả bộ Visual Studio 2008 đầy đủ bao gồm các mẫu và trình biên dịch
Visual Basic, C#, ASP.NET… Nhiều nhà quản trị sẽ ngạc nhiên khi thấy Visual Studio
2008 cũng cài đặt trên máy của họ sau khi cài đặt bộ SQL Server 2008 Bất kể cho dù bạn khởi động BIDS từ SQL Server 2008 hoặc từ Visual Studio 2008 thì cũng triệu gọi cùng một ứng dụng để chạy Nếu bộ Visual Studio 2008 không được cài đặt, thì chỉ có mẫu dự án cho BI được cài đặt khi cài SQL Server 2008 Mẫu dự án cho BI bao gồm
Trang 36ba mảng chính: tích hợp dữ liệu, phân tích dữ liệu và báo cáo Hình 2.6 bên dưới là
màn hình khởi tạo mẫu dự án DW/BI trong BIDS
Hình 2.6 Màn hình khởi tạo mẫu dự án DW/BI trong BIDS
2.4.5 Công cụ quản lý SQL Server
Công cụ quản lý SQL Server là một môi trường tích hợp cho việc truy cập, cấu hình, quản lý, quản trị và phát triền các thành phần của SQL Server SSMS kết hợp cả giao diện đồ họa và ngôn ngữ kịch bản để truy cập SQL Server cho các nhà phát triển
và quản trị có các mức kỹ năng khác nhau
Trong phiên bản SQL Server 2008, SSMS kết hợp các tính năng Enterprise
Manager, Query Analyzer, và Analysis Manager trong các phiên bản trước của SQL
Server vào chỉ một môi trường duy nhất Hơn nữa, SSMS làm việc cùng với tất cả các thành phần của SQL Server như: dịch vụ báo cáo, dịch vụ tích hợp, và dịch vụ phân tích
Một tính năng chủ yếu của SSMS là Object Explorer, nó cho phép người dùng có
thể duyệt, chọn và thực hiện các thao tác trên tất cả các đối tượng trong máy chủ SQL
Server Hình 2.7 dưới đây là màn hình chính của SSMS của SQL Server
Trang 37Hình 2.7 Màn hình quản lý của SQL Server
2.4.6 Dịch vụ tác nhân SQL Server
SQL Server Agent là thành phần chạy dưới dạng một dịch vụ của Windows Nó
được tích hợp vào màn hình đồ họa của SSMS cho phép người sử dụng có thể tạo các công việc để thực hiện một số tác vụ nào đấy và tạo lịch biểu để thực hiện tự động hóa các công việc Ngoài ra, nó cũng còn cho phép theo dõi các tiến trình đang thực hiện
và lịch sử đã thực hiện của các công việc Màn hình tạo mới công việc như Hình 2.8
sau đây
Hình 2.8 Màn hình tạo công việc
Trang 38Khi xây dựng kho dữ liệu dựa trên SQL Server 2008 thì SQL Server Agent được
áp dụng cho việc thực thi tự động một số công việc cơ bản như sau:
Chạy và theo dõi các gói tích hợp dữ liệu hoặc các thủ tục;
Làm mới các khối dữ liệu;
Thực hiện việc sao lưu dữ liệu
2.5 Qui trình xây dựng kho dữ liệu của Microsoft
Xây dựng kho dữ liệu là phức tạp bao gồm nhiều công đoạn và phương pháp để xây dựng hệ thống đó phải đơn giản hóa để giảm bớt bớt sự phức tạp Theo đề xuất của Microsoft thì vòng đời của kho dữ liệu gồm 13 bước chính, mỗi bước là một hộp,
mà những bước này quyết định sự thành công của việc xây dựng kho dữ liệu Các
bước này được thể hiện ở Hình 2.9 bên dưới
Hình 2.9 Qui trình xây dựng kho dữ liệu của Microsoft
Đầu tiên chú ý rằng hộp định nghĩa yêu cầu nghiệp vụ được đặt ở vị trí trung
tâm, đây là bước làm cơ sở cho ba khối theo sau Đồng thời cũng có mũi tên chỉ ngược
về hộp kế hoạch dự án bởi vì có thể phải thay đổi lại kế hoạch dự án khi hiểu rõ hơn
yêu cầu nghiệp vụ và thứ tự ưu tiên
Tiếp đến là ba khối ở giữa vòng đời tập trung cho ba nội dung công việc riêng biệt sau:
Khối trên cùng liên quan đến kỹ thuật, tức lập kế hoạch cho bước chọn lựa các công cụ của công nghệ Microsoft mà sẽ được sử dụng trong dự án cũng như việc cài đặt và cấu hình các công cụ này
Khối ở giữa liên quan đến dữ liệu, bao gồm việc thiết kế mô hình đa chiều, thiết kế vật lý, thiết kế và phát triển qui trình tích hợp Khối bước
Trang 39này có thể hiểu là các bước xây dựng kho dữ liệu, nhưng kho dữ liệu sẽ coi như không thành công nếu không thực hiện các bước còn lại
Khối cuối cùng liên quan đến ứng dụng BI, tức gồm việc thiết kế và phát triển ứng dụng BI cho người dùng nghiệp vụ
Các khối sẽ được kết hợp lại khi thực hiện triển khai hệ thống Đây là một mốc
thời gian đặc biệt nhạy cảm bởi vì nó sẽ là cơ hội để tạo ấn tượng tốt đầu tiên cho khách hàng Việc bảo trì DW/BI bắt đầu sau khi triển khai xong, và việc này có thể
thực hiện bởi con người và công cụ Giai đoạn tăng trưởng của dự án có mũi tên quay
lại giai đoạn đầu tiên với ngụ ý rằng phương pháp tiếp cận gia tăng là yếu tố cơ bản của việc cung cấp các giá trị doanh nghiệp
Dưới cùng toàn bộ vòng đời là hộp quản lý dự án Điều quan trọng nhất cần nhớ
ở đây là cần một quản lý dự án và người này có trách nhiệm là người quản lý toàn bộ
dự án ở mức cao Tiếp theo là các trưởng nhóm, trưởng nhóm lý tưởng nhất là tìm những người có thể giao tiếp hiệu quả với các kỹ sư công nghệ và những người kinh doanh, bao gồm cả các giám đốc điều hành cao nhất trong doanh nghiệp
2.6 Tổng kết chương
Chương này chủ yếu trình bày kiến trúc và công nghệ kho dữ liệu của SQL server 2008 Kiến trúc DW/BI của Microsoft gồm ba tầng: tầng dữ liệu nguồn hỗ trợ nhiều loại CSDL nguồn khác nhau, tầng nền tảng bao gồm các công cụ và dịch vụ của SQL Server hỗ trợ cho việc xây dựng kho dữ liệu, và tầng khai thác gồm các công cụ tạo và chia sẻ báo cáo Ngoài ra trong chương này cũng trình bày các kiến thức chung nhất về các dịch vụ và công cụ mà được sử dụng khi xây dựng thử nghiệm kho dữ liệu siêu thị