Ngoài ra cũng trình bày một số công cụ được sử dụng trong việc xây dựng kho dữ liệu như: SSIS dùng cho tích hợp, SSRS dùng cho báo cáo, SSAS dùng cho phântích dữ liệu và SSMS dùng cho vi
Trang 1TRẦN VĂN THÀNH
NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG
SQL SERVER 2008 VÀ ÁP DỤNG TRONG THƯƠNG MẠI
LUẬN VĂN THẠC SĨ
Hà Nội - 2011
Trang 2TRẦN VĂN THÀNH
NGHIÊN CỨU GIẢI PHÁP KHO DỮ LIỆU TRONG
SQL SERVER 2008 VÀ ÁP DỤNG TRONG THƯƠNG MẠI
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Đỗ Trung Tuấn
Hà Nội – 2011
Trang 3DANH SÁCH HÌNH VẼ 4
DANH SÁCH BẢNG BIỂU 5
LỜI MỞ ĐẦU 6
Chương 1 TỔNG QUAN VỀ KHO DỮ LIỆU 8
1.1 Các khái niệm 8
1.1.1 Kho dữ liệu 8
1.1.2 Mục đích của kho dữ liệu 8
1.1.3 Đặc tính của kho dữ liệu 8
1.1.4 Phân biệt kho dữ liệu với cơ sở dữ liệu tác nghiệp 10
1.2 Kiến trúc kho dữ liệu 11
1.2.1 Nguồn dữ liệu 11
1.2.2 Kho dữ liệu 11
1.2.3 Kho dữ liệu chuyên biệt 12
1.2.4 Kho siêu dữ liệu 12
1.2.5 Vùng chứa tạm 12
1.2.6 Người dùng 13
1.3 Qui trình xây dựng kho dữ liệu 13
1.3.1 Qui trình xây dựng kho dữ liệu 13
1.3.2 Chi tiết các bước xây dựng kho dữ liệu 14
1.4 Tổng kết chương 20
Chương 2 CÔNG NGHỆ KHO DỮ LIỆU TRONG SQL SERVER 21
2.1 Lý do sử dụng công nghệ kho dữ liệu của Microsoft 21
2.2 Giải pháp tổng thể kho dữ liệu của Microsoft 22
2.3 Cải tiến cho kho dữ liệu trong SQL Server 2008 23
2.4 Các công cụ cho kho dữ liệu trong SQL Server 2008 24
2.4.1 Dịch vụ tích hợp dữ liệu 25
2.4.2 Dịch vụ Báo cáo 29
2.4.3 Dịch vụ phân tích 31
2.4.4 Bộ công cụ phát triển trí tuệ doanh nghiệp 33
2.4.5 Công cụ quản lý SQL Server 34
2.4.6 Dịch vụ tác nhân SQL Server 35
2.5 Qui trình xây dựng kho dữ liệu của Microsoft 36
2.6 Tổng kết chương 37
Chương 3 XÂY DỰNG KHO DỮ LIỆU SIÊU THỊ 38
3.1 Giới thiệu về siêu thị 38
3.2 Yêu cầu xây dựng kho dữ liệu 39
2
Trang 43.5.Xây dựng kho dữ liệu siêu thị
3.5.1 Kiến trúc tổng thể kho dữ liệu
3.5.2 Thiết kế cấu trúc dữ liệu
3.5.3 Thiết kế vật lý
3.5.4 Thiết kế các gói tích hợp dữ liệu
3.5.5 Thiết kế khối dữ liệu
3.5.6 Khai thác khối dữ liệu
3.5.7 Tạo các mẫu báo cáo phân tích
3.5.8 Tạo lịch thực hiện công việc tự động
3.6.Tổng kết chương
Chương 4 KẾT QUẢ CÀI ĐẶT THỬ NGHIỆM
4.1.Môi trường cài đặt
4.2.Dữ liệu thử nghiệm
4.3.Kết quả chạy thử nghiệm
4.3.1 Thời gian chạy tích hợp dữ liệu
4.3.2 Thời gian cập nhật khối dữ liệu
4.3.3 Thời gian phân tích số liệu
4.4.Một số mẫu phân tích và báo cáo
4.4.1 Các mẫu báo cáo
4.4.2 Các mẫu phân tích
4.5.Tổng kết chương
KẾT LUẬN
TÀI LIỆU THAM KHẢO
Tiếng Việt
Tiếng Anh
Trang 5System
Trang 6DANH SÁCH HÌNH VẼ
Hình 1.1 Đặc tính của kho dữ liệu 8
Hình 1.2 Kiến trúc kho dữ liệu 11
Hình 1.3 Ví dụ về lược đồ hình sao 12
Hình 1.4 Ví dụ phân tích dữ liệu bởi người dùng 13
Hình 1.5 Qui trình xây dựng kho dữ liệu 14
Hình 1.6 Các bước xây dựng mô hình kho dữ liệu 16
Hình 1.7 Ví dụ về các bảng tổng hợp 17
Hình 1.8 Mô hình SMP 18
Hình 1.9 Mô hình Cluster 19
Hình 2.1 Giải pháp DW/BI của Microsoft 22
Hình 2.2 Kiến trúc dịch vụ tích hợp SSIS 25
Hình 2.3 Ví dụ về một luồng dữ liệu 27
Hình 2.4 Kiến trúc dịch vụ báo cáo SSRS 30
Hình 2.5 Kiến trúc dịch vụ phân tích SSAS 32
Hình 2.6 Màn hình khởi tạo mẫu dự án DW/BI trong BIDS 34
Hình 2.7 Màn hình quản lý của SQL Server 35
Hình 2.8 Màn hình tạo công việc 35
Hình 2.9 Qui trình xây dựng kho dữ liệu của Microsoft 36
Hình 3.1 Mô hình hoạt động của phềm mềm quản lý siêu thị 38
Hình 3.2 Các chiều phân tích theo các chủ đề 40
Hình 3.3 Sơ đồ quan hệ các bảng dữ liệu nguồn 43
Hình 3.4 Kiến trúc tổng thể kho dữ liệu siêu thị 44
Hình 3.5 Sơ đồ cấu trúc các bảng dữ liệu của SieuThi_DW 47
Hình 3.6 Sơ đồ cấu trúc các bảng dữ liệu của SieuThi_DM 49
Hình 3.7 Sơ đồ tổ chức lưu trữ cho SieuThi_DM 52
Hình 3.8 Gói tích hợp PKG_STG_Controller 53
Hình 3.9 Gói tích hợp PKG_DW_Controller 55
Hình 3.10 Gói tích hợp PKG_DM_Controller 58
Hình 3.11 Màn hình kết nối đến SieuThi_DM 59
Hình 3.12 Màn hình dữ liệu nguồn cho khối 60
Hình 3.13 Màn hình cấu trúc khối Cube_POSRetail 60
Hình 3.14 Cấu hình khối dữ liệu Cube_POSRetail 61
Hình 3.15 Màn hình cập nhật cho khối dữ liệu 62
Hình 3.16 Màn hình kết nối đến khối dữ liệu từ Excel 63
Hình 3.17 Màn hình hiện danh sách các trường của PivotTable 64
Hình 3.18 Mẫu phân tích trong Excel sử dụng PivotTable 65
Hình 3.19 Màn hình SieuThi_Job của tác nhân SQL Server 67
Hình 4.1 Màn hình lịch sử chạy Job_SieuThi_01 70
Hình 4.2 Danh sách các báo cáo 71
Hình 4.3 Báo cáo “BC01 - Doanh thu bán hàng theo các năm” 71
Hình 4.4 Báo cáo “BC11 - Top 10 mặt hàng doanh số cao trong tháng” 72
Hình 4.5 Mẫu phân tích số lượng bán theo hàng hóa và thời gian 72
Hình 4.6 Mẫu phân tích doanh thu theo tháng giữa các năm 73
5
Trang 7Bảng 3.2 Danh sách các bảng trong kho dữ liệu SieuThi_DW
Bảng 3.3 Danh sách các bảng trong kho dữ liệu SieuThi_DM
Bảng 3.4 Danh sách các gói tích hợp cho SieuThi_STG
Bảng 3.5 Danh sách các gói tích hợp cho SieuThi_DW
Bảng 3.6 Danh sách các gói tích hợp cho SieuThi_DM
Bảng 4.1 Số bản ghi của các bảng trong SieuThi_SRC
Bảng 4.2 Số bản ghi của các bảng trong SieuThi_DW
Bảng 4.3 Số bản ghi của các bảng trong SieuThi_DM
Trang 8LỜI MỞ ĐẦU
Việc xây dựng kho dữ liệu phục vụ cho phân tích và báo cáo của các doanhnghiệp sẽ là xu thế tất yếu trong những năm tới ở Việt nam Thực ra, kho dữ liệu đãđược áp dụng khá phổ biến tại các nước phát triển như Mỹ, Úc, Đức, Nhật Tại Việtnam thì cho đến nay kho dữ liệu cũng đã được bắt đầu áp dụng cho một số ngành đitiên phong trong lĩnh vực CNTT như Ngân hàng, Tài chính và Bưu chính Viễn thông.Nhưng nhìn chung số lượng doanh nghiệp có kho dữ liệu là chưa nhiều, vì các doanhnghiệp vẫn đang phải ưu tiên phần mềm phục vụ tác nghiệp như kế toán, nhân sự, tiềnlương, bán hàng, đặt hàng, hoạch định doanh nghiệp, phần mềm lõi, phần mềm quản lýquan hệ khách hàng Nhưng trong vài năm tới, khi các phần mềm tác nghiệp đã được
áp dụng phổ biến và chạy ổn định thì việc làm thế nào để khai thác được khối dữ liệutác nghiệp đã có một cách hiệu quả nhất là điều mà các doanh nghiệp sẽ rất quan tâm
Nhận thấy được xu thế này, nên tên đề tài đã được đăng ký là “Nghiên cứu giải
pháp kho dữ liệu trong SQL Server 2008 và áp dụng trong Thương mại” cho luận văn
tốt nghiệp Hy vọng đây là cơ hội tốt để nghiên cứu và tìm hiểu tổng quan về kho dữliệu và qui trình xây dựng nó, để nghiên cứu các giải pháp công nghệ cho kho dữ liệucủa Microsoft nói chung và của SQL Server 2008 nói riêng, và cuối cùng là việc ápdụng những gì nghiên cứu được để xây dựng thử nghiệm kho dữ liệu cho bài toán thực
tế trong lĩnh vực thương mại
Nhờ sự giúp đỡ của bạn bè mà một phần dữ liệu để thử nghiệm và một số yêu
cầu về kho dữ liệu của siêu thị bán lẻ T-Mart đã được thu thập Vì vậy, bài toán áp dụng thử nghiệm là xây dựng kho dữ liệu cho siêu thị T-Mart.
Ngoài phần mở đầu, phần kết luận, nội dung luận văn được chia thành 4 chươngnhư sau:
Chương 1 Tổng quan về kho dữ liệu, chương này trình bày một cách tổng thể về
các khái niệm kho dữ liệu, cấu trúc kho dữ liệu, qui trình xây dựng kho dữ liệu, vàcách thức khai thác kho dữ liệu
Chương 2 Tìm hiểu công nghệ kho dữ liệu trong SQL Server, chương này trình
bày giải pháp công nghệ kho dữ liệu của Microsoft, mà đặc biệt là của SQL Server
2008 Ngoài ra cũng trình bày một số công cụ được sử dụng trong việc xây dựng kho
dữ liệu như: SSIS dùng cho tích hợp, SSRS dùng cho báo cáo, SSAS dùng cho phântích dữ liệu và SSMS dùng cho việc theo dõi và quản lý
Chương 3 Xây dựng kho dữ liệu siêu thị, chương này chủ yếu tập trung trình bày
những gì liên quan đến việc xây dựng kho dữ liệu siêu thị Nội dung bao gồm phạm vi
và yêu cầu bài toán, cấu trúc dữ liệu nguồn và đích, chi tiết các gói tích hợp dữ liệu cài
Trang 9đặt bởi SSIS, chi tiết khối dữ liệu cài đặt bởi SSAS và cuối cùng các mẫu các báo cáo
và phân tích nhằm khai thác kho dữ liệu
Chương 4 Kết quả cài đặt thử nghiệm Chương này tóm tắt các phần đã được cài
đặt và chạy thử nghiệm như: dữ liệu nguồn và đích, thời gian chạy các gói tích hợp,thời gian cập nhật khối dữ liệu, thời gian đáp ứng khi phân tích, và các mẫu phân tích
và báo cáo
Phần kết luận trình bày tổng hợp các kết quả thực hiện luận văn cũng như cácphần cần mở rộng khi áp dụng cho thực tế
Trang 10Chương 1 TỔNG QUAN VỀ KHO DỮ LIỆU
1.1 Các khái niệm
1.1.1 Kho dữ liệu
Định nghĩa: kho dữ liệu (Data Warehouse - DW) là tuyển tập các CSDL tích hợp,
hướng chủ đề, được thiết kế để hỗ trợ cho chức năng trợ giúp quyết định, mà mỗi đơn
vị dữ liệu đều liên quan tới một khoảng thời gian cụ thể [1]
Thực ra, cũng có nhiều định nghĩa về kho dữ liệu khác nhau, nhưng tất cả đềuhướng đến mục đích là hỗ trợ cho chức năng trợ giúp quyết định
Ngoài việc chứa đựng một CSDL quan hệ, kho dữ liệu còn bao gồm các bướctích hợp dữ liệu, công nghệ OLAP, các công cụ phân tích, và các ứng dụng cho việcthu thập và cung cấp dữ liệu tới người sử dụng
1.1.2 Mục đích của kho dữ liệu
Mục tiêu chính của kho dữ liệu là nhằm đáp ứng các vấn đề cơ bản sau:
Tích hợp dữ liệu từ nhiều nguồn khác nhau;
Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc
dữ liệu theo những hướng chủ đề nhất định;
Sử dụng cho các hệ thống hỗ trợ quyết định, các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt
1.1.3 Đặc tính của kho dữ liệu
Kho dữ liệu có các đặc tính như Hình 1.1, gồm bốn đặc tính sau:
Hình 1.1 Đặc tính của kho dữ liệu
Trang 11Nội dung dữ liệu được lưu trữ trong kho dữ liệu và CSDL tác nghiệp cũng khácnhau:
Kho dữ liệu không lưu trữ dữ liệu chi tiết, chỉ cần lưu trữ những dữ liệu cótính tổng hợp phục vụ chủ yếu cho quá trình phân tích nhằm trợ giúp raquyết định
CSDL tác nghiệp lại cần những dữ liệu chi tiết, phục vụ trực tiếp chonhững yêu cầu xử lý theo các chức năng của lĩnh vực ứng dụng hiện thời
Do vậy mối quan hệ của dữ liệu trong những hệ thống này cũng khác, đòihỏi phải có tính chính xác và có tính thời sự
1.1.3.2 Tính tích hợp
Tính tích hợp được thể hiện bằng việc tích hợp dữ liệu từ các nguồn dữ liệu hỗntạp khác nhau Các kỹ thuật làm sạch và tích hợp dữ liệu được áp dụng để đảm bảo sựđồng nhất trong các quy ước tên, cấu trúc mã hóa, các đơn vị đo thuộc tính giữa cácnguồn khác nhau Kho dữ liệu phải đưa các dữ liệu từ các nguồn khác nhau về địnhdạng phù hợp Ngoài ra cũng cần phải giải quyết những vấn đề như xung đột tên vàmâu thuẫn giữa các đơn vị đo
1.1.3.3 Tính ổn định
Tính ổn định thể hiện ở chỗ dữ liệu trong kho dữ liệu chỉ đọc và khai thác, khôngđược sửa đổi bởi người sử dụng đầu cuối Nó chỉ cho phép thực hiện hai thao tác cơbản:
Nạp dữ liệu vào kho dữ liệu
Truy cập dữ liệu từ kho dữ liệu
Thông tin trong kho dữ liệu được nạp vào sau khi dữ liệu trong hệ thống tácnghiệp đã xong giao dịch Tính không biến động thể hiện ở chỗ dữ liệu được lưu trữlâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ
Trang 12trong kho vẫn không bị xoá và sửa đổi, điều đó cho phép cung cấp thông tin về mộtkhoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phântích, dự báo.
Tuy nhiên, trong thực tế nếu các bảng dữ liệu có kích thước quá lớn thì cũng phải
có kế hoạch để lưu trữ bớt các dữ liệu trong quá khứ, thời gian có thể sau 5-10 nămtuỳ theo yêu cầu nghiệp vụ báo cáo liên quan Sau khi lưu trữ dữ liệu cũ thì có thể xoá
đi hoặc lưu trữ sang chỗ khác để giảm bớt dung lượng cần cho việc lưu trữ và tăng tốc
độ truy cập
1.1.3.4 Tính lịch sử
Tính lịch sử thể hiện rằng yếu tố thời gian luôn được lưu trữ trong kho dữ liệu.Kho dữ liệu thường chứa một khối lượng lớn dữ liệu trong quá khứ, dữ liệu được lưutrữ thành hàng loạt các bản chụp ảnh, mỗi bản ghi phản ánh giá trị của dữ liệu tại mộtthời điểm nhất định Điều này cho phép người sử dụng có thể lấy lại dữ liệu lịch sử và
so sánh dữ liệu cho các giai đoạn khác nhau Yếu tố thời gian đóng vai trò như mộtphần của khoá để đảm bảo tính duy nhất của một hàng và cung cấp đặc trưng về thờigian cho dữ liệu
1.1.4 Phân biệt kho dữ liệu với cơ sở dữ liệu tác nghiệp
Trên cơ sở các đặc trưng của kho dữ liệu thì có thể phân biệt kho dữ liệu vớinhững CSDL tác nghiệp như sau:
Kho dữ liệu được xây dựng theo hướng chủ đề, nó được thực hiện theo ý
đồ của người sử dụng đầu cuối
Kho dữ liệu thường quản lý một khối lượng lớn thông tin hơn so vớiCSDL tác nghiệp
Kho dữ liệu có thể lưu trữ các thông tin tổng hợp theo một chủ đề nghiệp
vụ nào đó sao cho tạo ra các thông tin phục vụ hiệu quả cho việc phân tíchcủa người sử dụng
Kho dữ liệu thông thường chứa các dữ liệu lịch sử kết nối nhiều năm củacác thông tin tác nghiệp, khác với dữ liệu trong CSDL tác nghiệp thường
là mới, có tính thời sự trong khoảng thời gian ngắn
Kho dữ liệu chỉ chứa các dữ liệu của CSDL tác nghiệp mà đã được chắtlọc và tổng hợp, chỉ chứa những dữ liệu cần thiết cho công tác quản lý haytrợ giúp quyết định
Trang 131.2 Kiến trúc kho dữ liệu
Kiến trúc đầy đủ của kho dữ liệu bao gồm năm tầng như Hình 1.2 bên dưới Nhưng thực tế không phải lúc nào cũng cần có đầy đủ cả năm tầng này Tầng Staging
Area và Data Mart có thể bỏ đi tùy theo yêu cầu cụ thể của từng dự án.
Hình 1.2 Kiến trúc kho dữ liệu
1.2.1 Nguồn dữ liệu
Nguồn dữ liệu cho kho dữ liệu có thể một trong các dạng sau:
CSDL của các phần mềm ứng dụng hoặc của các hệ thống tác nghiệpđược lưu trữ bởi một hệ quản trị CSDL như Oracle, SQL Server, Access,DB2…
Các tập tin phẳng, các tập tin nhật ký, bảng tính Excel…
1.2.2 Kho dữ liệu
Kho dữ liệu hay còn gọi là kho dữ liệu mức doanh nghiệp là thành phần chứa dữliệu lịch sử của nhiều chủ đề khác nhau, nó bao gồm cả dữ liệu thô và dữ liệu đã đượctổng hợp ở một mức thấp Cụ thể như sau:
Dữ liệu thô: đây là phần chứa toàn bộ dữ liệu ở mức chi tiết nhất được lấy
từ dữ liệu nguồn sau khi đã loại bỏ những dữ liệu không cần thiết và biếnđổi chúng, trong phần này dữ liệu thường vẫn được tổ chức tuân theochuẩn 3NF (Third Normal Form)
Dữ liệu tổng hợp: đây là phần chứa dữ liệu ở mức tổng hợp hơn, đượcnhóm theo một số chiều nhất định, tùy theo mục đích cụ thể của từng tổchức mà tạo ra các bảng tổng hợp khác nhau Các bảng dữ liệu tổng hợp
Trang 14này thường tổ chức phi chuẩn và được dùng cho mục đích phân tích báocáo cũng như đầu vào dữ liệu cho việc xây dựng các kho dữ liệu chuyênbiệt.
1.2.3 Kho dữ liệu chuyên biệt
Kho dữ liệu chuyên biệt là thành phần chứa dữ liệu tổng hợp theo một chủ đề nào
đó như bán hàng, tồn kho, đặt hàng, thu nợ nhằm phục vụ cho việc truy vấn, báo cáo
và phân tích dữ liệu một cách dễ dàng và nhanh chóng có kết quả Trong thành phầnnày mô hình dữ liệu thường được tổ chức dưới dạng lược đồ hình sao, bao gồm bảng
dữ liệu thống kê nằm ở trung tâm gọi là bảng sự kiện và các chiều thống kê gọi là bảngchiều nằm ở xung quanh
Ví dụ: lược đồ hình sao về bán hàng như Hình 1.3 ở dưới.
Hình 1.3 Ví dụ về lược đồ hình sao
1.2.4 Kho siêu dữ liệu
Kho siêu dữ liệu là thành phần chứa dữ liệu định nghĩa về cấu trúc kho dữ liệu,định nghĩa về các công việc (Job) cho quá trình tích hợp, chứa các dữ liệu về người sửdụng và quyền hạn Nó có thể được lưu trữ trong một cơ sở dữ liệu quan hệ hoặcdưới dạng hệ thống tập tin có cấu trúc
1.2.5 Vùng chứa tạm
Vùng chứa tạm là thành phần chứa dữ liệu trung gian phục vụ cho quá trình tíchhợp dữ liệu được hiệu quả hơn, nó không có ý nghĩa với người dùng đầu cuối Vùng
Trang 15dữ liệu tạm có thể được lưu trữ trong một cơ sở dữ liệu quan hệ hoặc dưới dạng hệthống tập tin phẳng.
1.2.6 Người dùng
Người dùng sẽ sử dụng các công cụ để khai thác kho dữ liệu, các công cụ này cóthể chạy trên nền web hoặc desktop Các công việc khai thác kho dữ liệu bao gồm:truy vấn, phân tích, báo cáo và khai phá dữ liệu Việc thực hiện phân tích số liệu có thể
thực hiện như ví dụ ở Hình 1.4 bên dưới.
Hình 1.4 Ví dụ phân tích dữ liệu bởi người dùng 1.3 Qui trình xây dựng kho dữ liệu
1.3.1 Qui trình xây dựng kho dữ liệu
Việc xây dựng và phát triển kho dữ liệu là một việc không đơn giản, nó đòi hỏiphải có một phương pháp tiếp cận thích hợp Hiện nay có nhiều cách tiếp cận khácnhau nhưng đều dựa trên ba kiểu cơ bản sau:
Tiếp cận theo hướng tăng dần
Tiếp cận theo hướng từ trên xuống
Tiếp cận theo hướng từ dưới lên
Mỗi cách tiếp cận đều có các ưu và nhược điểm riêng, cách tiếp cận như Hình
1.5 sau đây là một phương pháp tiếp cận phổ biến hiện nay.
Trang 16Hình 1.5 Qui trình xây dựng kho dữ liệu
Như vậy, để xây dựng và phát triển kho dữ liệu cần phải thực hiện các công việc
Lập kế hoạch cài đặt vật lý: bao gồm việc lựa chọn kiến trúc tính toán cho
hệ thống máy chủ phục vụ cho kho dữ liệu và lập kế hoạch lưu trữ dữ liệu.Xây dựng qui trình tích hợp cho kho dữ liệu: xây dựng ra các công việc đểthực hiện việc tích hợp dữ liệu từ nguồn vào kho dữ liệu
Quản trị kho dữ liệu: cài đặt đưa vào sử dụng kho dữ liệu, quản lý khaithác và cập nhật dữ liệu liên tục cho kho dữ liệu
1.3.2 Chi tiết các bước xây dựng kho dữ liệu
1.3.2.1 Lập kế hoạch xây dựng kho dữ liệu
Việc lập kế hoạch xây dựng kho dữ liệu bao gồm các nội dung cơ bản sau:
Lập kế hoạch tài chính: phải ước lượng được tổng chi phí cần đầu tư choviệc xây dựng và phát triển kho dữ liệu cũng như ai là người cung cấp vàquản lý chi phí
Trang 17Lập kế hoạch về nghiệp vụ: phải định nghĩa được các mục đích nghiệp vụ
mà kho dữ liệu sẽ mang lại, định nghĩa các chủ đề mà kho dữ liệu sẽhướng đến
Lập kế hoạch về kỹ thuật: phải xác định được yêu cầu kỹ thuật để đáp ứngcho kho dữ liệu Bao gồm bản thiết kế kiến trúc tổng thể của kho dữ liệu,
mô tả các chức năng của từng thành phần cấu thành nên kho dữ liệu, yêucầu cụ thể về phần mềm, phần cứng và các tài nguyên mạng, sự ước lượng
về hiệu năng và kích cỡ của chúng
1.3.2.2 Xác định các yêu cầu khai thác thông tin từ kho dữ liệu
Mục đích chính của việc xây dựng và phát triển kho dữ liệu là phục vụ cho vaitrò khai thác thông tin của người dùng, vì vậy việc xác định được yêu cầu khai khácthông tin của người sử dụng là rất quan trọng và nó là căn cứ để đánh giá mức độthành công của kho dữ liệu Công việc này bao gồm các nội dung cơ bản sau:
Xác định các dạng người sử dụng của kho dữ liệu: thông thường có bốndạng người sử dụng kho dữ liệu là lãnh đạo, quản lý phòng ban, chuyênviên phân tích và cán bộ tin học
Xác định tập hợp các yêu cầu của người sử dụng: xác định các nghiệp vụ,các thuộc tính các phân cấp mà nguời dùng cần khai thác
Xác định yêu cầu khai thác thông tin của người sử dụng: xác định các mức
độ yêu cầu phân tích là tổng hợp, chi tiết, bất thường… cũng như cáchthức khai thác
Xác định các công việc quản lý việc khai thác của người sử dụng: yêu cầucho việc truy cập và khai thác thông tin của người sử dụng phải được quản
lý sao cho vừa đảm bảo được tính dễ dàng cho người dùng nhưng vẫn vừađảm bảo được tính an toàn và bảo mật của hệ thống
1.3.2.3 Xây dựng mô hình kho dữ liệu
Việc xây dựng mô hình kho dữ liệu sẽ được thực hiện qua bốn bước cơ bản sau:
Trang 18Hình 1.6 Các bước xây dựng mô hình kho dữ liệu
Việc xác định mô hình nghiệp vụ dựa trên các bước sau:
Xác định các yêu cầu nghiệp vụ
Xác định các đại lượng tính toán như số lượng, thành tiền, khuyến mãi Xác định các chiều dữ liệu như hàng hoá, khách hàng, kênh bán hàng,vùng miền, thời gian
Xác định các định nghĩa nghiệp vụ và các qui tắc nghiệp vụ
Xác định nguồn dữ liệu chính: nguồn dữ liệu có liên quan đến các nghiệp
vụ cần thiết cho kho dữ liệu
Xác định nguồn dữ liệu khác: nguồn dữ liệu từ bên ngoài, dữ liệu không phải dạng CSDL quan hệ
Tạo mô hình logic: thực hiện sau khi xác định được các chủ đề cho kho dữ liệuthì cần xác định mô hình logic của kho dữ liệu Có ba loại kiểu mô hình thường dùngcho kho dữ liệu là: mô hình chuẩn hoá, mô hình phi chuẩn hoá và mô hình hình sao.Chi tiết cho từng mô hình như sau:
Mô hình chuẩn hoá: tức là dữ liệu được tổ chức theo chuẩn, thường là theochuẩn 3NF giống như khi tổ chức dữ liệu trong OLTP
Mô hình phi chuẩn: dữ liệu được lưu trữ đầy trong các bảng Mục đích là phi chuẩn hoá các bảng để thêm hầu hết các cột được truy nhập vào một
Trang 19bảng chung để tránh việc kết hợp các bảng lại với nhau nhằm tăng tốc độtruy vấn và dễ dàng thực hiện truy vấn.
Mô hình hình sao: dữ liệu được tổ chức thành các sơ đồ hình sao gồm cómột bảng sự kiện nằm ở trung tâm và các bảng chiều nằm ở xung quanh.Bảng sự kiện chứa các đại lượng tính toán và các trường tham chiếu tớicác bảng chiều
Tạo mô hình mức tổng hợp: mô hình này chứa các loại bảng dữ liệu sau:
Bảng tổng hợp: chứa dữ liệu tổng hợp ở mức cao thường là tổng hợp dữliệu từ bảng sự kiện theo một hoặc vài chiều
Bảng tính trước: chứa dữ liệu đã được tính toán sẵn nhằm phục vụ chomục đích khai thác nào đó, thường dữ liệu cho các bảng bày không chophép lên mức cao hơn nữa và để có được dữ liệu này phải thực hiện việctính toán phức tạp
Bảng kiểu chụp ảnh: các bảng dữ liệu này chứa dữ liệu gắn chặt với yếu tốthời gian, giống như việc chụp ảnh, tại các thời điểm khác nhau thì tập dữliệu cũng khác nhau Các bảng này thường chứa các tập dữ liệu được lặplại theo các chu kỳ khác nhau như ngày, tuần, tháng năm… Ví dụ: bảngchứa số dư của từng loại tiền theo ngày, bảng chứa số lượng khách hàngđang ở trạng thái hoạt động theo từng vùng và theo từng ngày, các bảng
này được sinh ra tuỳ theo yêu cầu khai thác dữ liệu Hình 1.7 bên dưới là
ví dụ về mô hình mức tổng hợp
Hình 1.7 Ví dụ về các bảng tổng hợp
Tạo mô hình vật lý: đây chính là bước chuyển đổi từ mô hình logic sang mô hìnhvật lý, tức là thực hiện cài đặt các bảng dữ liệu lên một cơ sở dữ liệu cụ thể Các côngviệc phải làm trong bước này bao gồm:
Trang 20Định nghĩa qui ước đặt tên và các chuẩn qui định chung cho kho dữ liệu.
Ví dụ: tên bảng chiều thì bắt đầu bằng tiền tố DIM_, tên bảng sự kiện thì bắt đầu bằng FACT_, tên index thì bắt đầu bằng IDX_.
Thiết lập các chỉ mục: cho mục đích thực hiện truy vấn được nhanh hơn.Thiết lập các phân vùng: cho mục đích truy vấn được nhanh và dễ bảo trìkho dữ liệu sau này
Cấu hình tối ưu cho kho dữ liệu: bằng cách thiết lập các tham số choCSDL để tăng hiệu năng thực hiện truy vấn và đảm bảo an toàn cho kho
Chọn lựa mô hình vật lý: việc xác định mô hình vật lý thường theo một trong các
mô hình phổ biến sau:
Mô hình SMP (Symmetric Multi-Processing): tức là kiến trúc mà nhiềuCPU trên cùng một máy chủ cùng chia sẻ một bộ nhớ và hệ thống đĩa, chi
tiết như Hình 1.8 bên dưới.
Hình 1.8 Mô hình SMP
Mô hình Cluster: là mô hình mà gồm có nhiều máy chủ được nối với nhauthành một khối thống nhất và cùng chia sẻ chung hệ thống đĩa ngoài, như
Hình 1.9, cùng tham gia vào xử lý các công việc với nhau Ở góc độ người
dùng có thể xem các máy chủ này tương đương như một máy chủ Cácmáy chủ này thường được nối với nhau thông qua một thiết bị hỗ trợ băngthông rộng
Trang 21Hình 1.9 Mô hình Cluster
Lập giải pháp lưu trữ: việc thiết lập giải pháp lưu trữ bao gồm các công việc sau:
Lập kế hoạch tạo phân vùng cho các bảng có kích thước lớn: việc tạo phânvùng phải cân nhắc nên tạo theo dọc hay ngang, cũng như theo kiểu phạm
vi, băm, liệt kê hoặc là kết hợp
Lập kế hoạch tạo chỉ mục xem xét nên lập chỉ mục cho các bảng nào,trường nào, đối với một chỉ mục phải cân nhắc là nên chọn kiểu chỉ mục
là BTree hay Bitmap
Lập kế hoạch an toàn cho hệ thống đĩa: chọn mức RAID (RedundantArray of Independent Disks) hợp lý cho hệ thống đĩa
Lập kế hoạch sao lưu dự phòng: có nhiều giải pháp sao lưu khác nhau nhưtrực tuyến hoặc ngoại tuyến, sao lưu đầy đủ, sao lưu một phần, hay saolưu chỉ những gì thay đổi
1.3.2.5 Xây dựng qui trình tích hợp dữ liệu
Sau khi có được các mô hình vật lý của kho dữ liệu thì sẽ tiến hành xây dựng quitrình tích hợp dữ liệu cho kho dữ liệu, nhiệm vụ chính của bước này là phải lấy dữ liệunguồn, biến đổi dữ liệu nguồn thành dữ liệu có giá trị và nạp nó vào dữ liệu đích.Qui trình tích hợp được thực hiện tuần tự qua các bước sau:
Trích dữ liệu: tiến hành đọc các dữ liệu nguồn một cách có chọn lọc, dữliệu ở đây có thể là dữ liệu đang sử dụng cho tác nghiệp, dữ liệu đangđược lưu trữ, và dữ liệu từ bên ngoài tổ chức
Biến đổi dữ liệu: quá trình biến đổi dữ liệu có thể đơn giản hoặc phức tạptuỳ thuộc và dữ liệu nguồn và dữ liệu đích
Nạp dữ liệu: tiến hành nạp dữ liệu đã được biến đổi vào các bảng trongkho dữ liệu đích Quá trình nạp dữ liệu có thể thực hiện theo từng hànghoặc theo từng bó
1.3.2.6 Quản trị kho dữ liệu
Trang 22Sau khi kho dữ liệu được đưa vào sử dụng thì yêu cầu rất quan trọng là nó phảiđược quản lý và theo dõi thường xuyên, sao cho đảm bảo thông suốt cho người dùngkhai thác thông tin hiệu quả nhất Việc quản trị kho dữ liệu bao gồm các tác vụ sau:
Quản lý về an toàn, bảo mật và độ ưu tiên
Quản lý sự truy cập từ nhiều người khác nhau
Kiểm tra chất lượng dữ liệu thường xuyên
Kiểm tra quá trình tích hợp thường xuyên
Quản lý và cập nhật kho siêu dữ liệu
Giám sát và lập các báo cáo về tình hình sử dụng và trạng thái của kho dữliệu như thời gian sử dụng, số người khai thác, thời gian đáp ứng các yêucầu
Quản lý qui trình sao lưu
Lập kế hoạch sẵn sàng phục hồi kho dữ liệu khi có sự cố
Lập kế hoạch để nâng cấp và mở rộng hệ thống đĩa, bộ nhớ, băng thông sẵn sàng cho sự gia tăng kích cỡ của kho dữ liệu theo thời gian
Lập kế hoạch lưu trữ bớt các dữ liệu cũ không cần thiết cho việc khai thác
ra các thiết bị lưu trữ ngoài kho dữ liệu
Lập kế hoạch mở rộng phạm vi dữ liệu của kho dữ liệu khi yêu cầu nghiệp
vụ thay đổi
1.3.2.7 Hỗ trợ khai thác kho dữ liệu
Cái đích chính của việc xây dựng kho dữ liệu là cung cấp thông tin hỗ trợ cho cácnhà quản lý đưa ra các quyết định chiến lược hiệu quả hơn Nên phải có kế hoạch trang
bị các công cụ và đào tạo sử dụng nhằm nâng cao khả năng khai thác kho dữ liệu
1.4 Tổng kết chương
Chương này chủ yếu trình bày một cách cô đọng các nội dung cơ bản về kho dữliệu, với mục đích chỉ đưa ra các nội dung cơ bản làm nền tảng cho các chương tiếptheo Các nội dung được trình bày bao gồm các khái niệm, các đặc tính, kiến trúc tổngthể, và qui trình thực hiện việc xây dựng kho dữ liệu
Trang 23Chương 2 CÔNG NGHỆ KHO DỮ LIỆU TRONG SQL SERVER
2.1 Lý do sử dụng công nghệ kho dữ liệu của Microsoft
Để xây dựng kho dữ liệu có thể sử dụng nhiều công cụ của các hãng khác nhautrên thị trường như Oracle, IBM, Microsoft, SAP, Business Objects, SAS Các hãnglớn như Oracle, IBM, và Microsoft đều có giải pháp và bộ công cụ đầy đủ cho việcthiết kế và xây dựng kho dữ liệu Mỗi hãng đều có những ưu điểm và nhược điểm nhấtđịnh, nên tùy vào điều kiện cụ thể của từng dự án mà cân nhắc chọn giải pháp và bộcông cụ của hãng nào cho phù hợp
Phạm vi của luận văn này chỉ tập trung vào việc sử dụng công nghệ của hãngMicrosoft, mà công nghệ nền tảng là dựa trên SQL Server 2008, cho việc xây dựngkho dữ liệu Sau đây là một số ưu điểm của công nghệ của Microsoft cho việc xâydựng kho dữ liệu:
Tính toàn diện: thể hiện việc ở cung cấp đầy đủ từ mức hệ điều hành, hệquản trị CSDL, và môi trường phát triển, đến cổng chia sẻ thông tin, bộcông cụ hỗ trợ văn phòng mà đặc biệt là bảng tính Excel Hoàn toàn có thểxây dựng một kho dữ liệu hoặc giải pháp trí tuệ doanh nghiệp hoàn chỉnh
mà chỉ cần sử dụng bộ công cụ phần mềm của Microsoft Ngoài ra, cũngyên tâm rằng công cụ phần phần mềm này hoàn toàn tương thích với nhau
và hoạt động một cách hiệu quả
Chi phí đầu tư thấp: chi phí ở đây bao gồm chi phí bản quyền phần mềm,chi phí hỗ trợ kỹ thuật, chi phí đào tạo, chi phí phát triển, và chi phí vậnhành hệ thống Thông thường, chi phí cho để có bản quyền hệ quản trịCSDL SQL Server của Microsoft thường ít hơn các hãng khác Việc quảntrị SQL Server cũng dễ hơn các hệ quản trị CSDL khác nên giảm được sốlượng nhân lực và thời gian đào tạo đáng kể Ngoài ra, ngày nay công
nghệ lập trình Net sử dụng CSDL SQL Server là khá phổ biến tại các
doanh nghiệp nên họ có thể tận dụng được nguồn nhân lực này cho việctiếp nhận và phát triển mở rộng cho kho dữ liệu
Tính mở: mặc dù có thể xây dựng một kho dữ liệu hoàn chỉnh chỉ sử dụngduy nhất các công cụ của Microsoft nhưng các công cụ này hoàn toàn cóthể được thay thế bởi các công cụ của các nhà phát triển thứ ba
Tính hiệu năng cao và mở rộng: tính đến thời điểm hiện nay thì kho dữliệu được xây dựng dựa trên công nghệ của Microsoft có dung lượng đến
10 terabytes khá phổ biến và đã có một số kho dữ liệu mà dung lượng đạtđến mức 50 terabytes Microsoft cũng đã và đang mở rộng các dòng sản
Trang 24phẩm của SQL Server cho phép xử lý song song nhằm hướng đến kho dữ liệu mức hàng trăm terabytes.
Microsoft đã đẩy mạnh đầu tư vào lĩnh vực trí tuệ doanh nghiệp, bản thân SQLServer 2008 đã tích hợp bộ công cụ phát triển ứng dụng trí tuệ doanh nghiệp một cáchđầy đủ từ việc tích hợp dữ liệu, đến việc lập báo cáo, phân tích số liệu, và quản lý
2.2 Giải pháp tổng thể kho dữ liệu của Microsoft
Những năm gần đây Microsoft đã tập trung vào giải pháp trí tuệ doanh nghiệpnói chung hay hẹp hơn là giải pháp kho dữ liệu, họ xác định đây là một trong nhữnghướng chính mà hãng sẽ tiếp tục theo đuổi Giải pháp tổng thể của Microsoft cho
DW/BI được thể hiện như Hình 2.1 bên dưới.
Hình 2.1 Giải pháp DW/BI của Microsoft
Tầng dữ liệu nguồn: là tầng chứa dữ liệu nguồn cho kho dữ liệu, có thể lấy dữliệu từ nhiều ứng dụng khác nhau như Microsoft Dynamic, Siebel, SAP và từ nhiều
hệ quản trị CSDL khác nhau như Oracle, DB2, Informix…
Tầng nền tảng: là tầng chứa toàn bộ công cụ nền tảng cho trí tuệ doanh nghiệp.Tầng này bao gồm các công cụ và dịch vụ sau:
Dịch vụ tích hợp dữ liệu SSIS: là nền tảng để xây dựng giải pháp tích hợp
dữ liệu, tức tạo các gói dùng cho việc việc trích rút, thực hiện các phépbiến đổi, và cuối cùng là nạp vào đích
Hệ quản trị CSDL SQL Server: là phần lõi để lưu trữ, xử lý và bảo đảm anninh dữ liệu Nó cung cấp kiểm soát truy cập và xử lý giao dịch nhanhchóng để đáp ứng hầu hết các yêu cầu dữ liệu
Trang 25Dịch vụ báo cáo SSRS: cho phép tạo các báo cáo từ nhiều nguồn dữ liệu,xuất bản báo cáo trong các định dạng khác nhau, và quản lý sử dụng mộtcách tập trung.
Dịch vụ phân tích SSAS: hỗ trợ công nghệ OLAP cho phép tạo, khai thác
và quản lý các khối đa chiều chứa dữ liệu tổng hợp từ các nguồn dữ liệukhác nhau Ngoài ra cũng cho phép thiết kế, tạo và trình bày trực quan môhình khai phá dữ liệu Những mô hình này được xây dựng từ các nguồn
dữ liệu khác nhau bằng cách sử dụng nhiều thuật toán khai phá dữ liệuchuẩn
Tầng khai thác: là tầng chứa các công cụ dùng cho người sử dụng đầu cuối thực
hiện việc khai thác kho dữ liệu như sử dụng Excel hay PerformancePoint để tạo các
bảng tính, báo cáo, bảng điều khiển, thẻ tính điểm Ngoài ra tầng này cũng là môitrường để phân phối và chia sẻ các bảng tính, báo cáo, bảng điều khiển… cho nhữngngười sử dụng đầu cuối trên mạng Intranet hoặc Internet thông qua phần mềm
SharePoint.
2.3 Cải tiến cho kho dữ liệu trong SQL Server 2008
SQL Server 2008 đã có những cải tiến đáng kể dành cho kho dữ liệu và theo họcho biết có thể đáp ứng 95% các yêu cầu của kho dữ liệu trên thị trường hiện nay Sauđây là một số thay đổi của SQL Server 2008 cho kho dữ liệu:
Cho phép tạo các bảng sự kiện với kích thước rất lớn lên tới 100 tỷ hàng.Cung cấp câu lệnh thao thác gộp, câu lệnh này thực hiện các thao tác đốivới các bảng dữ liệu với hiệu năng rất tốt ngoài ra cũng nhờ gộp các thaotác thêm mới, sửa và xóa vào một câu lệnh nên giúp việc viết các câu lệnhsáng sủa và nhanh hơn
Cải tiến câu lệnh chèn vào bảng một tập các hàng dữ liệu từ câu lệnh chọnnhằm tăng tốc độ thực hiện và giảm thiểu bộ nhớ làm việc
Hỗ trợ khả năng bắt các sự thay đổi (Change Data Capture - CDC) choCSDL nguồn chạy trên SQL SERVER 2008, đây là khả năng tự đánh dấu
sự thay đổi của một bảng theo thời gian và cho phép lấy ra tập dữ liệu thayđổi trong một khoảng thời gian chỉ ra Tính năng này thường áp dụng chocác bảng dữ liệu nguồn mà chưa có cột ghi lại sự thay đổi dữ liệu theo thờigian
Cải tiến công cụ tra cứu dùng cho tích hợp, cho phép sử dụng bộ nhớ đệmmột cách tối đa tại máy chủ tích hợp
Trang 26Cho phép nén dữ liệu lưu trữ cho các bảng sự kiện giúp có thể giảm dunglượng lưu trữ xuống được từ 2-7 lần.
Cải tiến công nghệ phân vùng và xử lý song song giúp có thể đáp ứng câutruy vấn nhanh hơn 3-5 lần so với phiên bản 2005
Cải tiến việc thực thi câu lệnh truy vấn cho giản đồ hình sao, thời gianthực thi nhanh đáng kể nhờ áp dụng công nghệ chỉ mục Bitmap trong quátrình thực thi
Cho phép thực hiện sao lưu nén: tính năng sao lưu nén không chỉ giảmkích thước đáng kể mà còn giảm cả thời gian thực hiện so với sao lưuthông thường Ngoài ra SQL Server 2008 còn cho phép sao lưu CSDL lênđến 200GB bằng câu lệnh của chính nó
Cải tiến khả năng quản lý tài nguyên như bộ nhớ, bộ vi xử lý, và các tiếntrình Cho phép thực hiện cấu hình tài nguyên sử dụng cho từng ngườidùng, ứng dụng và phiên làm việc
2.4 Các công cụ cho kho dữ liệu trong SQL Server 2008
SQL Server 2008 không chỉ là một hệ quản trị CSDL (RDBMS) hay dùng trongcác ứng dụng tác nghiệp mà còn là bộ công cụ đầy đủ hỗ trợ cho việc xây dựng kho dữliệu Cụ thể SQL Server 2008 hỗ trợ các công cụ và dịch vụ cho việc xây dựng kho dữliệu như sau:
Hệ quản trị CSDL quan hệ: dùng để cài đặt CSDL quan hệ cho kho dữliệu
Dịch vụ tích hợp dữ liệu: sử dụng để tạo các gói để tích hợp dữ liệu
Dịch vụ báo cáo: sử dụng cho việc cài đặt, quản lý và trình bày các báocáo
Dịch vụ phân tích: sử dụng cho việc thiết kế cài đặt các khối dữ liệu, dùngcho việc phân tích dữ liệu theo đa chiều
Công cụ quản lý: công cụ để quản lý và theo dõi toàn bộ các dịch vụ ởtrên Ngoài SSMS còn cho phép tạo các công việc và thiết lập lịch biểu đểthực thi tự động cho các công việc, cũng như cho phép theo dõi và điềukhiển các công việc
Công cụ phát triển BI của SQL Server: là một phần nằm trong bộ công cụphát triển ứng dụng Visual Studio 2008 của Microsoft hỗ trợ cho việc pháttriển các ứng dụng BI nói chung và kho dữ liệu nói riêng
Trang 27Chi tiết về kiến trúc và các tính năng cơ bản của các dịch vụ chính sử dụng đểxây dựng và quản lý kho dữ liệu sẽ được trình bày chi tiết hơn trong các phần kế tiếptheo sau.
2.4.1 Dịch vụ tích hợp dữ liệu
SSIS là nền tảng cho việc tích hợp dữ liệu, cung cấp các chức năng giúp cho việcphát triển qui trình tích hợp dữ liệu khi xây dựng kho dữ liệu được nhanh và hiệu quảhơn SSIS cung cấp một giao diện phát triển bằng đồ họa, người dùng có thể kéo vàthả các đối tượng của SSIS hay cũng có thể kết hợp lập trình bằng mã lệnh trong giaodiện soạn thảo
Kiến trúc của dịch vụ tích hợp SSIS như Hình 2.2 sau đây.
Hình 2.2 Kiến trúc dịch vụ tích hợp SSIS
Trang 28Kiến trúc của SSIS chứa bốn thành phần cơ bản:
Dịch vụ SSIS;
Lõi thời gian chạy và các thực thi thời gian chạy của SSIS;
Luồng dữ liệu và các thành phần của luồng dữ liệu;
Người sử dụng đầu cuối SSIS
Dịch vụ SSIS là một dịch vụ của Windows được cài đặt khi tiến hành cài đặtthành phần SSIS của SQL Server 2008, nó theo dõi việc thực thi của các gói
Lõi thời gian chạy và các chương trình hỗ trợ cho nó sẽ thực thi các gói tích hợpSSIS Chúng sẽ quản lý, ghi nhật ký, gỡ rối, cấu hình kết nối và thực hiện các thao táccủa gói Hơn nữa nó còn quản lý các sự kiện sinh ra trong thời gian chạy và thực hiệnviệc gửi thư điện tử hoặc ghi nhật ký
Gói: gói là thành phần lõi của SSIS Một gói có thể xem như một chương trìnhthực thi của hệ điều hành Windows Về cơ bản, gói là tập các nhiệm vụ được thực hiện
theo một cách có trật tự Một gói có thể được ghi vào CSDL MSDB, một CSDL hệ thống mặc định của SQL Server, hoặc là ghi ra dưới dạng một tập tin có đuôi là dtsx.
Tác vụ: một tác vụ là đơn vị công việc Tác vụ trong một gói cũng giống như mộtphương thức thực hiện trong ngôn ngữ lập trình Có thể là việc di chuyển tập tin, nạpnội dung tập tin và CSDL, gửi một thư điện tử Tác vụ thường được cung cấp sẵn bởiSSIS nhưng cũng có thể tạo ra các tác vụ riêng bằng cách sử dụng ngôn ngữ lập trình
C# hoặc VB.net dựa trên mô hình đối tượng của SSIS Một số tác vụ phổ biến được
cung cấp sẵn trong SSIS như sau:
Bulk Insert Task: nạp dữ liệu vào một bảng sử dụng câu lệnh BULK
INSERT SQL
Data Flow Task: đây là tác vụ đặc biệt dùng để lấy dữ liệu từ nguồn, biến
đổi và nạp vào đích
Execute Package Task: cho phép thưc thi một gói trong gói hiện hành, tạo
cho gói SSIS có tính mô đun hóa
Execute Process Task: cho phép thực thi một chương trình bên ngoài cho
một nhiệm vụ nào đấy Ví dụ: thực hiện chia nhỏ một một tập tin thànhnhiều tập tin con, trước khi xử lý từng tập tin con
Execute SQL Task: thực thi một câu lệnh SQL hoặc một thủ tục lưu trữ File System Task: tác vụ này cho phép thao tác với tập tin và thư mục Các
thao tác như tạo mới, đổi tên, sao chép hoặc xóa
Trang 29FTP Task: gửi nhận tập tin thông qua một dịch vụ truyền tập tin.
Script Task: chạy một đoạn mã nguồn bằng VB.NET hoặc C#.
Send Mail Task: thực hiện gửi thư điện tử.
Analysis Services Processing Task: thực hiện các thao tác cho các khối dữ
liệu
Web Service Task: thực hiện một phương thức nào đấy của một dịch vụ
web
XML Task: thực thi một tác vụ nào đấy cho tập tin XML Nó thực hiện
phân tích hoặc xử lý một tập tin XML Nó cũng có thể ghép, chia táchhoặc định dạng lại tập tin XML
Các phần tử luồng dữ liệu: khi tạo một tác vụ luồng dữ liệu, thì BIDS sẽ hiện racác phần tử luồng dữ liệu sử dụng cho việc thiết kế Thẻ luồng điều khiển chứa cácluồng chính của gói, còn thẻ luồng dữ liệu sẽ chứa các bước biến đổi về dữ liệu Có thểtạo nhiều luồng dữ liệu trong thẻ luồng điều khiển, và khi kích vào một luồng dữ liệunào đấy dữ liệu thì thẻ luồng điều khiển sẽ hiện ra tất cả các bước biến đổi cho luồng
dữ liệu đấy Hình 2.3 dưới đây là ví dụ về nội dung của một luồng dữ liệu.
Hình 2.3 Ví dụ về một luồng dữ liệu
Nguồn: nguồn là nơi để chỉ ra vị trí của nguồn dữ liệu sẽ được lấy vào trước khi
xử lý Nguồn thông thường chỉ đến một kết nối của gói SSIS Sau đây là một số nguồnphổ biến được sử dụng trong SSIS:
OLE DB: kết nối đến một nguồn dữ liệu OLE DB như SQL Server,
Access, Oracle, hoặc DB 2
Trang 30Excel: chỉ đến một bảng tính Excel Với nguồn này thì có thể thực hiện
câu lênh truy vấn SQL để lấy một số dữ liệu cần thiết trong bảng tính
Flat File: kết nối đến tập tin mà các các cột dữ liệu được phân cách bởi
các dấu phân cách hoặc chiều dài các cột là cố định
XML: lấy dữ liệu từ một tập tin XML.
ADO.NET: cho phép kết nối đến nguồn dữ liệu thông qua ODBC.
Đích: trong một luồng dữ liệu thì đích có thể từ một nguồn hoặc một phép biếnđổi Một số loại đích hỗ trợ trong SSIS như sau:
Excel: ghi dữ liệu ra một tập tin Excel đã có trước.
Flat file: ghi dữ liệu ra tập tin phẳng, tức có phân cách hoặc chiều dài cố
định
OLE: ghi dữ liệu dữ liệu ra SQL Server, Access, Oracle, hoặc DB2.
SQL Server: Ghi dữ liệu ra một SQL Server, cách này sẽ nhanh và hiệu
quả
Các phép biến đổi: các phép biến đổi là thành phần chính của luồng dữ liệu dùng
để thay đổi dữ liệu theo ý của bạn Ví dụ: bạn muốn dữ liệu được tổng hợp và sắp xếpthì sẽ cần hai phép biến đổi Các phép biến đổi của SSIS thường được thực hiện trong
bộ nhớ nên thường nhanh hơn việc đọc đĩa Sau đây là một số phép biến đổi cơ bảncung cấp sẵn trong SSIS:
Aggregate: tổng hợp dữu liệu từ phép biến đổi trước hoặc từ nguồn Thực
chất tương tự như câu lệnh GROUP BY trong T-SQL
Conditional Split: chia dữ liệu dựa trên điều kiện Phép biến đổi này tương
đương câu lệnh CASE trong T-SQL
Data Conversion: chuyển đổi kiểu cho các cột dữ liệu, tượng tự như câu
lệnh CAST trong T-SQL
Derived Column: thực hiện cập nhật dữ liệu hoặc tạo cột mới bằng công
thức Ví dụ: có thể tính cột lợi nhuận dựa trên cột chi phí và giá bán ra
Fuzzy Grouping: thực hiện làm sạch hoặc tìm kiếm các hàng mà gần như
trùng nhau
Fuzzy Lookup: tra cứu và chuẩn hóa dữ liệu dựa trên logic mờ Ví dụ:
chuyển tên “xuan” thành “xuân” hoặc “thanhf” sang “thành”
Trang 31Lookup: thực hiện việc tra cứu dữ liệu bởi một cột khóa và lấy ra một cột
khác tương ứng với dữ liệu khớp Ví dụ: có thể dùng mã hàng hóa để tracứu và lấy ra tên hàng hóa
Row Count: lưu số hàng của luồng dữ liệu bằng một biến để sử dụng cho
một số bước khác và công việc giám sát
Slowly Changing Dimension: đây là phép biến đổi gộp các thao tác thêm
mới và cập nhật dữ liệu cho các bảng chiều trong kho dữ liệu
Sort: sắp xếp dữ liệu theo các cột chỉ ra.
Union All: gộp nhiều tập dữ liệu vào một tập duy nhất.
2.4.2 Dịch vụ Báo cáo
Dịch vụ báo cáo cho phép tạo báo cáo lấy từ nhiều nguồn dữ liệu khác nhau, hiểnthị các dữ liệu một cách đa dạng như bảng biểu, ma trận, danh sách, đồng hồ đo, vàbiểu đồ, và cũng như xuất ra một số định dạng thông dụng chẳng hạn như Word,Excel, PDF, XML, và HTML mà không cần viết mã lệnh Dịch vụ báo cáo cung cấpnhiều chức năng để tự động hoá việc phân phối các báo cáo dựa trên lịch, và tích hợpvới Microsoft Office SharePoint Server Hơn nữa, dịch vụ báo cáo có một tập các thưviện lập trình mà có thể gọi từ các các dịch vụ web, giúp bạn có thể tự động hóa hầuhết các phần của báo cáo của bạn thông qua qua ngôn ngữ kịch bản hoặc ngôn ngữ lậptrình
Dịch vụ SSRS trong SQL Server 2008 có những cải tiến sau:
Công cụ cấu hình dịch vụ báo cáo được gói gọn lại, chỉ cần một công cụduy nhất có thể thiết lập cấu hình cho môi trường báo cáo
Kiến trúc mới hỗ trợ tốt hơn cho dịch vụ thông tin Internet, và cải thiệnđáng kể khả năng phân trang và bộ nhớ đệm cho các báo cáo
Cải tiến đáng kể nhất là các tính năng Tablix, đây là một tính năng mạnhcho phép kết hợp bảng và ma trận trong một vùng của báo cáo Trong quákhứ, để đưa ra báo cáo loại này phải tạo ra nhiều báo cáo và viết mã để ẩn
và hiện các phần hiển thị và các cột
Dịch vụ báo cáo cải tiến việc xuất các báo cáo ra dạng Excel và Word.Tích hợp công cụ thiết kế báo cáo vào bộ phát triển trí tuệ doanh nghiệp,cung cấp đầy đủ các tính năng để tạo các báo báo phức tạp
Kiến trúc của dịch vụ cáo thể hiện như Hình 2.4 bên dưới.
Trang 32Hình 2.4 Kiến trúc dịch vụ báo cáo SSRS
Ngày nay hầu hết các doanh nghiệp lưu trữ một lượng lớn dữ liệu, mà các dữ liệunày có thể làm cơ sở cho nhiều quyết định quan trọng ảnh hưởng đến việc thực hiện vàchỉ đạo của doanh nghiệp Tuy nhiên, trước khi có dịch vụ báo cáo gắn với với SQLServer 2000 ra đời thì việc tạo ra các báo cáo dựa trên dữ liệu này thường sử dụng cáccông cụ của bên thứ ba nên đắt tiền, mà các bên thứ ba thường xuyên sử dụng các địnhdạng độc quyền cho các báo cáo và khó có thể tích hợp được Một trong những mụctiêu của dịch vụ báo cáo là cung cấp một nền tảng duy nhất, tiêu chuẩn cho khả năngthiết kế, sáng tạo, triển khai, và quản lý của tất cả các báo cáo Đồng thời, cũng thúcđẩy sự tương thích giữa các môi trường báo cáo khác nhau bằng cách áp dụng mộtngôn ngữ dựa trên chuẩn ngôn ngữ XML để định nghĩa các báo cáo, hay còn được là
là ngôn ngữ định nghĩa báo cáo RDL
Report Server Service: đây là dịch vụ của Windows mà đưa ra các chức năng sử
dụng cho các dịch vụ web và ứng dụng web quản lý báo cáo Nó cũng có nhiệm vụ xử
lý các yêu cầu từ người dùng, sinh ra các báo và quản lý các tác vụ Chi tiết các thành
phần bên trong Report Server Service như sau:
Report Manager: quản lý báo cáo là công cụ dựa trên nền web sử dụng
cho việc xem và trình diễn báo cáo, đăng ký báo cáo, thay đổi tính chấtbáo cáo, an ninh, cấu hình, và một loạt các nhiệm vụ khác Quản lý báocáo đã không còn lưu trữ trong IIS, mà đã trở thành một phần của cốt lõi
của Report Server Service.
Trang 33Report Server Web Services: là giao diện lập trình web, cho phép xử lý
báo cáo và bảo trì các tác vụ
Background Processing: là thành phần chủ yếu chịu trách nhiệm tạo ra và
phân phối các báo cáo dựa trên lịch biểu Nó cũng có chức năng bảo trìCSDL cho máy chủ báo cáo
Authentication: dịch vụ báo cáo không còn được cài trên IIS nữa, nên việc
thực thi nó cần phải xác thực riêng, có thể dựa trên sự xác thực mở rộngcủa Windows là mặc định hay các kiểu xác thực khác
HTTP listener: dịch vụ báo cáo cũng cung cấp cơ chế ghi nhật ký riêng
cho nó mà không dùng nhật ký mặc định của IIS
Metadata Catalog: lưu trữ tất cả các thông tin liên quan đến báo cáo, chẳng hạn
như định nghĩa báo cáo, các nguồn dữ liệu, các thông số báo cáo, báo cáo lưu trữ, thiếtlập bảo mật, lập kế hoạch và phân phát thông tin, và thực hiện báo cáo thông tin đăngnhập
Report Builder: là một ứng dụng đồ họa truy cập thông qua thành phần quản lý
báo cáo Cho phép người sử dụng thiết kế các báo cáo đơn giản và bất thường Đặcbiệt phù hợp cho người sử dụng cuối mà không có môi trường phát triển báo cáo đầy
đủ các tính năng
Report Designer: là công cụ đồ họa được nhúng vào bộ công cụ BIDS và cũng
có thể chạy như một ứng dụng độc lập, cho phép thiết kế và triển khai báo cáo chỉ
bằng cách kéo và thả
2.4.3 Dịch vụ phân tích
SSAS trong là một trong những dịch vụ chính của SQL Server 2008 dùng để xâydựng các chiều và các khối dữ liệu cho kho dữ liệu, trong phiên bản mới này còn hỗtrợ một số thuật toán khai phá dữ liệu, điều này cung cấp cho người quản lý có cái nhìnsâu hơn về dữ liệu của họ Ngoài ra, SSAS cũng là một phần nền tảng của BI
SSAS trong SQL Server 2008 đã được tái kiến trúc nhằm nâng cao khả năng mởrộng và tính tin cậy, trong môi trường doanh nghiệp, và khả năng bảo mật dữ liệu.SSAS cung cấp khả năng tích hợp nhiều đối tượng của SSAS nhằm tăng khả năng mởrộng Ngoài ra dịch vụ này còn cung cấp các thuật toán để quản lý hiệu quả các khốikích thước lớn SSAS cung cấp đa dạng các công cụ để tạo lập OLAP một cách hiệuquả và quản lý một cách dễ dàng
SSAS hỗ trợ chuẩn XML, có nghĩa việc trao đổi dữ liệu giữa SSAS với các máykhách là XML, sự thay đổi này nâng cao khả năng tương tác giữa các máy khách vàmáy chủ Việc lưu trữ siêu dữ liệu trong cũng được thực hiện dưới dạng XML Ngoài
Trang 34ra, trong phiên bản 2008 còn cho phép người dùng tùy chọn việc lưu trữ dữ liệu và dữliệu tổng hợp dưới dạng đối tượng của SSAS hay dạng CSDL quan hệ Việc lưu trữ dữliệu theo định dạng đối tượng của SSAS có thể xử lý tốt hơn và truy vấn nhanh hơndạng cơ sở dữ liệu quan hệ Có 3 cách lưu trữ dữ liệu chính trong SSAS:
MOLAP: đây là mô hình lưu trữ mà dữ liệu theo định dạng của SSAS.Cách lưu trữ này cho hiệu quả truy vấn tốt nhất và có thể xử lý các tínhtoán phức tạp Điểm yếu của cách lưu trữ này là tốn dung lượng và khôngthể xem được dữ liệu mới cho đến khi làm mới lại khối dữ liệu
ROLAP: đây là cách lưu trữ mà dữ liệu chính được lưu trữ trong CSDLquan hệ Cách truy vấn trên SSAS được thay đổi sang kiểu truy vấn trênCSDL quan hệ mỗi khi thực thi điều này làm giảm hiệu năng của truy vấn,các truy vấn thường rất chậm so với mô hình trên Điểm mạnh của cáchlưu trữ này là dung lượng khối dữ liệu chỉ giới hạn bởi dung lượng của cơ
sở dữ liệu quan hệ
HOLAP: đây là mô hình tích hợp của cả hai mô hình trên, dữ liệu thôngthường được lưu trữ dưới dạng CSDL quan hệ trong khi các dữ liệu tổnghợp được lưu trữ dưới dạng đối tượng SSAS Nếu dữ liệu yêu cầu là dạngtổng hợp thì sẽ thực hiện truy vấn tại SSAS còn nếu dữ liệu yêu cầu làdạng chi tiết truy vấn sẽ được dịch và truy vấn tại CSDL quan hệ Điềunày làm tăng tốc độ xử lý của mô hình ROLAP và tận dụng được khả nănglưu trữ của mô hình ROLAP
Kiến trúc của dịch vụ phân tích trong SQL Server 2008 như Hình 2.5 bên dưới.
Hình 2.5 Kiến trúc dịch vụ phân tích SSAS
Thành phần chính của dịch vụ phân tích là mô hình chiều thống nhất (UDM).Đây là mô hình chiều đại diện cho kho dữ liệu quan hệ và kho dữ liệu đa chiều UDMcung cấp một cầu nối, hay có thể hiểu là một giao diện chuẩn để nối các đầu cuối khác
Trang 35nhau như Excel hay dịch vụ báo cáo với các ngồn dữ liệu hỗn tạp Thay vì sử dụng cácngôn ngữ gốc để truy cập các nguồn dữ liệu thì UDM cho phép người dùng sử dụngcác lệnh của UDM.
Một số lượng lớn các tính năng của dịch vụ phân tích xây dựng trong UDM.Những tính năng này bao gồm các hệ thống phân cấp, sự phân loại, biểu diễn thờigian, biên dịch ngôn ngữ… thậm chí cả các chức năng cao cấp như bộ đệm chủ động
và phân tích cũng là một phần của UDM và coi như có sẵn trong dịch vụ báo cáo.Ngày nay, XML và dịch vụ web đã trở nên phổ biến và quan trọng, nên dịch vụphân tích cũng theo xu hướng kỹ thuật này Máy chủ dịch vụ phân tích hoạt độnggiống như một dịch vụ web và không có gì ngạc nhiên khi thấy ngôn ngữ để quản lýmáy chủ dịch vụ phân tích cũng dựa trên XML Tất cả các giao tiếp giữa máy khách vàmáy chủ phân tích đều qua chuẩn XML/A
Dịch vụ phân tích trong SQL Server 2008 không lưu trữ tất cả các chiều vào bộnhớ Giống như một hệ điều hành chỉ giữ một số trang trong bộ nhớ còn lại một sốtrang hoán đổi sang đĩa cứng, dịch vụ phân tích cũng sử dụng cả bộ nhớ vật lý vàkhông gian đĩa Lợi ích của phương pháp này là dịch vụ phân tích hỗ trợ kích thướccác chiều gần như không có giới hạn Ví dụ, dịch vụ phân tích trong SQL Server 2000
sẽ bị hạn chế bởi dung lượng bộ nhớ trong còn dịch vụ phân tích trong SQL Server
2008 có thể tận dụng lợi thế của bộ nhớ đệm trên đĩa nên không bị giới hạn bởi dunglượng bộ nhớ trong
2.4.4 Bộ công cụ phát triển trí tuệ doanh nghiệp
Khi dịch vụ báo cáo của SQL Server 2000 được phát hành, Visual Studio là cáchduy nhất để người dùng có thể tạo và quản lý báo cáo Tuy nhiên, nhiều nhà phát triểnkhông chuyên nghiệp ngại sử dụng bởi khác với giao diện quen thuộc của họ Khi SQLServer 2005 được phát hành, Microsoft đã đáp ứng mối quan tâm của người sử dụng
và cung cấp một giao diện mới không chỉ cho việc tạo và quản lý các báo cáo mà cònđược sử dụng cho các các tác vụ phân tích và tích hợp dữ liệu Vì vậy, BIDS đã đượcphát hành và từ đây người dùng đã có một công cụ chuyên nghiệp cho nhu cầu BI củahọ
Thực tế thì SQL Server 2008 đã chứa sẵn một phần bộ Visual Studio 2008, tức làkhông phải chứa cả bộ Visual Studio 2008 đầy đủ bao gồm các mẫu và trình biên dịch
Visual Basic, C#, ASP.NET… Nhiều nhà quản trị sẽ ngạc nhiên khi thấy Visual Studio
2008 cũng cài đặt trên máy của họ sau khi cài đặt bộ SQL Server 2008 Bất kể cho dùbạn khởi động BIDS từ SQL Server 2008 hoặc từ Visual Studio 2008 thì cũng triệu gọicùng một ứng dụng để chạy Nếu bộ Visual Studio 2008 không được cài đặt, thì chỉ cómẫu dự án cho BI được cài đặt khi cài SQL Server 2008 Mẫu dự án cho BI bao gồm
Trang 36ba mảng chính: tích hợp dữ liệu, phân tích dữ liệu và báo cáo Hình 2.6 bên dưới là
màn hình khởi tạo mẫu dự án DW/BI trong BIDS
Hình 2.6 Màn hình khởi tạo mẫu dự án DW/BI trong BIDS
2.4.5 Công cụ quản lý SQL Server
Công cụ quản lý SQL Server là một môi trường tích hợp cho việc truy cập, cấuhình, quản lý, quản trị và phát triền các thành phần của SQL Server SSMS kết hợp cảgiao diện đồ họa và ngôn ngữ kịch bản để truy cập SQL Server cho các nhà phát triển
và quản trị có các mức kỹ năng khác nhau
Trong phiên bản SQL Server 2008, SSMS kết hợp các tính năng Enterprise
Manager, Query Analyzer, và Analysis Manager trong các phiên bản trước của SQL
Server vào chỉ một môi trường duy nhất Hơn nữa, SSMS làm việc cùng với tất cả cácthành phần của SQL Server như: dịch vụ báo cáo, dịch vụ tích hợp, và dịch vụ phântích
Một tính năng chủ yếu của SSMS là Object Explorer, nó cho phép người dùng có
thể duyệt, chọn và thực hiện các thao tác trên tất cả các đối tượng trong máy chủ SQL
Server Hình 2.7 dưới đây là màn hình chính của SSMS của SQL Server.
Trang 37Hình 2.7 Màn hình quản lý của SQL Server
2.4.6 Dịch vụ tác nhân SQL Server
SQL Server Agent là thành phần chạy dưới dạng một dịch vụ của Windows Nó
được tích hợp vào màn hình đồ họa của SSMS cho phép người sử dụng có thể tạo cáccông việc để thực hiện một số tác vụ nào đấy và tạo lịch biểu để thực hiện tự động hóacác công việc Ngoài ra, nó cũng còn cho phép theo dõi các tiến trình đang thực hiện
và lịch sử đã thực hiện của các công việc Màn hình tạo mới công việc như Hình 2.8
sau đây
Hình 2.8 Màn hình tạo công việc
Trang 38Khi xây dựng kho dữ liệu dựa trên SQL Server 2008 thì SQL Server Agent được
áp dụng cho việc thực thi tự động một số công việc cơ bản như sau:
Chạy và theo dõi các gói tích hợp dữ liệu hoặc các thủ tục;
Làm mới các khối dữ liệu;
Thực hiện việc sao lưu dữ liệu
2.5 Qui trình xây dựng kho dữ liệu của Microsoft
Xây dựng kho dữ liệu là phức tạp bao gồm nhiều công đoạn và phương pháp đểxây dựng hệ thống đó phải đơn giản hóa để giảm bớt bớt sự phức tạp Theo đề xuấtcủa Microsoft thì vòng đời của kho dữ liệu gồm 13 bước chính, mỗi bước là một hộp,
mà những bước này quyết định sự thành công của việc xây dựng kho dữ liệu Các
bước này được thể hiện ở Hình 2.9 bên dưới.
Hình 2.9 Qui trình xây dựng kho dữ liệu của Microsoft
Đầu tiên chú ý rằng hộp định nghĩa yêu cầu nghiệp vụ được đặt ở vị trí trung tâm,
đây là bước làm cơ sở cho ba khối theo sau Đồng thời cũng có mũi tên chỉ ngược về
hộp kế hoạch dự án bởi vì có thể phải thay đổi lại kế hoạch dự án khi hiểu rõ hơn yêu
cầu nghiệp vụ và thứ tự ưu tiên
Tiếp đến là ba khối ở giữa vòng đời tập trung cho ba nội dung công việc riêngbiệt sau:
Khối trên cùng liên quan đến kỹ thuật, tức lập kế hoạch cho bước chọn lựacác công cụ của công nghệ Microsoft mà sẽ được sử dụng trong dự áncũng như việc cài đặt và cấu hình các công cụ này
Khối ở giữa liên quan đến dữ liệu, bao gồm việc thiết kế mô hình đachiều, thiết kế vật lý, thiết kế và phát triển qui trình tích hợp Khối bước
Trang 39này có thể hiểu là các bước xây dựng kho dữ liệu, nhưng kho dữ liệu sẽ coi như không thành công nếu không thực hiện các bước còn lại.
Khối cuối cùng liên quan đến ứng dụng BI, tức gồm việc thiết kế và phát triển ứng dụng BI cho người dùng nghiệp vụ
Các khối sẽ được kết hợp lại khi thực hiện triển khai hệ thống Đây là một mốc
thời gian đặc biệt nhạy cảm bởi vì nó sẽ là cơ hội để tạo ấn tượng tốt đầu tiên chokhách hàng Việc bảo trì DW/BI bắt đầu sau khi triển khai xong, và việc này có thể
thực hiện bởi con người và công cụ Giai đoạn tăng trưởng của dự án có mũi tên quay
lại giai đoạn đầu tiên với ngụ ý rằng phương pháp tiếp cận gia tăng là yếu tố cơ bảncủa việc cung cấp các giá trị doanh nghiệp
Dưới cùng toàn bộ vòng đời là hộp quản lý dự án Điều quan trọng nhất cần nhớ
ở đây là cần một quản lý dự án và người này có trách nhiệm là người quản lý toàn bộ
dự án ở mức cao Tiếp theo là các trưởng nhóm, trưởng nhóm lý tưởng nhất là tìmnhững người có thể giao tiếp hiệu quả với các kỹ sư công nghệ và những người kinhdoanh, bao gồm cả các giám đốc điều hành cao nhất trong doanh nghiệp
2.6 Tổng kết chương
Chương này chủ yếu trình bày kiến trúc và công nghệ kho dữ liệu của SQLserver 2008 Kiến trúc DW/BI của Microsoft gồm ba tầng: tầng dữ liệu nguồn hỗ trợnhiều loại CSDL nguồn khác nhau, tầng nền tảng bao gồm các công cụ và dịch vụ củaSQL Server hỗ trợ cho việc xây dựng kho dữ liệu, và tầng khai thác gồm các công cụtạo và chia sẻ báo cáo Ngoài ra trong chương này cũng trình bày các kiến thức chungnhất về các dịch vụ và công cụ mà được sử dụng khi xây dựng thử nghiệm kho dữ liệusiêu thị