Trắc nghiệm, bài giảng pptx các môn chuyên ngành Y dược và các ngành khác hay nhất có tại “tài liệu ngành Y dược hay nhất”; https://123doc.net/users/home/user_home.php?use_id=7046916. Slide bài giảng môn data ware house ppt dành cho sinh viên chuyên ngành công nghệ - kỹ thuật và các ngành khác. Trong bộ sưu tập có trắc nghiệm kèm đáp án chi tiết các môn, giúp sinh viên tự ôn tập và học tập tốt môn data ware house bậc cao đẳng đại học chuyên ngành công nghệ - kỹ thuật và các ngành khác
Trang 1Chapter 4:
Trang 2Data Warehouse:
◦ Lưu trữ dữ liệu khổng lồ, có yếu tố lịch sử
◦ Nguyên tắc:
Chỉ thêm (Insert)
Không chấp nhận Delete, update (Đặc biệt là các dimension)
(vì có thể thay đổi tính nhất quán của dữ liệu phân tích, có thể cho kết
qua sai lệch trong phân tích)
Giải quyết thay đổi dữ liệu lịch sử: Sử dụng Slowly
Changing Dimensions
03/22/21 2
Trang 303/22/21 3
LOAD
Trang 4Giúp quản lý việc thay đổi dữ liệu của chiều
Có 3 loại:
◦ Type 1: Không cần lưu lại lịch sử thay đổi, ghi chồng (overwrite)
◦ Type 2: (dữ liệu lịch sử hết hiệu lực) là loại chiều cần lưu lại lịch
sử tạo ra một dòng mới với cùng khoá tự nhiên nhưng khác khoá đại diện Lúc đó, chỉ cần thay đổi tham chiếu từ bảng fact
◦ Type 3: (dữ liệu lịch sử còn hiệu lực): Các giá trị lịch sử vẫn còn hiệu lực sử dụng đồng thời với các giá trị mới tạo thêm các cột mới để lưu vết
4
Trang 5 Type 1
DW
Trang 6Type 2
6
Trang 7 Type 3
Trang 8Khóa đại diện (Surrogate Keys)
◦ Integer keys
◦ Artificial Keys
◦ Non-intelligent Keys
◦ Meaningless Keys
Surrogate Keys: Không cho biết thông tin về record
hiện diện
Trang 9 Lợi ích:
◦ Làm vùng đệm cho những thay đổi các thao tác
◦ Tiết kiệm không gian
◦ Kết nối nhanh các table
◦ Giải quyết vấn đề dữ liệu chiều có thay đổi
Trang 102 Thời điểm thực hiện:
Initial Load
Subsequent Load
Trang 11 Initial Load
Đơn giản
Ví dụ:
natural key surrogate key natural key
Trang 12Subsequent Load (Refresh)
Mỗi giá trị khóa tự nhiên được so sánh với khóa tự nhiên đang tồn tại trong bảng chiều
Nếu không tồn tại: Gán thêm một khóa đại diện mới
Ngược lại:
So sánh trên từng thuộc tính
Nếu không thay đổi nào thì bỏ qua
Nếu có thay đổi : xác định một khóa đại diện mới (Type 2
change, đánh dấu dòng hiện tại là hết hiệu lực, thêm dòng mới với khóa đại diện mới phát sinh)
Trang 13Subsequent Load: LOOK UP Tables
LOOK UP tables: Ánh xạ giữa NK & SK
Production key Surrogate Key
Prod4 4
Trang 14Thực tế, dữ liệu được thay đổi liên tục
DW cũng cần phải được đáp ứng tương ứng
Khó khăn đối với hệ thống ETL truyền thống: Tạo nên thời gian chết của kho dữ liệu trong quá trình thực hiện
Giải pháp:
Tăng tầng suất cập nhật dữ liệu (dễ, chi phí thấp)
Cập nhật từng phần nhỏ
Cập nhật từng phần nhỏ và xoay vòng
14