Thể hiện thường xuyên nhất của Datamart là một kho dit liệu đêng rẽ theo phương điện vật lí, thường được lưu trữ trên một máy chữ riêng, trong một mạng cục bộ phục vụ cho một nhóm người
Trang 1
DAI HOC QUOC GIA HA NOI
KHOA CONG NGHE
DANG VAN NINH
XAY DUNG KHO DU LIEU
(DATA WAREHOUSING)
LUAN VAN THAC SI
Hà Nội - 2004
Trang 2
Hình số 4: Yêu cầu chức năng kho dữ liệu
Hình số 5: Mô hình kiến trúc dữ liệu ba Hing
Hình số 6 : Kiến trúc dữ liệu cho siêu dữ liệu
Hình số 7: Kiến trúc dữ Hiệu ở mức cao
Đình số 8: Kiến trúc siêu đữ liệu
Hình số 9: Quan niệm kho dữ liệu ở mức doanh nghiệp
Hình số F0: Luông dữ liệu trong kho dữ liệu
Hình số 11: Tiếp cận theo mô hình thác nước
Hình số 12: Tiếp cận theo mô hình xoắn tron ốc
Tình số 13: Môi trường vừa tập trong vừa phân tần
Hình số 14:Mô hình đữ liệu nhập xuất tồn
Hình số 15: Thuộc tính của bằng CUBNXT
Hình số tố: Kết quả của tiến trình sinh ma-Generation
Hình số 17: Kết quả của tiến trình thực hiện — Deploy
Hình số 18: Trang nhập hàng boá (Sheet Nhap)
Hình số 29: Biểu đồ của trang nhập hàng hoá (Shcet Nhap)
Hình số 20: Trang xuất hàng hoá (Sheet Xuat }
Hình số 21: Biểu đẻ của trang xuất hàng hoá (Sheet Xuat)
Hình số 22: Trang tổn hàng hod (Sheet TON)
Hình số 23: Biểu đồ của trang tồn hàng hod (Sheet TON}
Trang 3PHẦN 1 CƠ SỐ XÂY DỰNG KHO DỮ LIỆU
CHƯƠNG L, GIỚI THIỆU CHUNG VỀ KHO BỮ LIỆP
CHƯƠNG 2 KIẾN TRÚC KHO DỮ LIỆU
Dinh nghia Kho dt héu — Data Warehouse
.- Đặc điểm đữ liệu trong kho đỡ liệ
Nguyên lý cơ bản (Basic Elements)
Kho dữ liệu cục bộ - Datamart,
Hệ hỗ trợ quyết định (Decisions Support Systems-DSS)
Phản biệt Kho đữ liệu với những hệ cơ sở dữ liệu tác nghiệp
Các yêu cầu chức năng kho dit liga (Desirable Warehouse Functionality) 12
1 MOT SO KHÁI NIỆM CƠ BẢN
1, Dữ liệu nghiệp vu
1.1 Dữ liệu thời gian che (real-time data)
1.2, Dữ liệu đẫn xuất (derìveé data)
1.3 Dữ liệu tương thích (reconciled data
2 Siêu dữ liệu (Metadata)
Siêu dữ liệu trong giai đoạn xây dun;
Siêu dữ liệu kiểm soát
3.3 Siêu dữ liệu vận đụng:
KIẾN TRÚC DỮ LIỆU MỨC KHÁI NIỆM
„ Kiến trúc dữ liệu nghiệp vụ
Kiến trúc siêu đỡ liệu
Quan hệ và nguồn của siêu đữ liệu
3.1 Siều dữ liệu trong giai đoạn xây dụ
3.2 Siêu dữ liệu kiểm soát, 3.3 Siêu đữ liệu vận dụng
4 Kiến trúc Logic Khe đữ liệu
4.1, Dữ liệu nghiệp vụ trong kho dữ liệu
4.2 Kiến trúc Siêu đữ liệu trong kho đữ liệu
43 Chi muc kho dif liu (catalog)
MI], PHUONG PHAP XAY DUNG KHO DO LIfU
1 Ké hoach co bin (The Basic plan)
2 Quan nigm & mie doanh nghiép (The Enterprise View!
3 Luéng d@ tigu qua kho di ligu (Flow af Data Through
4 So sánh mỏ tình phát triển (Developrent Models Compared)
4.1 Mô hình thác nude (Waterfall)
4.2 Mô hình xoắn trôn fc (spiral)
4.3 Các pha trong phương pháp tiếp cận theo mô hình xoắn ốc,
5, Các giai đoạn thiết kế kho dữ liệu (DW Database Design Phases)
Trang 4
5 1 Xác định mô Hình nghiệp vụ {Defining th the business mee
I XÁC ĐỊNH MÔ HÌNH NGHIỆP VỤ VẢ MÔ HÌNH LOGIC
1 Xác định mỡ hình nghiệp vụ
1.1 Phân tích chiến lược (Strategic Analysis) 1.2 Tao mé hinh nghiép vu (Business models creation)
1.3 Tạo siêu đứ liệu
2 Xác dink mé hinh logic (Defining the Logical Models) 32
PHẦN II: XAY DUNG KHO DU LIEU THU NGHIEM
CHƯƠNG 4 GIỚI THIEU CONG CU XAY DUNG KHO DU 1 ee
(ORACLE WAREHOUSE BUILDER)
1 KIẾN TRÚC VÀ KHẢ NANG CUa SAN PHẨM GRODUCT ARCHITECTURE AND CAPABILITIES)
1 Thành phản thiết kế (The Design Componem
2 Thành phần thực thi (The Rantime Component)
3 Các thành phần của Warehouse Builder
ph
3 4 Repository WB thực thi (Warehouse Builder Runtime Repository) 65
3.5 Bao edo kidm toan (Audit Reporting Browser) 65
3.6, Bio edo siéu dif lieu (Metadata Reporting Browser)
BOi wong trong WB (Warehouse Builder Objects)
| WB thy hign hệ thống đích (Warehouse Builder Deploymen
wp
Trang 51L SƠ LƯỢC QUÁ TRÌNH TẠO HỆ THỐNG NGHIỆP VỤ THÔNG
MINH [OVERVIEW OF CREATING A BUSINESS INTELLIGENCE SYSTEM)
1, Bước 1: Tạo Project (Creating a Project
3 Bước 2: Khai báo các module nguồn và
Module
Khai
3 Bước 3: Khai báo quả trình chuyển Ệ
4 Bước 4: Kiểm tra hợp lệ và sinh ma (Validating and Generating’
§, BudeS: Tao va thu hién (Deploying and Executing)
KẾT LUẬN
Kiến trúc và khả năng của sản phẩm
CHƯƠNG §: XÂY DỰNG KHO ĐŨ LIỆU TẠI PETROLIMEX
1 Bài toán xây đựng kho đữ liệu tại Petrolime
2 Lựa chọn phạm vi xây đựng kho dữ liệu thử nghiệm
3 Thiết kế và thực hiện kho dữ liệu thử nghiệm kho dữ liệu
4, Khai thác kho dữ liệ
4.1 Trang nhập hùng hoá (Shzet-NHAP)
4.2 Trang xuất hàng hoá (Sheet-XUAT)
4.3 Trang tồn hàng hoá (Sheer-TON
Trang 6
tá
M6 ĐẦU
Trong những năm qua cùng với sự phát triển CMTT, các hệ thống thông tin đã
được phát triển mạnh cả về số lượng, chất lượng Đặc biệt trong một doanh nghiệp
cũng tổn tại nhiều hệ thống thong tin đa dạng và phong phú Các nhà lãnh dạo thì
lườn thiếu thông tin phục vụ điều hành, chưa kế đến có những thông tín sai lệch
thậm chí mâu thuẫn về cùng một su việc trong khi dang sở hữu một khối lượng dữ liệu không lổ
Đến thời diểm hiện nay, phương pháp xảy dựng kho đữ liệu (Data
Warehousing) di phat triển cả vẻ lý thuyết cũng như thực tế Lý thuyết xây dựng
kho đữ liệu đã được hình thành khá rõ nét, bên cạnh đó các nhà cung cấp phần mềm
cũng đã đưn ra các công cụ để xây đựng, duy trì và phát triển kho dữ liệu Một kho
dữ liệu sẽ giúp doanh nghiệp có khả năng quần tý dữ liệu, khai thác thông tin phục
vụ việc điều hành kinh doanh phù hợp hơn
Cũng nhủ các doanh nghiệp khúc, Petrolimex đang có một mạng lưới các ứng
dụng nghiệp vụ cục bộ tại từng đơn vị thành viên Việc tập hợp và quản trị dữ liệu
trên phạm vỉ toàn ngành để cung cấp thông tin cho "quá trình phân tích, hoạch định
chiến lược, hỗ trợ ra quyết định" ong mới trường cạnh tranh và hội nhập là một
thách thức lớn mà Petrolimex đang tìm hướng giải quyết Để tài này nghiên cứu lý
thuyết, nắm chắc phương pháp luận và một công cự xây dựng kho dữ liệu cụ thể, tạo niến tâng triển khai xây dựng một kho dữ liệu thực tế-hướng giải quyết yêu cầu của
bài toần nói trên
Luận văn bao gồm hai phẩn Phần , trình bày cơ sở xây dịng kho đữ liệu, giới
thiệu lý thuyết cơ bản về xây đụng Kho đữ liệu Phẩn l1, trình bầy nội dung xây dựng kho dữ liệu thử nghiệm, giới thiệu công cụ xây dựng kho đữ liệu Oracle
Warehouse Builder và bài toán kho dữ liệu của Petroiimex
Tôi xin trần trọng cảm ơn sự hướng đẫn của Tiến sĩ Nguyễn Tuệ, Cám ơn các
thây cô giáo trong khoa Công nghệ, Viện CNTT, công ty Oricle Việt Nam và đồng
nghiệp đã nhiệt tình giúp tôi thực biện để tài này,
Trang 7PHAN 1 CO SG XAY DUNG KHO DU LIEU
CHUONG 1 GIGI THIEU CHUNG VE KHO DU LIEU
1 Định nghĩa Kho dữ liệu — Data Warehouse
Có nhiều định nghĩa kho dữ liệu, nhưng phổ biến nhất là định nghữa kho đữ
liệu của BiIl Inmon: "Kho dữ liệu là tập hợp đữ liệu hướng chủ để, mang tính tích
hợp, ít thay đổi, và mỗi đơn vị dữ liệu đều gắn với một khoảng thời gian cụ thể, Kho
đữ liệu được thiết kế để bỗ ượ quản trị hệ hỗ trợ quyết định"
2 Dac điểm dĩ liệu trong kho dữ liệu
Theo định nghĩa của BiII Inmen Kho dữ liệu có 4 đặc tính cơ bần gồm: Hướng
chil dd (Subject-oriented), Tich hap (Integrated), it hay déi (nonvalatile), Tih thoi gian cụ thể (Time-variant) Một số định nghĩa khác về Kho dữ liệu có bổ sung thêm
tính chất Kho đữ liệu bao gêm cả dữ liệu chỉ tiết và đữ liệu tổng hợp
2.1, Hucing chit dé (Subject-oriented)
Dữ liệu được tập hợp, phân lớp, km trữ và xử lỹ theo từng chủ đề Các đũ liệu
của rỗi chủ dé chink trong tổ chức được liên kết bởi các khoá đại điện và đưa via cùag một vị trí Ví dụ dữ liệu liên quan đến: khách hàng, sản phẩm, tài chính, bán
Trang 82.3, it thay đối (nonvatatile)
Dữ liệu trong Kho dữ liệu là dữ liệu chi doc
Dữ liệu được tải (load) vào kho đữ liệu ở lần đầu tiên đưới dạng bản sao tại
một thời điểm (snapshof) và sau đó thường xuyên được lầm tuoi (Refresh) Chu ky
làm tươi được xác định tuỳ theo yêu cầu nghiệp vụ, có những kho đữ liệu đời hỏi
dược làm tươi hàng ngày trong khi có những kho đữ liệu chỉ cân được làm tươi hàng
tháng
Thông tin trong Kho dữ liệu được tải vào sau khi đữ liệu trong hệ thống điều
hành tác nghiệp được xác định Tính ít biến đối thể hiện ở chỗ: Dữ liệu được lưu trữ
lâu dai trong kho dữ liệu, mặc dù có thêm đỡ liệu mới nhập vào nhưng dữ liệu sũ trong kho vẫn không bị xoá, điều dé cho phép cung cấp thông tin về một khoảng
thời gian đài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, đự
báo
2.4 Tinh thai gian cu thé (Time-variant)
Một kho chứa dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử Dữ liệu
được lưu trữ thành một loạt các ban sao(snapshart), mdi bin sao phản ánh những giá
trị cha dữ liệu tại một thời điểm nhất định, thể hiện một khung nhìn của một vùng chủ để trong một giai đoạn Do vậy cho phép khôi phục lại dữ liệu tịch sử và so sánh
Trang 9mi cách chính xác các giai daạn khác nhau Yếu tố thời sian đóng vai rò như một phản của khoá để bảo đảm tính đơn nhất của mỗi hàng và cung cấp đặc trưng về thối gian cho dữ liệu
3.5 Dữ liệu chí tiết và đữ liệu tầng hợp
Dữ liệu chỉ tiết là thông tn mức thấp nhất được lưu trữ trong Kho dữ liệu Dữ Tiệu rác nghiệp là thông tin mức thấp nhất cho toàn xí nghiệp Dữ liệu tác nghiệp
thuần tuỷ không được lưu trữ trong Kho dữ liệu Dữ liệu tổng hợp là đữ liệu được
kết hợp từ đữ liệu chỉ tiết và lưu qua nhiều giai đoạn khác nhau
3 Nguyên lý cơ ban (Basic Elements)
Hình số 2; nguyên lý cơ bản của kho dữ liệu
Cơ sở đữ liệu nguồn (Source Database): Một CSDL tác nghiệp, trung tâm dit
liệu, hệ thống sẵn có, làm đầu vào cho vùng định cư dữ liệu
Vùng định cư di liệu (Data Staging Aree): Vàng lưu trữ đữ liệu bình
thường, đữ liệu có thể ở đạng thô hoặc đạng tổng hợp Quá tình định cư sử dụng,
một số công cụ di trú (migration), công cụ làm sạch (clean), chuyén thi dữ liệu
(transformation) Sau đó đữ liệu được sử dụng làm nguồn dữ liệu đầu vào cho một
hoặc nhiều kho đữ liệu,
Trang 10Dich (target): Noi phat hiện, lưu trữ đữ liệu cha cúc Huy vấn trực tiếp của
người sử dụng cuối, tạo báo cáo và các Ứng dụng khác khai thác kho đữ liệu hoặc
kho dữ liệu cục bộ
4 Kho dữ liệu cục bộ - Datamart
Kho đữ liệu cục bộ (Datamart) là CSDL có những đặc điểm giống với Kho dit liệu nhưng với quy mô nhẻ hơn và lưu trữ đữ liệu về một lĩnh vục, một chuyên ngành, Các Datarart có thể được hình thành từ một tập con dữ liệu của kho đữ hiệu
hoặc cũng có thể được xây dựng độc lập và san khi xây dựng xong, cúc Dutamart có
thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu, Vì vậy có thể xáy dụng
kho đữ liệu bat đầu bằng việc xây dựng các Dafamart hay ngược lại xây dựng kho
dữ liệu trước sau đó tạo ra các Dataart
Dataman là một kho dữ liệu thứ cấp các dữ liệu tích hợp của Kho dữ liệu
Đafamarl được hướng tới một phần của đữ liệu thường được gọi là một vừng chủ đề,
được tạo ra đành cho một nhóm người sử dụng Dữ liệu trong Datamart cho thông
tín về một chủ để xác định, khỏng phải về toàn bộ các hoạt động nghiệp vụ đang
điễn ra trơng một tổ chúc Thể hiện thường xuyên nhất của Datamart là một kho dit
liệu đêng rẽ theo phương điện vật lí, thường được lưu trữ trên một máy chữ riêng, trong một mạng cục bộ phục vụ cho một nhóm người nhất định, Đôi khi Datamart
kết hợp một cách đơn giản với công nghệ OLAP theo các quan hệ hình sao đặc biệt
tạo ra những siêu khối (hypercube) dữ liệu cho việc phản tích của một nhóm người
có cùng mối quan tâm trên một phạm vị đữ liệu
Co thé chia ra lam 2 loại: Datamart độc lập và Datamtart phụ thuộc
Đatamart phụ thuộc: chứa những đữ liệu được lấy từ Kho đữ liệu và những dit liệu này sẽ được trích lọc và lầm sạch, tích hợp lại ở mức cao hơn để phục vụ một
chủ đề nhất định của Datamart
Đatamart độc lập: không giống như Datamart phụ thuộc, DM loại này được
xây dựng trước DW và đữ liệu được trực tiếp lấy từ các nguồn, Phương pháp này đơn
giản hơn và chỉ phí thấp hơn nhưng đổi lại có những điểm yếu Mỗi Kho dữ liệu độc
Trang 1119
lạp có cách tích hợp riêng do đó dữ liệu từ nhiều Dataman khó đồng nhất với nhau Datamart thể hiện hai vấn đã: thứ nhất là dính ổn định trong các tình huống từ một Datamadt nhớ ban đấu lớn lên nhanh chồng theo nhiều chiều và thứ hai là sự tích họp dữ liệu Vì vậy khi thiết kế Datamart phải chủ ý kĩ tới tính ổn định của hệ thống, sự đồng nhất của dữ liệu và vấn để về khả năng quản lí,
$, Hệ hỗ trợ quyết định (Decisions Support Systems-DSS)
Decision Support System (DSS)
DSS cung cap mét lẻ thống có khả năng trợ giúp việc tạo ra các quyết định,
mợi kho đữ liệu được thực hiện với các yêu cầu phương pháp lưu trữ, công cụ xử lý
để người đùng cuối đễ đàng truy cập tới dữ liệu đã được hợp nhất từ nhiều nguồn khác nhau Tuỹ theo yêu cầu của nghiệp vụ, công cự có thể đơn giản chỉ là công cụ lập báo cáo, cũng có thể phức tạp hơn Sau đây là các thành phần mở rộng của DSS:
Trang 12Hệ tác nghiệp (ODS): là cơ sờ đữ liệu của dữ liệu điều hành, đữ liệu có cấu
trúc (định dạng-formatteđ) tĩnh, Hệ tác nghiệp không nhí kho đữ liệu, không có
tính chất "ít biến đổi", chúng được người dùng thay dồi cập nhật thường xuyên
Kho dữ liêu (DW) tập hợp dữ liệu giúp quản lý quá tình ra quyết định,
Hệ phản tích trực tuyến (Online analytical processing-OL.XP) định nghĩa một
cách lông lẻ (Ioosely) tập hợp các nguyên tố cơ bản (principles) nhằm cung cấp các
khung nhìn cho việc hỗ trợ quyết định OLAP phản tích dữ liệu nhằm chỉ ra định hướng nghiệp vụ, có tính chất ảnh không đòi hỏi tinh hiện thời như dữ liệu tác
nghiệp
Khai pha dit tiéu (Data mining - OM): 1 kỹ thuật khai phá ra các mẫu, trì thức mới cbưa từng xuất hiện trước đó,
Hình trên cho thấy mẫu của một hệ hỗ trợ ra quyết định được phân chía thành
hai phần, phần lưu trữ (bao gồm ODS, DW) và phần phân tích (OILAP, DM)
6 Phân biệt Kho đữ liệu với những hệ cư sử đữ liệu tác nghiệp
Có một số điểm khác biệt chính khi thiết kế hệ thống tác nghiệp và khí thiết kế
Kho đữ liệu, chúng ra phải quan tăm cách tiếp cận và tiến trình thục hiện:
Thiết kế Kho dữ liệu phải quan tâm tới văn để tối ưu hoá truy vấn dữ liệu,
trong khi thiết kế hệ tác nghiệp quan tâm tới vấn để tối ou hod thao tác đữ liệu
(insert, apdate, đelete )
Tinh phat triển của Kho dữ liệu, chúng Ia không thể hoàn thành sự phát triển
của Kho dữ liệu ngay khi thiết lập, mà quá trình phát triển của khơ đữ liệu phải tính
đến trong một thời gian đài, Thường dẫn tôi kết quả sử dụng cấu trúc dữ liệu động
hơn là sử dụng cấu rác đữ tiệu nh như hệ tác nghiệp
Kho dữ liệu lưu rữ dữ liệu lịch sử, dữ liệu cho từng đơn vị thời gian trong khi
hệ tác nghiệp xử lý các giao dịch hiện thời.
Trang 137, Cae yeu cdu chite ming Kho dif ligu (Desirable Warehouse Functionality)
Desirable Warehouse Functionality
Scalability
Tuning and optimization
Management and revision and
Accessibility
Operation
management
Relisbiliy Capacity pianning and sizing
inh sf 4: cầu chức đữii
Khả năng cân bang (Scalable): Kho dũ liệu có khả năng lưu trữ và quản lý
một số lượng khẳng lẻ các giao dịch và đữ liệu tổng hợp Kho đỡ liệu có thể lớn lên
theo thời gian, có thêm đữ liệu mới hoặc giữ lại dữ liệu lịch sử cho một thời gian đài
mà không bị quá tải, vẫn dâm bảo tính ổn định hoat dong
Khả năng quản trị (Managenble): Kho dữ liệu có khả nắng quần trị việc tạo
Trang 14Khả năng mềm đén (Flexible): Hỗ trợ nhiều cách truy cập dữ liệu chỉ tiết dữ
liệu rổng hợp theo phản tích nhiều chiều, khoan dữ liệu và truy vấn không xác định
(analysis, drifldown, and true ad hee querying}
Khả năng tích hop (integrated): Kho đũ Tiệu phải có khả năng tích hợp day
đủ với các hệ thống sẵn có môi trường tác nghiệp, Do vậy, có thể tải (load) đữ liệu
từ nhiều nguồn
Khd nang truy cập sử dụng được (Accessihle): Kho đữ liệu phải có khả năng truy cập sử dụng được, từ các công cụ mềm dễo tới phạm vi rộng dãi người sử dụng,
Khả năng tin cậy (Reliable): Dữ liệu dải từ nhiều nguồn khác nhau phải được
hợp nhất, chuẩn hóa bảo đảm tính toàn ven đữ liệu và hợp lệ tại một thời điểm bất
kỳ,
Kết luận
Chương Ï giới thiệu chung về kho dữ liệu, bao gm các nội đụng:
Định nghĩa kho đữ liệu, giới thiệu một định nghĩa phổ biến về kho dữ liệu,
định aạlữa của Bi11 Inmon: "Kho dữ liệu là tập hợp dữ liện hướng chủ để, mang tính
tích hợp ít thay đổi, và mỗi đơn vị đũ liệu đều gắn với một khoảng thời gian cụ thể
Kho dữ liệu được thiết kế để hỗ trợ quân trị hệ hỗ ượ quyết định"
Bốn đặc tỉnh cơ bản của kho đữ liệu Theo dinh nghĩa của Bi]I Inmon Kho đữ
liệu có 4 đặc tính cơ bản gồm: Hướng chủ để (Subject-odented), Tích hop
(integrated), i thay đổi (nonvalatile), Tính thửi gian cu thé (Time-variant} Mật số
định nghĩa khác về Kho dữ liệu có bể sung thêm tính chất Kho dữ liệu bao gôm cả
dữ liệu chỉ tiết và dữ liệu tổng hợp
Nguyên lý cơ bản của Kho đữ liệu: Cơ sở dữ liệu nguồn (Source Database)->
Vùng định cư đữ liệu (Data Staging Area}-> Kho đữ Iieu đích (target)
Kho dữ liệu cục bộ, xét theo khía cạnh tập hợp thì kho dữ liệu cục bộ là tập
con của kho đữ liệu, dùng trung một lĩnh vực cụ thể Có thể xây dựng kho dữ liệu
Trang 15cục bộ trước rồi hợp thành kho đỡ liệu chung hoặc ngược lại có thể xây dựng kho đữ liệu trước tối tế chức khai thác sử dụng theo các kho đỡ liệu cục bộ
Hệ hỗ trợ ra quyết định có hai thành phán: 1 thành phần lưu trữ - storage: he
tức nghiệp — ODS va kho đữ lieu-DW, 2, thành phần phản tích — analydc: hệ
phản tích trực tayển — OL.AP, khai phá dữ liệu — DM
Phan biệt kho đữ liệu với hệ thống tác nghiệp: Thiết kế Kho đữ liệu phải quan
tam tới vấn đẻ tối ưu hoá iruy vấn dữ liệu, trong khi thiết kế hệ tác nghiệp quan tâm
tới vấn để tốt wu hoá thao tac dir liéu (insert, update, delete ) Phân biệt về tính chất
dữ liệu lịch sử của kho đữ liệu và tính chất đữ liệu của hệ tác nghiệp
Các yêu cầu chức năng kho dữ liệu phối đảm nhận: khả năng cân bằng, quản trị, sẩn sằng, mỡ rộng, mềm dẻo, tích hợp, truy cập sử dụng, và khả nang tin cay
Trang 16CHƯƠNG 2 KIẾN TRÚC KHO DU LIEU
1.MỘT SỐ KHÁI NIỆM CƠ BẤM
1 Dữ liệu nghiệp vụ
Dữ liệu nghiệp vu (Business data) là dữ liệu dùng để vạn hành và quản lý của một doanh nghiệp hoặc một tổ chức Nó phản ánh những hoạt động của doanh
nghiệp và những đối tượng trong thế giới thực như là khách hàng, địa điểm, sản
phẩm v.v Nó được tạo ra và sử dụng bởi các hệ thống xứ lý giao dịch cũng như các
hệ thống hỗ trợ quyết định
Dữ liệu nghiệp vụ bao gốm đữ liệu cấu trúc và dữ liệu phì cấu trúc, Dựa vào
các tiêu chí sử dụng trong nghiệp vụ, phạm ví dữ liệu, tính chất đọc/ghỉ của đữ liệu,
thời gian phát sinh đữ liệu ngưốt ta chia đữ liệu có cấu trúc làm ba loại:
Ld Dit ligu thoi gian thue (real-time data)
Dữ liệu chí tiết mới nhất được dùng để vận hành công việc và được truy xuất theo chế độ dọc/ghi thông qua các aiao dịch đã được xác định rước
1.3 Dữ liệu dẫn xudt (derived data}
Dũ liệu tại một thời điểm hoặc đữ liệu định kỳ, ở mức chí tiết hoặc tổng hợp,
thuộc chế độ chỉ đọc, nhận được từ việc xử lý dữ liệu thời gian thực và dùng để quân
ly cong tác nghiệp vụ
1.3 Dữ liệu tương thích (reconciled data}
Được sinh ra trong quá trình xử lý tăng cường tính nhất quán bên trong của dữ
Hệu Đây là quá trình thực hiện trên dữ liệo thời gian thực ở mức chỉ tiết Khía cạnh
thứ hai của quá trình này là duy trì hoặc tạo ra một tập dữ liệu lịch sở Do đó có thể coi dữ liệu tương thích là một loại đặc biệt của dữ liệu dẫn xuất
2, Siêu dữ liệu (Metadata)
Siêu đữ liệu (Metadata ) là dữ liệu về dự liện, được sử dụng trong DW để mô tả
cũng như sử dụng dữ liệu đảm bảo sử dựng triệt để và nhất quán dữ liệu nghiệp vụ
Trang 17Nó dược bạo ra, duy trì và tray cập trong suốt quá trình xử lý nghiệp vụ (được thực
hiện thòng qua các ứng dụng)
Dựa vào hai tiêu chuẩn cơ bản là: Vị trí của siêu dữ liệu trong ứng dụng và chúng được sử dụng theo cách thức chủ động hay bị động Người ta chia siêu dữ liệu
ra thành ba loại: Siêu đữ liệu trong giải đoạn xây đựng, siêu đữ Hiệu kiểm soát và
siêu đữ liệu van dung
3.1 Siêu đữ liêu trong giai đoạn xảy dung
Là siêu đữ liệu được tạo ra trong quá trình thiết kế, xây đựng ứng dụng và cơ
sở dữ liệu Thông thường, chúng được tạo ra và lưu trữ trong các mô hình đữ liệu và cổng cụ thiết kế ứng dụng (bộ công cy CASE)
2.2, Siêu đữ liệu kiểm soát
Là siêu dữ liệu được sử đụng chủ động trong hoạt động của kho đã liệu, trong
đó sieu đữ liệu hiện hành và siêu dữ liệu sử dụng đóng vai trò quan trọng trong việc
quản lý và xây dựng kho đữ liệu
Siêu dữ liệu hiện hành: mô tả thông tin chính xác vẻ tính hiện thời hay vị trí của dữ liệu nghiệp vụ theo thời gian
Siêu dữ liệu sử đụng: gắn chặt với vấn để an ninh và các chức năng xác định
thẩm quyền, kiểm soát việc truy cập tới kho dữ liệu Hơn nữa chúng cung cấp các
phương tiện nhằm giám sất đữ liệu và các chức năng này được sử dựng trong kho dữ
liệu như thế nào, và đo đó xác định được giá trị củu dữ liệu đối với nguời sử dụng
cưỡi
3.3 Siêu dữ liệu vận dựng:
Là siêu dit Hiệu quan trọng nhất đối với người sử dụng đữ liệu nghiệp vụ, đặc
biệt trong môi trường thông tín Với chúng người dùng có thể đạt được những lợi ích
trong nghiệp vụ và nàng cao hiệu quả công việc
Trang 18Sige dữ liệu vận dụng có nguồn gốc và nội dung tương tự siẻu dữ liệu trong
giai doạn xây dựng, Sự khác biệt ở chỗ siêu dữ liệu này được cấu trúc nhằm đảm bảo
hiệu quả khả nâng dim kiếm của người sử đụng
1I KIẾN TRÚC DỮ LIỆU MỨC KHÁI NIỆM
1 Kiến trúc dữ liệu nghiệp vụ
Một trong các bước đầu Hiên khi thiết kế Kho dữ liệu là xây dựng kiến trúc
tổng thể và làm kiến trúc đó được chấp nhận một cách rộng rãi Thông thường, mục
tiêu của hệ tác nghiệp là thực hiện các chức oãng người sử đụng yêu cầu, và chúng
có phạm vị dữ liệu khá hẹp, nến việc thiết kế các hệ thống tác nghiệp thường bắt đầu
với kiến trúc ứng dụng Tuy nhiên, đối với kho dữ liệu tính hợp nhất đữ liệu quan
trọng hơn, đò đề điểm khỏi đầu trong kiến trúc kho đữ liệu phải là đữ liệu tác nghiệp
và siêu dữ liệu
Dựa vào thực tế xây dựng kho dữ liệu người ta đưa ra ba rô hình kiến trúc dữ
tiệu, các căng dữ liệu được xem xét dưới mức độ khái niệm hơn là mức vật lý của
nổ Mặc đủ người ta có thể quyết định trực tiếp vị trí dữ liệu bằng cách xem xét các
đặc điểm kiểu đỡ liệu, ba kiến trúc dữ liệu này đưa rá một nền tảng dể hiểu hơn cho
vị trí dữ liệu
Mô hình kiến trúc đữ tiệu ba tắng đã bao hầm các thành phần của mô hình kiến
trúc hai tổng và một tầng Do vậy chúng ta sẽ xem xét mỏ hình kiến trúc dữ liệu ba
tầng, sau đó chỉ ra những thành phần khác biệt so với kiến trúc đữ liệu hai tầng và
tương tự với kiến trúc một tầng
eon,
+ Ý.10/300
Trang 19“Tương thích dữ liệu từ nhiều cơ sở đữ liệu trong thôi gian thực
Dẫn xuất đữ liệu do người sử dụng yêu cầu từ đữ liệu vừa được tương thích
'Trong kiến trúc này tổng dưới cùng là dữ liệu thời gian thục, tầng trên cùng là
đữ liệu dẫn xuất và tầng giữa là tầng đữ liệu tương thích.
Trang 20Quả bình làm tương thích đữ liệu từ các tập dữ liệu khác nhau trong tẳng thời
gian thực đồi hỏi phải nắm bắt quan hệ giữa những tập đữ liệu này và vai trò của
chúng trong nghiệp vụ, Trên thực tế quá trình nắm bắt này được xác định qua tiến
trình lập mô hình dữ liệu, thường được thực hiện ở mức doanh nghiệp hơn là ở mức
ứng dụng riêng lẻ Mối quan bệ giữa tầng đữ li§u tương thích và mô hình dữ liệu
doanh nghiệp là yếu tố quan trọng để hiểu được hoại động của kiến trúc ba tằng
Mục đích của tổng dữ liệu tương thích: Bước này lấy đữ liệu từ nhiền loại hệ
túc nghiệp khác nhau, hỗn tụp, phân tấn về mặt địa lý, sau đó kết hợp và xử lý chúng
để trở thành hình ảnh mô hình đữ liệu doanh nghiệp duy nhất và logic, Chức năng
của tầng này trở thành nguồn duy nhất, chính xác cho mọi dữ liệu mà người dùng
của hệ thống thông tin quản lý bay hệ hỗ trợ quyết định đôi hỏi Từ tầng này có thể
đẫn xuất ra bất kỳ tổ hợp đữ liệu nào mà người dùng có thể đòi hỏi trong hiện tại
hay tương loi
“Trong tiến trình sao chép tới tầng đữ liệu tương thích, các tập hợp dữ liệu trong
tầng thời gian thực phải được làm tương thích với nhau bởi yêu cầu làm sạch dữ liệu
thời gian thực để loại bỏ những điểm không nhất quấn và bất qui tắc ong đữ liệu,
Không có dữ liệu mới được tạo ra trong bước này, giá trị được thêm vào tới từ chính
tầng tương thích
Trong bước thứ hai, đã liệu dẫn xuất mà người dùng đồi hỏi để đáp ứng yêu
cấu nghiệp vụ của mình có được bằng cách sử dụng nhiều tiến trình như kết hợp,
biển đổi trên đỡ liệu tương thích Bước này được định hướng bởi nhu cầu thông tin
của người dùng dựa trên nguồn đữ liệu đuy nhất, đẳng tìn cậy Thông tin mới có gid trị với nghiệp vụ chỉ được rạo ra trong bước này
Người dùng cuối hiểm khi truy nhập trực tiếp tới tâng dữ liệu tương thích vì
cấu trúc đã được lập mô hình và chuẩn hoá của tắng này nói chung không phủ hợp
với người dùng cuối Phần lớn các tiến trình hd ượ quyết định đòi hỏi dữ liệu dược
kết bợp từ nhiều thực thể khác nhau (hay các băng đã chuẩn hoá) Tiến trình kết nối
này là một trong những công việc không thuận lợi với người sử dụng, bởi vì nó đời
hỏi một phương pháp hình thức để đảm bảo tính hợp lệ Hơn nữa dỡ liệu trong tắng
Trang 21này bao trữm toàn bộ tổ chức và như vậy có phạm vì rộng hơn mã hầu hết người
dùng đồi hôi Những lý do nghiệp vụ này hạn chế việc sử dụng trực tiếp tầng dữ liệu
tương thích cho các hệ thống théng tin quản lý Việc truy nhập trực tiếp tới tầng dữ
liệu tương thích chỉ hạn chế trong một số lượng giới bạn nhỏ những người phân tích
nghiệp vụ thông thạo kỹ thuật, cần xem nghiệp vụ một cách tổng thể Hầu hết người
dùng cuối thoả mãn như cầu dữ liệu của mủnh qua tảng dẫn xuất
Mối quan hệ giữa dữ liệu trong tầng tương thích và trong tầng dẫn xuất tương,
tự vai trò của truy vấn đặc biệt (ad-hoc) và tray vấn đã xác định Tầng dữ liệu tương thích đáp ứng các truy vấn đặc biệt, Tâng dẫn xuâi đáp ứng cho các truy vấn đã xác
định, có thể xem tầng dẫn xuất lưu trữ các kết quả của một tập truy vấn đã xác định
Do đó, tảng dữ liệu dẫn xuất chứa tập dữ liệu được tối ưu hoá để thoả mãn như
cầu của các bộ phận, nhóm người dùng hay thậm chí những cá nhân riêng biệt, Bên
trong mỗi tập hop dữ liệu nhỏ và cấu trúc kém hình thúc hơn người dùng cố thể
thực tiện các báo cáo thường kỳ hay phát triển các truy vấn cần thiết
Một lý do cho sự thành công của việc cách đữ liệu tương thích khỏi dữ liệu
dẫn xuất là nhiều yên cầu thông tìn quản lý đã được xác định trước và thường được
lập lại Lý đo đơn giản này công lầm giêm mạnh tài nguyên tỉnh toán cần thiết hỗ
trợ kho đữ liệu Các hoạt động tính toán hay phải làm hoàn toàn được xác định như
liên kết và tách dữ liệu tương thích- thường được thực hiện khí đi chuyển dữ liệu từ
tầng tương thích tới tắng dữ liệu đẫn xuất trên cơ sở hàng ngày hơn là mỗi khi người dùng cuối truy vấn
Mö hình kiến trúc đữ liệu ba ting khong c6 sing giữa (tầng dữ liệu tương
thích) cho ta hình ảnh về kiến trúc dữ liệu hai tầng, tuy nhiên khi không có sự tham
gia cba tầng tương thích thì kho đữ liệu cũng sẽ gặp một số vấn để mà tầng đữ liệu
tương thích đảm nhận Kiến trúc hai tầng thường thấy xuất hiện trong các tổ chức
nhỏ hoặc trơng các giai doạn đấu của quá trình xây dựng một khơ dữ liệu qui mỡ
đoanh nghiệp Tuy nhiên, nô có nhiều vấn để liên quan đến kiểm soát và bảo trì đài
hạn
Trang 22Mỏ: hình kiến trúc dữ liệu hai tầng khi khong cé ting dé licu dan xuất cho tạ
mò hình kiến trúc đữ liệu một tầng Kiến trúc một tầng sẽ gập một số vấn đề mà
tầng dẫn xuất đâm nhiệm Kiến trúc mội tầng hiếm khi xuất hiện bởi nó tạo ra xung
đội khi nhiều người dùng cùng truy cập Lới một dữ liệu
Kiến trúc ba tầng là tiếp cận mạnh nhất Nó được khuyến cáo trong khi nghiệp
vụ cẩn những dữ liệu trên qui mở toàn tổ chức Sức mạnh và sự thành công của kiến trúc ba tầng xuất phát từ sự nhận thức vai trò mẩu chốt của mô hình dữ liệu đoanh
nghiệp và sự thực biện vật lý tẳng dữ liệu tương thích,
2 Kiến trúc siàu đữ liệu
Tương tự đữ liệu nghiệp vụ, siêu đữ liệu cũng được kiến trúc hoá theo định
nghĩa của siêu dữ liệu trong mục 1 Với dữ liệu nghiện vụ, sự phản loại rất phù hợp
với kiến trúc ba tầng Với siéu dĩ liệu kiến trúc cũng gớm ba phần Tuy các phần
không được phân tầng như chúng có quan hệ với nhau (hình vẽ), cho phép siêu dữ
liệu thời gian thực cung cấp dữ liệu trực tiếp cho cả siêu dữ liệu kiểm soát lẫn siêu
Trang 23
Nếu cấu trúc đữ liệu nghiệp vụ ba tầng có thể sụp đổ thành kiến trúc hài hay
thậm chí một tầng, thì cấu trúc của siêu đữ liệu ổn định hơn Đó là vì phạm vì và sự
sử dụng siêu dữ liệu hạn chế hơn khi so sánh với đứ liệu nghiệp vụ Hơn nữa siêu di
liệu là khái niệm mới hơn đo đồ khi xây dựng kho dữ liệu tổ chức siêu đũ liệu với
cấu trúc đã chỉ ra trong hình vẽ trên đơn giản hơn kiến trúc ba tầng cho đữ liệu nghiệp vụ
Siêu đữ liệu trong giai đoạn xáy đựng và siêu đữ liệu trong giai đoạn kiểm soát
tên tại trong nhiều vị trí khác nhau, được tạo ra và quản lý thông qua nhiều thành
phần Thực sự, các xác định và sử dụng những siêu ứng dựng này trong các môi
trường ngày nay là không rõ ràng Mặt khác hiện nay, siêu dữ liệu vận dụng hiếm
khi được nhận thức rõ ràng, và bởi vì người dùng cuối sử dụng nó là chủ yếu nén
siêu đỡ liệu vận dụng là thành phần siêu đữ liệu quan trọng nhất trong kho đữ liệu,
3 Quan hệ và nguôn của siêu dữ liệu
Chúng ta có thể thấy rõ mối quan hệ giữa ba loại siêu đữ liệu và tẩm quan
trọng của siêu dữ liệu vận dụng bằng cách xem xét vị trí của mỗi loại siêu đỡ liệu và
cách thức tạo ra chúng
3.1 Siêu đữ liệu trong giai đoạn xảy đựng
Ti cả các công cụ thư thấp ý nghĩa, logic nghiệp vụ và biểu diễn những thông
tin này một cách có ý nghĩa được sử dụng để tạo ra và quản lý siêu dữ liệu trong giai
doan xay dựng, ví dụ như các công cụ lập mô hình đữ liệu và các công cụ CASB,
Siêu dữ tiệu mức nghiệp vụ này được bổ sung các thông tìn về cấu trúc vật Tý, sự lưu
trữ và thời gian Siêu dữ liệu trong giai đoạn xây dựng được sử dụng trong quá trình
phát triển ứng dụng
Nguồn của siêu dữ liệu trong giai đoạn xây đựng cho các hệ thống cũ đã thay đổi nhiều Các tư liệu về yêu câu và thiết kế-nếu tổn tại là nguồn trên văn bản duy
nhất của siêu dữ liệu ở mức nghiệp vụ ở mức vật lý thì ngược lại, từ bản thiết kế cơ
sở dữ liệu, file, và các ứng dụng phải tạo ra tư liệu thiết kế, Trong những trường hợp.
Trang 24như vậy, mới quan hệ với ý nghiền nghiệp vụ có thẻ phải điều chỉnh lại dựa trên cách
sử dụng hiện tại của hệ thống
Tạo quyền sử hữu siêu dữ liệu thực tế la một văn để đặc biệt Trong khí các chỉ
din và lưu đó tổ chức tạo thành tư liệu cẩu trúc tỏ chức, mối liên kết giữa cấu trúc
này và dữ liệu-biểu diễn quyền sở hữu-bị hạn chế ít tổ chức có tiến trình chính thức
qua đó các bộ phận nghiệp va adm lấy quyền sở hữu dữ liệu Thường quyền sở hữu
được xác dịnh trên ứng dung hơn là trên dữ liệu, Hơn nữa quyền sờ hữu đỡ liệu ở mức cá nhân hiểm khi xuất hiện Chỉ giải quyết dược các vấn để về chất lượng đữ
liệu một cách hiệu quả khi xác định được cả hai quyền sở hữu-của tổ chức và của cá
nhân đồng thời công ty phải kiểm soát được các tiến trình duy mì tính hợp lệ và
quyền sở hữu hiện tại của siêu dữ liệu
Cấu trúc siêu đữ liệu trong giải đoạn xây dựng phản ảnh nhụ cầu của người
thiết kế, người phát triển ứng dụng và cơ sở đữ liệu, do đó không thích hợp sử dụng
khi hệ thống đưa vào hoạt động Người ta không sử dụng trực tiếp siêu dữ liệu này
trong quá trình kiểm soát các hoạt động thời gian thực của hệ thống vì các lí do hiệa
quả và do dỏ siêu dữ liệu trong giai đoạn xảy dựng được sao chép vào môi trường
hoạt động dưới dạng kiểm soát Cấu trúc của dữ liệu kiếm soát này được tối ưu cho hiệu quả trong thời gian hoạt động
“Tương tự, khả năng người đùng cuối sử dụng hiệu quả siêu đữ liệu trong giai đoạn xây dựng cũng bạn chế Siêu dữ liệu trong giải đoạn xây dựng và các công cụ CASE thao tắc trên chúng được thiết kế để chuyên gìa trong bộ phận thông tín - thường phải cập nhật siếu đữ liệu-sử dạng Người dùng cuối có kỹ năng khác nhau
và nhu cầu cập nhật siêu đữ liệu trong giai đoạn xây dựng được sao chép vào kho dữ
liệu dưới dạng siêu dữ liệu vận dụng
3.3 Siêu dữ liệu kiểm soát
Trong kho dữ liệu mục đích của siêu dữ liệu kiểm soát là mô tả sự biện hành
và cách sử dung dit liệu nghiệp vụ Nguồn của những siêu dữ liệu này không phải là siêu dữ liệu trong giai đoạn xây dựng Với siêu đữ liệu hiện hành, nguồn là các ứng
Trang 25dụng hay các công cụ tạo ra và cập nhật dữ liệu nghiệp vụ về mat vat ly Với siêu dix liệu sử dụng, nguồn là các công cụ mà qua đó người dùng cuối cập nhật kho dữ liệu
Sieu dữ liệu hiện hành tồn tại ở nhiều mức chỉ tiết ở mức thấp nhất, thông tin
hiện hành về dữ liệu được lưu ở mức bảng hay file Trong trường hợp này, siêu dit liệu mô tả sự hợp lệ về mặt thời gian của toàn bộ tập dữ liệu, Theo thuật ngữ vật lý, méi ban ghi hay hang trong file hay bing có khoáng hợp lệ của chính nó, Cuối cùng,
sự hợp lệ có thể được xác định ở mức các trường riêng lẻ trong mỗi bản ghi Mức chi
tiết này gần như Không được quan tâm bởi vì nếu được thục hiện, khối lượng siêu dữ
liệu sẽ vượt quá dữ liệu nghiệp vụ mà nó kiểm soát
ở hai mức chí tiết file/bảng và bản ghi/hing cẩn có nhiều phương pháp khác
nhau để lưu trữ siêu đữ liệu:
ở mức file/bảng, siêu đữ liệu hiện hành được lưu trữ trong các cấu trúc vật lý
cơ sỡ là các File hay các băng Do đó nó phản biệt với dữ liệu nghiệp vụ Để người
dùng cuốt có thể truy cập tới, siêu đữ liệu này phải được sao chếp vào siêu dữ liệu
van dung
ở mức bản ghi/hang, siêu dữ Hiệu hiện hành hầu hếi được lưu trữ dưới đạng
nhãn thời gian Nó nằm cùng vị trí với đữ liệu nghiệp vụ mà nó mô tả, chữ không tách biệt như các kiểu siêu đữ liệu khác, Do đó siêu dữ liệu hiện hành ở mức bản
ghihàng không được sao chép vào siêu đừ tiệu cách sử dụng, nhưng được truy cập
trực tiếp bởi những người sử dung wy omg tinh huống Do đó người dùng cuối hiếm
khi phân biệt siêu đữ liệu kiểm soát với dữ liệu nghiệp vụ
Ngày nay trong hấu hết các môi trường, siêu đữ liệu hiện hành biếm khi được
lưu trở theo bất kỳ hình thức nào Những người quản lý bộ phận thông tin nhận trách
nhiệm đảm bảo rằng dữ liệu trong các hệ thống théng tin quan lý được tạo đúng giờ
và cho người dùng biết các vấn để nảy sinh khi nào Môi trường kho dữ liệu yêu cầu
cách tiếp cận một cách hình thức hơn để bảo trì siêu dữ liệu này, bởi vì số lượng
người dùng và sự phong phú của dữ liệu trong kho Nó đôi hỏi rằng các công cụ
định cư và bảo trì kho dữ liệu phải tạo ra và bảo trì siêu dữ liệu một cách tự động.
Trang 263.3 Siêu dữ liệu vận dụng
“Tâm quan trọng của siêu dữ liêu vận dạng chỉ được thừa nhận khi có sự bùng
nổ của kho dữ liệu, và sự đa dạng cũng nhự khối lượng đữ liệu mà nó cung cấp cho
người sử dụng Loại siêu dữ liệu mới xuất hiện này có cả ưu và nhược điểm Ưu
điểm là cấu trúc và sự lưu trữ vật lý có thể định nghĩa một cách phù hợp nhất với các
yêu cầu của kho đữ liệu Tuy nhiên, do mới xuất hiện nên có ít công cụ quản lý và
xử dụng siêu đữ liệu vận dụng
'Trong những giai đoạn đâu khi thực biện kho dữ liệu, thiểu các công cụ hỗ trợ
cho siêu đữ liệu vận đụng không phải là một vấn để nghiêm trọng, bởi vì trong giai đoạn đầu này thường chứa số lượng hạn chế các loại đữ liệu Tuy nhiên, chác chân
sẽ cần tới các công cụ này khi khối lượng đữ liệu lên và việc sử dụng kho đữ liệu
được mở rộng trên toàn tế chức
Kiến trúc khái niệm dữ liệu nghiệp vụ ba tầng, cùng với kiến trúc siêu dữ liệu
hê trợ cho các yêu cầu quân !ý đữ liệu của bộ phận hệ thống thông tín, cũng như các
yêu cầu truy nhập dữ liệu của người đăng cuối
4 Kiến trúc Logic Kho dữ liệu
Các kiểu dữ liệu, khái niệm vả dữ liệu nghiệp vụ và các thành phần siêu đữ liệu
cũng cấp một lý thuyết cơ bản về kiến trác kho đữ liệu Tiếp theo chúng ta sẽ nghiên cứu khái quất về kiến trúc logic của kho dữ liệu
Việc chuyển kiến trúc từ mifc khái niệm sang mức logic bao gồm một số khía
cạnh:
Sự ràng buộc đo cc công nghệ (trong thời kỳ hiện rại cùng dự đoán trong vài năm tớ)
Các khía cạnh tổ chức của quyền sở hữu và quá trình phát triển,
Sự phân tán dữ liệu và chức răng về mặt địa lý.
Trang 2726
“Theơ quan điểm kiến trúc kho đữ liệu, kho dit lidu nghigp ve va kha thong tin
nghiệp vụ là những thể hiện tương ứng về mật logic (và thậm chi vat ly) cla ding dir
tiêu tương thích và tắng dữ liệu dẫn xuất
41 Dữ liệu nghiệp vụ trong kho dữ liệu
Kiến trúc kho đỡ liệu ba tổng: tắng đữ liệu thời gian thực, tương thích và dẫn
xuất chỉ ở mức khái niệm Khí chúng ta xây đựng kho dữ liệu ở mức vật lý, mỗi tầng
này sẽ được thể hiện trên một tầng tương ứng Tuy nhiên, không một tắng nào nằm
trên cũng một vị tí vật lý, và tất cả được xây dựng theo một vài cách khác nhau
Trang 28Kho thông tin nghiệp vụ
Trang 294.1.1 Các hệ thống tắc nghiệp
Hệ thống tác nghiệp là các ứng dụng được sử dụng để thực hiện công việc và
dữ liệu chúng sử trung trong các file, các cơ sở dữ tieu là dữ liệu thời gian thực
Ngày nay những ứng dụng này tổn tại trong rất nhiều khuôn đạng và vị trí và đo vậy
bị phản tán và không đồng nhất Các ứng dụng mới tiếp tục được xây dựng, thậm chí không đồng nhất và phan tấn hơn những ứng dung trước, hiện nay đang được thực hiện trong nhiều trôi trường client/server
Trong khi các dự án công trình lại (reengineering project) cố gắng đơn giản
hoá môi trường client/server dé giảm bớt tính hỗn tạp thì có nhiều nhân tố không,
cho phép thực hiện điều này Xu hướng hướng tới các hệ thống phân tần dẫn tới việc
đa dạng hoá công nạhệ khi các ứng dụng mới hơn được xây dựng trên các nến tảng
mới Sự độc lập của các bộ phận cũng như sự nhận thức về máy tính của người sử
đụng ngày càng tăng làm giảm sự kiểm soát của bộ phận hệ thống thông tín trung
tâm Nhụ cầu phát triển các ứng dụng nhanh hơn cũng làm giảm việc tiêu chuẩn hoá
các hệ thống tác nghiệp Vì vậy rất khó có thể chỉ ra được bất kỳ một sự hợp lý hoá
nào trong môi trường vật lý, và trong một vài trường hợp tính đa đạng được phát
triển
Các hệ thống tác nghiệp còn được xem giống như các hệ thống cũ, tuy nhiên
chúng khác nhau ở một khía cạnh quan trọng Các hệ thống cũ thường chữa các
chức năng báo cáa, chức nãng này được sử dựng để quản lý nghiệp vụ chứ không
thực hiện nó Các chúc nàng này thường chỉ là một phần nhỏ trong các ứng dụng cũ,
nhưng phải được phân biệt với các chức năng tác nghiệp thực sự Vị trí chính xác
của né là ở trong tầng dẫn xuất, và theo thời gian chúng sẽ được đặt ở đó
Vì các hệ thống tắc nghiệp tương tắc với nhau, dữ liệu được chuyển đi chuyển lại và được sửa đổi khi cần thiết, cẩn phải nhận biết rõ rằng về càng sớm càng tết các nguồn dữ liệu "chính xác" của bất kỳ phần từ đữ liệu nào cân thiết trong kho lưu trữ Lặp mõ hình dữ liệu, đặc biệt phân tích lại các dữ liệu đã tổn tại trong phạm
ví của mỏ hình đữ liệu xí nghiệp (EDM) đóng vai trò chủ dao tai day.
Trang 30Cac hệ thống túc nghiệp J) agudn - và thực sự là nguồn duy nhất của toàn bộ
dữ liệu trong kho lưu trữ Điểu này là hiển nhiền khi xem xét các dữ liệu nội tại mô
lầy được 1ạo ra qua các hệ xử lý
giao dịch trong nghiệp vụ đó Tuy nhiên, cần phải rõ kháng định này khi giao
dịch với đữ liệu bên ngoài, dữ liệu định kỳ, đữ liệu hiệu chỉnh, đữ liệu điều chính, đữ liệu tái sử dụng và dữ liệu cá nhân Các loại đữ liệu này được đưa vào trong kho lưu
trữ từ các hệ thống tác nghiệp hoặc các hệ thống tương tác với kho lưu trữ giống hệ
tủ các hoạt dòng hàng ngày của nghiệp vụ Dữ lì
thống tác nghiệp, được chỉ ra ở những phần kế tiếp,
4.1.2, Kho dit lien nghiệp vụ (BDW)
Kho dữ liệu nghiệp vự là sự thể hiện mức vật lý của tắng dữ liệu tương thích
Do vậy, có các thuộc tính lương tượng tự tổng đứ liệu tương thích: chỉ tiết, lịch sử, nhất quán, mô hình và chuẩn hoá
BDW được xây đựng trong mới trường quan hệ hoàn toàn, bồi vi môi trường
này thể hiện được tốt nhất bản chất mỏ hình và tính chuẩn hoá Về lý thuyết thì
BDW có thể được phân tán Tuy nhiên, các quả trình tương thích đòi hỏi một khối
lượng rất lớn dữ liệu phải đối sánh và liên kết, quá trình này rất phù hợp với các ứng đụng không phản tần Thém vào đó, cơ sở đữ liệu quan hệ và các mạng ngày nay hỗ
trợ một cách giới hạn các quá trình xử lý phân tán hoàn toàn, Vì vậy có thể dự đoán được tương lai tầng dữ liệu tương thích sẽ tiếp tục được xây dựng theo mô hình tập trung
Các khia cạnh tổ chức cũng hướng BDW tới sự thực hiện tập trung, Đó là vì
BDW dược dự định trở thành một điểm kiểm soát-nơi chất lượng và sự tích hợp của
dữ liệu được đảm bảo trước khi đưa cho người sử dụng cuối Điểm kiểm soất này có
thể nằm trong phạm ví trách nhiệm của một bộ phận trong tổ chức, có thể là trung
tam hé thống thông Iin, và do đó được quản lý đơn giản hơn rất nhiễu
Sự bảo mật của BDAW là một vấn để rất quan trọng bởi nó chứa tất cả dữ liệu
nghiệp vụ dưới dạng tích hợp Chỉ riêng sự an toàn về mặt vật lý cũng đâm bảo cho cách tiếp cận lưu trữ đữ liệu tập trung
Trang 31Cân cứ vào kích thước lớn của BDW-do BDW lưu trữ cả dữ liệu trong quả khứ
nẻn chi mot phẩn và thậm chỉ lš một phần rất nhỏ của nổ, có thể trực tuyến về mật
vật lý tại mọi thời điểm Phân còa lại sẽ tên tại đưới đạng lưu trữ
BDW rải ít khí dược người dùng cuối sử dựng trực tiếp Đúng hơn nó là nguồn của toàn bộ dữ liệu trong kho lưu trữ thông tỉa aghiệp vụ Do vậy, những vấn để hiệu
quả sử dụng của BDW liên quan đến phần đữ liệu ngoại tuyến rất lớn hay các quá
trình xử lý theo lô của việc định cư kho dữ liệu từ hệ thống tác nghiệp hay thu thập
đữ liệu để ing dan xust six dung
4.1.3, Kho thong tin nghiép vu (BY)
Kho thông tin nghiệp vụ là tên gọi chung cho bất kỳ hệ thống nào được sử
dụng trong việc báo cáo, phân tích hoặc dự đoán nghiệp vụ Điều này bao gốm các báo cáo quản trị thông tín, hỗ trợ ra quyết định, các bệ thống thông tin điều hành
cũng như cúc hệ thống phân tích thị trường, các ứng dụng khai phá dữ liệu
Môi trường này được phân Lắn ở mức cao, ngày nay chủ yếu thục hiện qua mô
hình client/server và dựa trên trạm làm việc, Trong khi môi trường này sẽ vẫn tiếp
tục được phân tấn ở mức cao, nó đồng nhất hơn tẳng dữ liệu thời gian thục Hầu hết
các BIW déu tn tai trong cơ sở cấu trúc kiểu quan hệ đựa trên các dòng và cột,
Những môi trường kiểu quan hệ này bao gồm nhiều cơ sở dữ liệu quan hệ thục sự
cũng như các bằng tính và các công cụ phân tích da chiêu
Cae BIW chứa đữ liệu dẫn xuất được thiết kế để hỗ trợ các nhu cầu nghiệp vụ
của người đùng cuối, cho di ở mức cá nhân hay mức nhóm Chúng có thể chứa dữ
liệu ở mức chỉ tiết hay tổng hợp, dữ liệu định kỳ trên một khoảng thời gian trong
quá khử hay các đữ liệu tại một thời điểm Cấu trúc các BIW được tối ưu hoá để trả
lồi các câu truy vấn trực tuyến, các truy vấn này có thể đặc biệt hoặc có thể dự đoán
trước được
Các kho thông tín nghiệp vụ (BIW) được tạo ra một cách trực tiếp từ BDW
hoặc giấn tiếp thông qua các BIW khác Nguồn trục tiếp từ BDW dựa trên mối quan
hệ giữa dữ liệu đân xuất và dữ liệu tương thích đã được định nghĩa bởi kiến trúc
quan niệm, Nhu câu để BÍW có nguồn gốc từ các BIW khác là trên thực tế có rất
Trang 3231
nhiều BÍW có nội dung tương tự nhau và sự dẫn cải từ kho đỡ liệu nghiệp vụ không
phải là cách sử dụng tốt nhất các tài nguyên tính toán Tuy nhiên, ưu điểm của việc
cdc BIW có nguồn gốc từ các BIW khác phải làm cần bằng với rủi ro do việc có thể
tạo ta các dữ liệu suy diễn vòng quanh Điều này đẫn đến có hai loại kho thông tin
nghiệp vụ: BTW néa- được phép làm nguồn cho các BTW khác, và BIW người dững-
không được phép Các BTW nến yêu cầu sự quản lý đặc biệt (tương tự BDW) để đảm
bao sy tương thích và tích hợp của dữ liệu lưu trữ ở đó
+41 Kiến trúc Siêu đữ liệu trong kho dữ liệu
Rõ ràng siêu dữ liệu cẩn thiết trong cả ba tổng kiến trúc, Tuy nhiên, không
phải toàn bộ siêu đữ liệu đều cẩn thiết cho mỗi tầng, và các thành phần siẻu dữ liệu
được mô tả có tắm quan trọng khác nhau trên các tắng kháo nhau của dữ liệu nghiệp
Vụ.
Trang 33Kho dữ liệu nghiệp vụ
Bình số 8: Kiến trúc siêu dữ liêu
Kho thông tìn nghiệp vụ
Trang 34
“BB
Kiga tnic ba ting yeu edu mot co sé chung IA sieu đữ liệu trong ghủ doạn xây dựng, chứa các định aghía của cà ba tầng thả hiện các mối quan hệ giữa chúng Nó có thể
sử dụng các công cụ xây dựng khác nhau trong các mỗi trường khúc nhau, và trong
mỗi trường hợp, siêu đử liệu định nghĩa sau đó phải được làm tương thích Nói
chung tốt hơn là nên sử dựng cùng một công cụ để xây dưng mỏ hình chơ cả ba tầng
để tránh việc ánh xạ lại Thật đáng tiếc, vi các lý do lịch sử và kỹ thuật, siêu dữ liệu
trong giai đoạn xây đựng thường được định nghĩa bằng nhiều cách khác nhau, với các mức độ tích hợp khác nhau có thể có
Giống như siêu dữ liệu trong giai đoạn xây dựng, siêu dữ liệu kiểm soát và siêu
dữ liệu vận dụng cũng cần thiết cho cả ba tắng dữ liệu Nhưng nội dung thực sự của
các siêu đữ liệu này được lưu trữ theo nhiều cách phụ thuộc vào nhu cầu của từng
tầng dữ liệu
Vì kho đữ liệu nghiệp vụ chứa toàn bộ đữ liệu tương thích của tổ chức, nên cũng chứa hầu như toàn bộ siêu đữ liệu vận dụng và siêu 4 tiệu kiểm soát, Kho dữ
liệu nghiệp vụ ghỉ lại các siêu dữ liệu hiện hành ở mức chỉ riết của lịch sử các bản
ghỉ kho đữ liệu nghiệp vụ riêng lễ, trong khi siêu dữ liệu hiện hãnh ở mức tổng hợp
hơn có thể được lưu trữ trọng các thành phần sử dụng côa siêu đữ liệu
Các tầng dữ liệu dẫn xuất và thời gian thực chỉ cần lưu trũ các siêu dữ liệu cần
thiết Trong thuật ngữ logic, điều này được thể hiện là tổng của siêu đữ liệu kiểm
soát và siêu dữ liệu vận dụng đối với các ứng dụng ở mỗi mức Siêu dữ liệu có thể
được chĩa nhỏ và phân tần về mặt vật lý trong các Lắng đữ liệu này khi thích hợp
Trong các BIW, khi đữ liệu mới được din xuất bằng việc tập hợp hoặc liên kết các
đữ liệu chỉ tiết thì sieu đử liệu vận đụng thích hợp cũng được lưu trữ để sử đụng
Thực tế ngày nay không rõ rằng, và có thể nói Siêu đữ liệu bầu như chỉ nắm
bắt được một phần, và khi nó được nắm bắt thì dược lưu trữ ở nhiều nơi khác nhan Trong khía cạnh này, siêu đữ liệu có thể so sánh với đữ liệu tác nghiệp Với siêu đữ
liệu còn có văn để khác Sự bảo tở dữ liệu tác nghiệp khi nó thay đổi theo thời gian
cực kỳ quan trọng khí thực hiện nghiệp vụ Mật khác bảo trì siêu đữ tiệu thì hấu như
không tốn tại trong hấu hết các công ry, tham chí troag những trưởng hợp khi nó
Trang 35+
được thu thập ngay từ đấu Diễu này là vì nghiệp vụ luôn luôn sử dụng kí ức của
người dùng để xúc dịnh ý nghĩa thực sự của dữ liệu
Như vậy, ý nghĩa nghiệp vụ được lập một phẩn trong cẩm nang người đồng và
tư liệu hệ thống, nhưng những thông tín này luôn luôn được bổ sung bởi kiến thức
của người sử dụng thực sự hệ thống Dữ liệu và siêu dữ liệu ứng dụng được bảo trì
một cách chính thức nhưng thường bị phân tấn giữa tài liệu thiết kế, các chỉ mục hệ
thống giữa các nguồn khác nhau
Cần trở cho việc định cư các thành phân siêu dữ liệu vấn đụng trong Kho jưu
trữ là các siêu đữ liệu lưu trữ trong các công cụ khác nhau không tương thích với
nhau Như vậy, tập siêu dữ liệu dấu tiên hỗ trợ cho việc thực hiện kho dữ liệu thường được xây dựng bằng cách sử dụng một cách tiếp cặn khéo léo Tuy nhiên, những
thoả hiệp này không làm giảm tâm quan trọng của siêu đữ liệu trong kho dữ liệu hay
làm giảm nhù cầu định nghĩa một cách tiếp cận chiến lược chơ việc kết hợp siêu dữ
Tiện vào kiến trúc kho dữ liệu Cách tiếp cặn này thường được gọi là chỉ mục kho dữ liệu
3.3 Chỉ mạc kho dữ liệu (catalag)
Là sự lưu trữ về mặt vật lý tất cả siêu đữ liệu vận đụng và một phẩn siêu dữ
liệu kiểm soát được phân chia và phân tản giữa kho dữ liệu nghiệp vụ và các kho
thông tin nghiệp vu
1T PHƯƠNG PHÁP XÂY DỰNG KHO DỮ LIỆU
1 Ké hoach eo ban (The Basic plan)
Việc thiết kế kho dữ liệu nên khởi đầu bằng một kiến trúc sơ bộ xác định phạm
vì của dự án, Các quá trình nghiệp vụ hoặc những đối tượng được chú ý phát triển
cũng nên được xác định, Một cách tiếp cận không khôn ngoan khi cố gắng phát triển
đáp ứng "tất cả”, do vậy phải mất nhiều năm mới có thể hoàn thành Thực tế cho
thấy đây là lý do chính làm cho việc tạo đựng kho dữ liệu bị thất bại
Trang 36Việc xác dịnh các quá trình nghiệp vụ nào sẽ được đưa vào kha dữ liệu sẽ tnang lại hiệu rrủa và chúng chỉ ra khả năng truy cập sử dụng đữ liệu ở các mức, mục
tiêu được thực hiện trong thời gian thích hợp
Tiếp theo, lựa chọn các phạm ví nghiệp vụ hẹp hơn cho việc phát triển kho dữ liệu cục bộ (Data Mart) Nhằm xảy đựng một kế hoạch tổng thể, đảm bảo sự tích
hợp, ghép nối các kho đữ liệu cục bộ thành một kho đữ liệu chung thống nhất
Cuối cùng, kế hoạch cơ bản cũng cẩn chỉ ra chủ kỳ cập nhật đữ liệu của kho dữ
liệu
2 Quan niệm ở mức doanh nghiệp (The Enterprise View)
Đata Warehousing Process
Kho đũ liệu cung cấp thông tìn cho việc tạo các quyết định chiến lược của
doanh nghiệp Các tổ chức thường sử dụng kết hợp giữa kho đữ liệu và kho dữ liệu
cục bd (Data mart)
Trang 3736
Mô hình kiến trúc doanh nghiệp (Enterprise Model Architecture)
Mô hình kiến trúc doanh nghiệp là mô hình dữ liệu bao gồm tất cả các thực thể
của tổ chức Siéu đữ liệu được chia sẽ tới tất cả các phòng bạn trong tổ chức, sự tạo
tiên kết giữa các mỏ hình Có hai mô hình kiến trúc cấp doanh nghiệp:
Mö hình tập trung (Centralized)
Mô hình phan tin (Decentralized)
3 Luông đữ liệu qua kho đữ liệu (Flow of Data Through the Warehouse)
Applications
Hình sẽ 10; dit lieu trong kho đữ liệu
Dữ liệu được trích chọn từ nhiều nguồn đữ liệu, được chuyển đổi- nến cần thiết, và được chuyển tải tới vị trí thích hợp trong kho lưu trữ đữ liệu
Có các kiểu dữ liệu khác nhau để tạo khả năng thực hiện kho đữ liệu đễ dàng
Da liga the (caw data) là đữ Hiệu mức thấp nhất được tải trong quá trình trích chọn,
chuyển dối và chuyển tải Dữ liệu ở mức téng hop (summary data) két hop tir các dữ liệu the giúp thực hiện chức năng phân tích của kho dữ liệu Siêu dữ liệu (Meta data}
Trang 3837
thực hiện công việc ánh xạ dữ liệu tứ nguồn tới mới trường của kho dữ liệu, chứa các
thong tin chi tet về đữ liệu
Cac công cụ truy cap (tool access) giúp sử đụng đữ liệu của kho dữ liệu phục
vụ công việc phản tích, hỗ trợ ra quyết định và cúc câu hỏi truy vấn dữ liệu, tạo báo
cáo
4 8o sánh mô hình phát triển (Developmen‡ Models Compared)
Development Models Compared
Traditional software development
+ Waterfall approach
Requirements specifications j TW
$-] Äfê hình thắc nước (Walerfall}
Sự thay đổi được thực biện dân đân và có tác động ngay từ bước khởi tạo
Đời hồi phải định nghĩa(xác định), tài liệu, và tính ổn định (frazen)
Mỡ hình này gặp một số vấn đề:
'Yêu cầu nghiệp vụ giữ nguyêo trạng thái (ảnh)
Sự ràng buộc về tính ti mi trong phân tích thiết kế làm thời gian kéo dài.
Trang 3938
Có thể dồi hỏi thực hiện trong nhiều năm
Phải lườn dâm bảo sự liên kết giữa yêu cầu hệ thổng với người sự dụng,
4.2, M6 hinh xodn tron 6c (spiral)
Xác định yêu cầu nghiệp vụ
Khởi đầu bằng việc tạo lập hệ thống giả định
Đưa vào thử nghiệm để rút ra các khái niệm (concepl)
‘Tap hợp các yêu cấu và ghỉ nhận rõ những đạc điểm hí tiết
Chức năng khỏi tạo này được thực hiện trong một ngắn
ở mỗi vòng xoáy ốc tiếp theo, các chức năng mới dược phát hiện, các chức
năng đã được phát hiện ở các vòng trước được điều chỉnh lại và cứ như vậy vòng xoáy ốc được tiếp tục
Trang 4039
Như một kho đỡ liệu cục bở được thực hiện, các chức năng liên tục được thực
hiện lập lại, hệ thống hỗ trợ ra quyết định được thực hiện nhanh chóng với các yêu
cầu thường xuyên thay đổi khác nhau
Phương phúp tiếp cận này được xem như một sự khởi đầu n cậy thực hiện kho
dữ liệu đáng trong một thời gian ngắn,
Để thực hiện thành công phương pháp này:
Chúng ta phải có khả năng ghép nối với người dùng cần thiết về những ý định
trình bày một cách rõ ràng, mạch lạc Tập trung vào nghiệp vụ họ cần chứ không tập
trung vào vấn để công nghé
Rõ rằng rằng các vòng lặp tiếp theo có tính chất quan trọng
Rút ra các vấn để từ sự giao tiếp nghiệp vụ với người sử dụng
Lượng hoá trước được các vấn để thách thức trong thiết kế
Mô hình hoá nghiệp vụ
4.3 Các pha rạng phương pháp tiếp cận theo mỏ hình xodn ốc
Pha T: Xác định chiến lược (Strategy)
Tim ca cdc yêu cầu nghiệp vụ, dịnh nghĩa các đối tượng và xác định mọc tiêu Pha 11: Định nghĩa (Definition)
Pham vi va ké hoạch dự án
Pha IH: Phan tich (Analysis)
Cac thông tin yêu cầu được định ngiĩa
Pha JV: Thiết kế (Design)
Thiết kế cấu trúc cơ sở đữ liệu để thu nhận đữ liệu mức chỉ tiết và dữ liệu
mức tổng hợp
Pha V: Xây dựng và làm tài liệu (Buid and document}
Kho dit liệu và tài liệu được xây dựng.