'Vẻ bắn chất, kho dữ liệu hướng vào việc cung cấp một kiến trúc, công cụ để phát triển đít liệu của các hệ thống tác nghiệp thành dữ liệu của hệ thống hỗ trợ quyết định.. Dữ liệu phát si
Trang 1(Giải kế ca od det tiga trong kho dit liga - Data Warehouse tang 7
ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA CÔNG NGHỆ
DANG TH] THU HƯƠNG
THIẾT KẾ CƠ SỞ DỮ LIỆU
CHO KHO DỮ LIỆU DATA WAREHOUSE
CHUYEN NGANH: CONG NGHE THONG TIN
Trang 2(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 2
1.1.1 Định nghĩa kho dữ liệu
1.1.2 Đặc điểm của kho dã liệu
1.1.3 Kho dữ liệu chủ dể
1.14 Sử dụng DW.„
1.1.5 $0 sành kho dữ liệu và bệ thống tác nghiện
1.16 Mục đích xảy dựng kho dữ lieu
1.17 Một số yếu tố cài đặt thành công kho dữ liệ
1.1.8 Giải pháp Kỹ thuật
1.2 Các giải pháp kiến trúc kho đữ liệu
1.3.1 Kiến trúc cơ bản
1.2.2 Kiến trúc kho dữ liệu tổng thể - mức duanh nghiệp
1.2.3 Kiến trúc kho dữ liệu chủ để - Data Man! độc lập
1.3 Các luai dữ cơ hẳn trung khu
CHƯƠNG 2: XÂY DỰNG VÀ QUẢN LÝ KHO DỮ LIỆ
2.1 Mô hình các thành phần kho dữ liệu
2.2 Các nguồn dữ liện
1.3 Tiến trình trích xuất, biến đổi,
2.3.7 Trích xuất dữ lệ
2.3.2 Biến đổi dữ liệu
2.3.3 TẢi dữ liệu vào kho
3.6 Quá trình phát triển kho dữ liệu
CHƯƠNG 3: THIẾT KẾ CƠ SỞ DỮ LIỆU TRONG KHO
3.1 Mô hình dữ liệu trong DW
3.1.1 Gidin đồ hình sao
3.1.2 Gidn dỗ hình tuyết rơi
3.1.3 Giản đồ kết hợp
3.2 Các mô hình thiét ké co s6 dit
3.2.1 M6 hinh dit ligu logic
Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi
Trang 3(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang #
3.5 Thiết kế hiệu suất
3.5.7 Các thách thức đổi với hiệu suất kho dữ liệu
3.5.2 Các giải pháp
3.6 Các loại siêu dữ liệu
CHƯƠNG 4: SỬ DỤNG CÔNG CỤ ORACLE9I XÂY DỤNG KHO DỮ LIỆU
4.1 Giới thiệu một số công cụ Oracle hỗ trợ xây dựng kho dữ liệu
4.2 Các pha phát triển
4.2.1 Xác dink dy dn
4.2.2 Phân tích
4.2.3 Thiết kế,
4.2.4 Xây dựng kho dữ liệu
4.3 Bài toán xây dựng kho dữ liệu kế toán thuế cấp cụ
4.3.7 Phan tích bài toán
Trang 4(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 4
Data Definition Language Data Mart
Decision Support System Data Warehouse
Entity Relationship
Extraction, ‘Lransformation
and Transportation Legacy System Maltidimensional OLAP Massively Parallel Processor Non Uniform Memory Access Online Analytical Processing Online ‘Iransaction Processing Redundance Array Of
Inexpensive Disk Relation OLAP Subject Arca Symmetic MultiProcessor Structured Query Language
Tiếng Việt
Cơ sỡ đữ liệu Ngôn ngữ định nghĩa dữ liệu Kho đữ liệu chú đề
Hệ hỗ trợ quyết định Kho đữ liệu
Quan hệ thực thể
"Trích lạc, biển đổi và truyền tải
Hệ thống kế thừa
Xử lí phân tích trực tuyến da chiều
Bộ xử lý song song khối lớn
Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi
Trang 5(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 5
MO DAU
1 Đặt vấn đề
tHiện nay, việc áp dụng công nghệ thông tin đã mang lại những hiệu quả to
lớn trong mọi lĩnh vực của đời sống xã hội Công nghệ ngày càng phát triển và
hoàn thiện, quy mô ấp dụng duck: md rong Lừ những ứng dụng đơn lẻ đến những,
hệ thống thông tin cỡ lớn Cúc hệ thống thông tin từ chỗ chỉ đáp ứng những yêu
ấu công việc hãng ngầy tiến lới đáp ứng yêu cầu ở mứ: độ cao hon Trong hoại
động sản xuất, kinh doanh luôn cẩn có sự đáp ứng nhanh rhạy, tức thời đối với các thay đổi liên tục của môi trường (lĩnh hình tài chính của doanh nghiệp, các quy định của pháp luật, ‘u khách hàng ) Các nhà quản lý điều hành không
những cần biết điều gì đã xảy ra mà còn cần nấm bắt được xu hướng điễn ra sau
đó, nghĩa là thông tin phải mang tính phân tích và hệ thống thông lin có khả năng,
hỗ trợ quyết định Đối với một tổ chức, để có quyết định đúng đắn cần có khả
năng nhanh chồng truy cập lới tất vả các loại thông tin, nghiên vứu đữ liệu quá
khứ, phân tích nhằm định ra những xu hướng có thế Trong bối cảnh công nghệ
thông tin phát triển, đữ liệu được tập trung trong những cơ sở dữ liệu khổng lở,
nhu cầu truy cập đến lất cả các thông tin là cẩn thiết Tuy nhiên, việc xây dựng hệ
thống thông tin như thế vấp phải một số khó khăn về mặt kỹ thuật, đặc biệt khi kích thước và độ phức tạp tửa môi trường thông tín lăng lên Những hệ thống thông tin xây đựng theo phương pháp truyền thống không làm hài lòng người sử
đụng và người quản lý thông tin
Nhĩmg khó khăn người sử dụng hay gặp:
1, Không thể tìm thấy dữ tiệu cân thiết:
*ˆ Dữ liệu rải rác ở rãi nhiều hệ thống với váu giao diện và công cụ khác
nhau khiến tốn nhiễu thời gian chuyển từ hệ thống này sang hệ thống,
Trang 6(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 6
2 Không thể lấy ra dược để liệu cân thiết:
+“ 'Ihường xuyên phải có chuyên gia trợ giứp, dân đến cóng việc đồn đống
*“ˆ Nhiều loại thong tỉn không thể lấy ra được nếu không mở rộng khả năng làm việc của hệ thống có sau
3 Không thể hiểu dữ liệu tìm thái
Mô tả đữ liệu nghèo nàn và thường không đúng với các thuật ngữ nghiệp
vụ quen thuộc
4 Không thể sử dựng được dữ liệu tìm thấy:
*ˆˆ Kết quả thường không đáp ứng vẻ bản chất đữ liệu và thời gian tìm kiếm
*ˆ Phải dùng phương pháp thủ công chuyển đổi đữ liệu vào môi trường làm việc của người sử dụng
Các vấn để về hệ thống thông tín:
1 Phát triển các chương trình khác nhaw không ảơn giản:
ˆ Một chức năng được thể hiện ở rất nhiển chương trình, nhưng việc tố chức và sử đụng lại chức năng đó lại rất khó khăn đo hạn chế về kỹ thuật
*ˆ Rất khó chuyển đổi đữ liệu từ các khuôn đạng tác nghiệp khác nhau để
phù hợp với người sử dụng
2, Duy trì những chương trình này gặp rất nhiều vấn dé:
v⁄ Thay đổi ở một ứng đụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có
liên quan
+“ Thông thường sự phụ thuộc lẫn nhau giữa các chương trình không rõ rằng,
hoặc không xác định được
¥ Do su phitc tap cha công việc chuyển đổi cũng như toàn bộ quá trình bảo
tr nên mã nguồn của các chương trình trở nẽn hết sức phức tạp
3 Khối lượng dữ liệu hai trữ tăng rất nhanh:
Vì không kiểm sơái được khả năng chồng chéo dữ liệu trong các môi
trường thông tin nên khối lượng dữ liệu tăng nhanh
Trang 7(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 7
4, Quiin trị dữ liệu phúc tap:
v” "Thiếu những định nghĩa chuẩn, thống nhất về đữ liệu dẫn đến mất khả năng kiểm soát môi trường thông tỉn
v/ˆ Một thành phần đữ liệu tồn tại ở nhiều nguồn khác nhau
Giải pháp cho tất cả các vấn để nêu trên là xây dựng một kha dữ liệu
TI Mục tiêu của luận văn
Luận văn nghiên cứu việc xây đựng và quản lý một kho đữ liệu đựa vào
ấu cơ sỡ dữ liệu táu nghiệp đã uố sẩn nhằm đưa ra được các thong tin mang tinh phân tích, hỗ trợ rs quyết định Luận văn tập trung vào việc xây dựng mô hình đữ
liệu và Ihiết kế cơ sở dữ liệu trong kho
.HI Bố cục của luận văn
Ngoài phần mở đầu và kết luận, luận văn bao gồm 4 chương:
Chương 1: Giới thiệu tổng quan về kho dữ liệu, các giải phấp kiến trúc kho đữ liệu và các loại dữ liệu trong kho
Chương 2: Trinh bay mô hình các thành phần kho, lý thuyết về các tiến trình
trích lọc, biến đổi và truyền đữ liệu dế xây dựng kho, các công việc đế quân lý, duy trì kho đữ liệu
Chương 3: Trình bầy các mô hình đữ liện, lý thuyết thiết kế cơ sở dữ liệu, các
phương pháp ước lượng dung lượng của kho và các giải pháp nhằm nâng cao hiệu xuấi kho dữ liệu
Chương 4: Giới thiệu các công cụ của Oracle hỗ trợ việc xây đựng kho đữ Tiệu, sử đụng các công cụ này để thiết kế kho dữ liệu và lạo cá báo cáo phân lich,
tổng hợp trợ giúp ra quyết định
Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi
Trang 8(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 8
CHUGNG 1: TONG QUAN VE KHO DU LIEU
1.1 KHO DỮ LIÊU
1.1.1 Định nghĩa kho dữ liệu
Kho dit ligu (Data warehouse - DW) không phải là một khối niệm mới và
đã được định nghĩa theo rấi nhiều cách, vì vậy khó có thể có một định nghĩa chuẩn xác Theo một nghĩa nào đó, kho đữ liệu được xem như là một co sd dit liệu (CSDL) được duy trì riêng biệt từ nhiều nguồn CSDL tấc nghiệp khác nhau,
hỗ trợ phân tích trên cơ sở các dữ liệu lịch sử và các công cụ uy vấn dữ liệu manb Bill Inmon, người được xem như là kiến trúc sư đầu tiên xây dựng kho dữ
liệu đã định nghĩa: Kho dữ liệu DW là tập lưựp dữ liệu hướng chủ để, được tich
hợp, gắn với thời gian, không thay đổi nhằm bỗ trợ quá trình ra quyết định của nhà quần tý” |8]
'Vẻ bắn chất, kho dữ liệu hướng vào việc cung cấp một kiến trúc, công cụ
để phát triển đít liệu của các hệ thống tác nghiệp thành dữ liệu của hệ thống hỗ
trợ quyết định Dữ liệu phát sinh từ các hoạt động hàng ngày và dược thu thập xử
lí để nhục vụ công việc nghiệp vụ cụ thể của một lổ chức thường được gụi là đữ
liện tác nghiệp (Operational Data) Các hoạt động thu thập xử lí đữ liệu tác nghiệp được gọi là xử lí giao địch trực tuyến (Online Transaction Processing - QLIP) Trái lại, kho dữ liện phục vụ cho việc phân tích với kết quả mang tính
thông tìn cao Cúc hệ thống thông tỉn thu thập xử lï dữ liệu loại này còn gọi là xử
li phân tích try tuyén (Online Analytical Processing - OLAP)
DW được thiết kế để quản lí đữ liệu, cung cấp cho những ứng dụng yêu
vầu một khối lượng dữ liệu lớn quy mô doanh nghiệp DW là thể hiện vật lí va
mô hình hỗ trợ quyết định đạng quan hệ (Relational) hoặc đa chiều
(Multidimentional), cung cấp cho đuanh nghiệp những thông tin mà họ cần để
đưa ra các quyết sách chiến lược
1.1.2 Đặc điểm của kho di?
Chỉ với cụm từ ngắn gọn: hướng chủ để, được tích hợp, gắn với thời gian, không thay đổi, định nghĩa trên đã nêu các đặc trưng cơ bản nhất vủa kho dữ liệu,
Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi
Trang 9Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse Trang 9
phục vụ mục đích phân tích và hỗ trợ quyết định Đây là những chức năng phức
tạp nên cần cân nhắc nhiều khía cạnh, tiêu chuẩn và sự chọn lựa khác nhau Dữ
liệu trong DW cẩn được tích hợp theo cách để có thể thực hiện công việc này
một cách tốt nhất, đó là phương thức tập hợp dữ liệu hướng chủ đẻ Vì vậy, không phải toàn bộ các thông tin từ cơ sở dữ liệu tác nghiệp đều được đưa vào
kho dữ liệu mà phải chọn lọc theo những chủ để thích hợp chứa thông tin cần
thiết phục vụ trợ giúp quyết định
Một kho dữ liệu được xây dựng bằng việc tích hợp nhiều nguồn dữ liệu,
lưu trữ trong một cấu trúc thống nhất, toàn vẹn trong việc đặt tên, đơn vị đo, cấu
trúc mã hoá, các thuộc tính vật lý [8J Thông thường, dữ liệu trong DW được
tích hợp từ nhiều nên tảng hệ quản trị dữ liệu khác nhau thành một hệ hợp nhất
'Với một hệ thống tác nghiệp, điều này khó có thể thực hiện được Đặc điểm tích
hợp tổng thể làm cho kho dữ liệu cung cấp thông tin nhất quán và có nghĩa Chính điều này làm cho dư thừa dữ liệu trong kho là tối thiểu nhưng quá trình tích
Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi
Trang 10Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 10
hợp cũng chiếm chỉ phí và thời gian nhiều nhất, khoảng hơn 50% các hoạt động phát triển kho dữ liệu [8]
"Hạ tức ghigp io dia IPEESSTSAA Mr.J Smiih
asm Jce Srritl:
Joseph ——e Mir 4 Smith
3 Dữ liệu gắn với thời gian
Dữ liệu trong kho được lưu trữ trong thời gian rất lâu, cỡ vài năm đến vài
chục năm và được cập nhật định kì [8] Các hệ tác nghiệp thường bao quát dữ liệu
trong một khoảng thời gian không lớn và lưu trữ dữ liệu theo chu kỳ Ngược lại,
kho dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử Bản thân DW là một tập các "ảnh chụp nhanh" (snap-short) trạng thái của doanh nghiệp tại các thời điểm
khác nhau Điều này cho phép khôi phục lại lịch sử và so sánh một cách chính xác
các giai đoạn khác nhau, hỗ trợ việc định ra phương hướng và công tác dự báo cho tương lai Vì thế, thuộc tính thời gian được ngầm hiểu trong DW như là một thuộc
tính bắt buộc Thời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn
nhất của các bản ghỉ và cung cấp đặc trưng về thời gian cho dữ liệu,
Nội dung khoá | Không chứa yếu tốthời gian | Chứa yếu tố thời gian
Hình 1 3 Dữ liệu trong DW gắn với thời gian
4 Tính không thay đổi
Dữ liệu DW là loại chỉ đọc, dữ liệu được nạp vào một lần từ các CSDL tác nghiệp nhằm mục đích phục vụ truy vấn thông tin [8] Thông thường, việc thay đổi dữ liệu đã có chỉ được thực hiện rất hạn chế khi có lỗi Nhờ vậy, tốc độ tổng hợp dữ liệu tăng lên một cách đáng kể, kết quả trả lại khi thực hiện công việc
Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi
Trang 11Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 77
phân tích của tuần này cũng giống kết quả của tuần trước Việc cập nhật, sửa đổi
dữ liệu chỉ được phép thực hiện trên CSDL tác nghiệp Dữ liệu được lưu trữ lâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nạp vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích,
dự báo Các kỹ thuật liên quan tới phục hồi dữ liệu, đảm bảo toàn vẹn tham chiếu, phát hiện và giải quyết tắc nghẽn thường không cần thiết
một chuyên ngành cụ thể DM là một kho dữ liệu thứ cấp chứa các dữ liệu tích
hợp của DW, hướng tới phần dữ liệu thường được gọi là một vùng chủ đẻ (Subject
Area - SA) được tạo ra dành cho một nhóm người sử dụng [9]
Dữ liệu trong DM cho thông tin vẻ một chủ để xác định, không phải của
toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức Thông thường,
DM là một kho dữ liệu riêng được lưu trữ vật lí trên một máy chủ riêng, trong
một mạng cục bộ phục vụ cho một nhóm người nhất định
Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi
Trang 12Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 12
2 Phan loại DM:
Có hai loại DM sau:
*⁄ DM phụ thuộc: chứa dữ liệu được lấy từ DW và dữ liệu này sẽ được trích lọc và tỉnh chế, tích hợp lại ở mức cao hơn cho một chủ để nhất định
¥ DM doc lap: được xây dựng trước DW và dữ liệu được lấy trực tiếp từ các nguồn tác nghiệp Phương pháp này đơn giản hơn và chỉ phí thấp hơn nhưng mỗi DM độc lập có cách tích hợp riêng, do đó dữ liệu từ nhiều
Khai thác các thông tin bằng các công cụ truy vấn và báo cáo Nhờ
có việc trích lọc, tích hợp và chuyển đổi các dữ liệu thô sang dạng các
dữ liệu chất lượng cao và có tính ổn định, DW đã giúp cho việc nâng cao các kỹ thuật biểu diễn thông tin truyền thống (hỏi đáp và báo cáo) Bằng cách tạo ra các tầng ẩn giữa người dùng và cơ sở dữ liệu, các dữ liệu đầu vào của kỹ thuật này được đặt vào một nguồn duy nhất Việc
hợp nhất này loại bỏ được nhiều lỗi sinh ra do việc phải thu thập và
biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt
được sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở
dữ liệu khác nhau, giúp cho người dùng tránh được những câu lệnh SQL phức tạp Tuy nhiên, đây mới chỉ là cách khai thác với kỹ thuật
cao để đưa ra các dữ liệu tỉnh và chính xác hơn chứ chưa phải dữ liệu
Trang 13(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 13
YH ug phan tfch trực tuyển (OLAP3:
Nếu ngôn ngữ truy vấn chuẩn SQL và các công cụ làm báo cáo
truyền thống chỉ có thể miêu tả những gì có trong cơ sở đữ liệu thì
phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết là đúng hay sai Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra được các giả thuyết Do kích thước quá lớn và có tính chất phức tạp, khó có thể sử dụng DW cho những mục đích như dưa ra các giả thuyết, các thông n mà chương uình ứng đụng có thể cung
cấp
*⁄ Công nghệ khai phá đữ liệu (DData Mining):
"Trước đây, kỹ thuật học máy thường được sử đụng để im ra các giá
thuyết lừ những thông lin thu thập được Tuy nhiên, (hự nghiệm cho thấy kỹ thuật này không hiệu quả khi áp đụng với các tập đữ liệu lớn trung DW Phương pháp thống kê luy ra đời lâu nhưng cũng không phù hợp với sự phát triển của dữ liện Đây chính là lý đo mà một khối lượng, lớn đữ liệu vẫn chưa được khai thác và thậm chí được lưu chủ yếu trong, cầu khơ dữ liệu không Irực Luyến (offline) Điều này đã to (hành một
lỗ hổng lớn trong việc hỗ trợ phân tích, tìm hiểu đữ liệu, tạo ra khoảng cáh giữa việc tạo dữ liệu và khai thác đữ liệu đó Trong khi đó, càng, ngày người ta càng nhận thấy nếu được phan tich thong minh thi dé
liệu sẽ là nguồn tài nguyên quý giá trong cạnh tranh trên thương
trường Giới tin học đã đáp lại những thách thức trong thực tiễn cũng,
như trong nghiên cứu khoa hợc bằng cách đưa ra một phương pháp mới đấp ứng nhu cần trong khoa học và trong hoạt động thực tiễn
Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi
Trang 14(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 14
1.15 So sfnh kho dit ligu và hệ thing tac nghiệp
Định tướng Giao dịch, tác nghiệp Phân tích
Rich thane CSD Ci Gigabyte Ca Gigabyte dén Terabyte
Nguồn dữ liệu Nội bộ Ben trong và bên ngoài
Kha nang cập nhật Có thể cập nhật được Không cập nhật được
Nội dung khoá Không chứa yếu tổ thời gian | Chứa yếu tố thời gian
Mang tính hiện thời, cập nhật | DH liệu có tỉnh lịch sử, đuy trì
Dữ liệu lưu trữ
hồng ngày theo khoảng thời gian
Khối lượng công việc | Có thể dự đoán được Không dự đoán được
Hỗ trợ người đùng — | Thaotác và báo cáo Phân tích, dự báo và khai phá
Kếtnối Cân nhiều kết nối Cấn rất it kết nối
Chức năng, Phục vụ hoạt động hàng ngày | Hỗ trợ quyết định
ian yw ten Higu sudt cav, o6 tinh sim | Tinh mém dév cay, ngudi ding
Độ do Thông lượng giao dịch “Thông lượng truy vấn
Người đùng Người đăng cuối Quản lý, điển hành, nhân tích
HìnhT 6 Bằng so sánh những đặc trưng của hệ tác nghiép va DW [8]
Tren cơ sở các đặc trunp của DW, có thể phân biệt DW với hệ tác nghiệp
truyền thống trên nhiều phương điện [8], [10]:
¥ Kho dif ligu DW được xây dựng hướng chủ đẻ, được tổ chức và thực hiện theo mu: đích của người sử dụng cuối trong khi hầu hết các hệ CSDL tác nghiệp tổ chức đữ liệu từ khung nhìn của các ứng dụng sao cho ứng đụng truy cập được dữ liệu một cách hiệu quả nhất
*ˆ Kho đữ liệu DW quan If một khổi lượng lớn thông tin và được lưu ot trên nhiều phương tiện luu trữ và xử lí khác nhau Các kho đữ liệu chứa một khối lượng lớn các dữ liệu lịch sứ, còn cơ sỡ đữ liệu tác nghiệp lại loại bỏ những đữ liệu đó nên những cơ sở dữ liệu tác nghiệp thường quản lí lượng thông tỉn vừa và nhỏ Quản li khối lượng thong tin cue lớn là một đặu thù của kho dữ liệu
*ˆ Kho dữ liệu có thể ghép nối các phiên bản khác nhau của giản đồ cơ sở
Trang 15(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 15
đữ liệu DW lưu tữ và quản lý các thông tỉn quá khứ thể hiện ở nhiều
thời điểm khác nhau bởi nhiều phiên bản khác nhau thành những thông, tin đễ hiểu hơn đối với người sử đụng
*ˆ Kho dữ liệu tích hợp và kết nổi thông tin từ nhiễu nguồn khác nhau trên nhiều loại phương tiện lưu trữ vã xử lí thông lin nhằm phục vụ cho
những ứng đụng xử lí tác nghiệp trực tuyến
' Kho dữ liệu có thể lưu trữ các thông tỉn tổng hợp theo một chủ đẻ nghiệp vụ nào đó nhằm lạo ra uác thông tin phục vụ hiệu quả cho việc phân tích của người sử đụng
1.1.6 Mục đích xây đựng kho đữ liệu
'Mục đích cơ bản của việc xây dựng DW là lạo thuận lợi tối đa khí xem xói
đữ liệu với mục đích phân tích kinh doanh và ra quyết định (hay vì mục tiêu kỹ
thuật Việc xây đựng kho dữ liệu nhằm giải quyết những vấn đẻ cơ bán sau:
¥ Tich hợp dit liệu và các siêu đữ liệu từ nhiều nguồn dữ liệu thành một
nguồn mang tính logic đuy nhất nhằm cung cấp thông tỉn mẻm đềo từ các nguồn khác nhau và thoã mãn nhu cẩu của nhiễu loại người đùng khác nhau
¥ Nang cao chất lượng đữ liệu bằng các phương pháp làm sạch và tỉnh lọc đữ liệu theo những hướng chủ đề nhất định nên đữ liệu rõ rằng, thống nhất
hơn
+“ Đồng bộ hoá các nguồn dữ liệu với DW
¥ Phan dinh và đồng nhất các hệ quản trị cơ sở đữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW
*⁄ˆ Dũng trong các hệ hỗ trợ quyết định (Decixion support xystem - DSS), các
hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt
'Vì những uu điểm nổi bật và cá thể đán ứng được nhiều yêu cầu trong khai thác (hông tin nên nhiều tổ chức có nhu cầu xây đựng kho dữ liệu Theo số liệu thống kê của hãng Oracle [R], các đoanh nghiệp xây đựng kho đữ liệu vì các lý
Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi
Trang 16Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse Trang 16
do sau: Chết lượng dữ liệu tot om —ễễðE“
"Dữ liêu cạnh tranh têt ễää ^^
"Truy úbâp trực tiep 32%
Hình1.7 Lý do xáy dựng DW
1.1.7 Một số yếu tố cai dat thành công kho dữ liệu
Để thực hiện thành công một kho dữ liệu cần chú ý đến các yếu tổ sau [8]:
Y Trao quyền cho người sử dụng,
Kho dữ liệu cho phép người dùng khai thác những thông tin mà họ
cần để tạo ra quyết định Sự phát triển của kho cũng đồng nghĩa với
việc cung cấp cho người dùng những thông tỉn ngày càng chính xác,
hữu ích
* Khai thác dữ liệu đã có
C6 nhiều dữ liệu có thể đưa ra câu trả lời cho các câu hỏi nghiệp vụ
Cần tận đụng mọi dữ liệu để phân tích, cung cấp thông tỉn hữu ích cho
người dùng
⁄ Tính linh hoạt của các công cụ
Kho dữ liệu cần dùng các công cụ có thể truy nhập phù hợp với tất
cả dữ liệu trong kho
*⁄ˆ Các hoạt động hỗ trợ được dùng để chuyển từ các phòng hệ thống
thông tin vào các phòng thông tin riêng biệt và các nhóm
1.1.8 Giải pháp kỹ thuật
Khi các tổ chức, doanh nghiệp có nhu cầu xây dựng một DW, cần có sẵn
số kỹ thuật đã được cài đặt để hỗ trợ với chỉ phí tương đối thấp:
Trang 17(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 17
việc đổi mới gần đây trong công nghiệp tính toán đã làm cho phần
cứng và nhần mềm mang lại lợi fch nhiều hơn Cũ thể lựa chụn các môi trường phần cứng nh SMP, MPP, NUMA hay cụm
v Nhécung cép CSDL
Nhiều nhà cung cấp cơ sở dữ liệu đang cố gắng tập trung đưa ra các
phương tiện quản lý cơ sở dữ liệu nhằm hỗ trợ cấc đặc trưng sau:
va Cau tric co sé dữ liệu rất lớn
œ_ Thực hiện các Iruy vấn lrong kho dữ liệu có cấu trúc hình sau
sa Các kỹ thuật tối ưu truy vấn dữ liệu nhanh
«_ Các kỹ thuật và chiến lược phân hoạch ở mức cao nhằm làm cho
việc quản lý và truy nhập dé dang
vˆ Kỹ thuật cơ sở dữ liệu quan hệ:
Hầu hết các kho đều thực hiện đựa trên hệ quản trị cơ sở đữ liệu quan hé nhu Oracle server
` Các công cụ truy nhập và truy vấn dữ liệu:
Các nhà cung cấp cũng đưa ra nhiều công cụ truy nhập đữ liệu khác
nhau hỗ trợ nhiều loại người dùng khá nhau với các yêu cẩu truy vấn phức tạp
v' Đội dự án
Có thể nói con người là một nhân tố quyết định sự thành công của
kho dữ liệu Một đội ngũ cho dự án kho dữ liệu không thể thiếu các thành viên sau:
œ_ Người thiết kế cơ sở đữ liệu
œ_ Người quản trị cơ sở đữ liệu
Trang 18Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse Trang 18
1.2 CÁC GIẢI PHÁP KIẾN TRÚC KHO DỮ LIỆU
1.2.1 Kiến trúc cơ bản
Dựa trên ý tưởng thiết kế một kho dữ liệu thống nhất để phục vụ truy vấn,
kiến trúc cơ bản của DW rất đơn giản [8]:
Hình L8 Kiến trúc cơ bản của kho dữ liệu
v Lớp nguồn:
Dữ liệu được đưa vào DW từ rất nhiều nguồn khác nhau Đây là
một trong những đặc điểm chính của DW Dữ liệu nguồn có thể có sẩn
trong hệ thống tác nghiệp của doanh nghiệp hoặc lấy từ nguồn bên
ngoài
Y Lop Warehouse:
Lớp này chứa dựng dữ liệu đã được tổng hợp cùng siêu dữ liệu mô
tả chúng cũng như các tiến trình tổng hợp, phân bổ dữ liệu Hai thành phần quan trọng nhất của lớp warehouse là dữ liệu và siêu dữ liệu
Chúng được lưu trữ và mô tả một cách nhất quán vẻ nội dung (ý nghĩa
dữ liệu) cũng như hình thức (khuôn dạng dữ liệu)
Y Lép img dung:
Làm nhiệm vụ tương tác với người dùng cuối Một trong những đặc
điểm quan trọng của DW là cung cấp thông tỉn cho rất nhiều người sử
dụng với những yêu cầu không thể dự đoán trước Vì vậy, lớp người
dùng thường có cấu trúc phức tạp Hơn nữa, người dùng ở đây có thể sử
dụng nhiều công cụ khai thác và truy xuất dữ liệu khác nhau nên giao
diện giữa lớp Warehouse và người dùng cũng đa dạng
Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi
Trang 19tMiei kế ca sỗ dự Hạn trong kho dit lign- Data Warehouse thang 70
1.2.2 Kiến trúc kho dữ liệu tổng thể - mức doanh nghiệp
Kho dữ liệu mức doanh nghiệp là một kho rất lớn chứa toàn bộ dữ liệu nghiệp vụ, được hợp nhất từ tất cả các hệ thống tác nghiệp và các nguồn dữ liệu ngoài có liên quan [8 |
Tguộu dư liệu Rhodtt Liệu Người sử duce
Hinh 1.9 Kho dữ liệu kiến trúc tổng thể,
Với kiến trúc khơ dữ liệu tập trung này có một số ưu điểm như đữ liệu
được lưu trữ tỉ một nơi nên độ ún cậy, chính xác của đữ liệu tang Mọi chủ để
déu được xem xét, đưa vào để phục vụ cho toàn đoanh nghiệp Tuy nhiên, hạn chế của kiến trúc này là cấu trúc CSDL có thể phải điều chỉnh nhiều cho tất cả các
hoạt động vì thiết kế có thể không tối wm cho một chức năng nào đó Tính sẩn
sàng bị giảm đo rỗi ro, sự cố dữ liệu hoặc bị ngưng trẻ để cập nhật đữ liệu Các
thay đổi hoặc cải thiện dĩ liệu buộc phải có sự đồng ý của toàn bộ doanh nghiệp
1.1.3 Kiến trúc kho dữ liệu chủ đề - Datamart độc lập
Việc xây dựng kho đữ liệu tổng thể - mức doanh nghiệp thường không dễ dàng Các yêu cầu côi đặi, thiết kế mô hình dữ liệu, lựa chọn và trích xuất dữ Tiệu
từ nhiêu nguồn, tích hợp, nạp dữ liệu và duy trì kho dữ liện, các công cụ truy vấn
dữ liệu đài hỗi thời gian và tiền của rất nhiều Ý tưởng “bát đầu nhỏ” với kho dữ
liệu, có thể ít rủi ro và khả thi hơn Đó là giải pháp DM độc lập — kho dữ liệu
“nhổ” |8
Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi
Trang 20Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 20
Tuy nhiên, với dự án DM cần phải có kế hoạch nhân rộng các DM khác
theo thứ tự và tính đến các kiểu tích hợp chúng trong mô hình tổng thể Cần cân nhắc tới trình độ của đối tượng sử dụng, những vấn đẻ có thể nảy sinh do sự khác
nhau về kỹ thuật hay phân bố địa lý trong tổ chức khi lựa chọn giải pháp xây
dựng kho đữ liệu chủ đẻ
Các thành phần cần xem xét đảm bảo kiến trúc tổng thể như:
Mô hình dữ liệu chung
⁄ Các công cụ trích xuất dữ liệu
ˆ Các công cụ chuyển đổi
ˆ Các tiến trình
' Kho chứa dữ liệu
ˆ Các công cụ OLAP
1.3 CÁC LOẠI DỮ LIỆU CƠ BẢN TRONG KHO
“Trong kho dữ liệu chứa các loại dữ liệu cơ bản sau [9]:
1.3.1 Dữ liệu sự kiện
Dữ liệu sự kiện chứa các kích thước dữ liệu, các độ đo nghiệp vụ cần thiết
cho việc phân tích
Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi
Trang 21(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 24
1.3.2 Dữ liệu chiều
'Việc xem xét thiết kế các chiều là rất quan trọng bởi vì các chiều chứa đữ
Tiệu chỉ tiêu phân lích truy van Cáu chiều chứa uắc cột giá trị khoá kết nối với các
bằng sự kiện
1.3.3 Dữ liệu tham khẩn
Được (6 chức thành những thông tin dạng văn hẳn có thể ñm kiếm, trợ
giúp những người khai thác kho dữ liện, các đữ liệu này có tác dụng làm giám
kích cỡ kho dữ liệu
1.3.4 Dữ liệu tổng hợp
Dt liu tng hop là những đữ liện sự kiện đã được tổng kết có thể cung cấp
câu trá lời ngay tức khấc cho những yêu câu về đữ liệu tổng hợp từ các chiều kết
hợp với nhau Dữ liệu lổng hợp được lưu trữ trong kho Đá là những dỡ liệu số
được tính toán trước một cách đơn giản như tổng lượng hàng đã bán, có thể được tĩnh toán trước the c
hiểu nghiệp vụ như vùng, người bán, theo tháng hoặc năm I3fï liệu loại này thường được tạo trên máy chủ chứa kho dữ liệu san khi đữ liệu ch tiết được nạp
ID liệu tổng hợp cố các mức san:
+“ Mức thần: lấy từ dữ liệu sự kiện, lưu trữ theo thồi gian
ˆ Mức cao: lấy th các đữ liện đã được tổng hợp I3# liệu tổng hợp ở mức cao thường được tạo bởi những dữ liệu lịch sử
ác hãng lổng hợp trung kho rất quan trọng, đảm bảo cho việc thực hiện
các truy vấn có chất lượng cao, là một trong các nhân tố quan trọng trong việc duy trì và cải thiện hiệu suất Một kho có thể chứa hàng trăm bảng tổng hợp, một bảng này cớ thể chứa mọi kết nối khí thực hiện truy vấn Cấu hảng tổng hợp thường đùng một phần đữ liện chiều
L-3.5 Siêu dữ liệu
"Trong việu tổ chức kho dữ liệu, không những người đùng cuối mã ngay cả
những nhân viên quần trị cũng cẩn truy nhập vào toàn bộ thông 6n trong các bằng, các đổi tượng cũng như cấu thuộc lính Họ muốn được biết một xổ vấn đề
như:
Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi
Trang 22(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 22
C6 thể tìm thấy dữ liệu ở đâu?
'Tồn tại những loại thông tin, đữ liệu nào?
Tự liệu thuộc loại nào, có dạng ra sao?
SANS Dữ liệu liên quan với nhau như thế nào khí có các cơ sở dữ liệu
khác nhau?
+“ Dữ liệu được lấy từ đâu, ai quản lý?
Vi vậy, uõ một dạng dữ liệu khác gụi là siêu dữ liệu nhằm mnô lả ý nghĩa
của dữ liệu, cấu trúc nội dung của cơ sở đữ liệu chính Siêu đữ liệu được định nghĩa như sau [Z2], [7], [9]:
" Siêu dữ liệu là dữ liệu mô tả cấu trúc và ý nghĩa của dữ liệu trong kho
dữ liệu, nhằm định rõ dữ liệu này duoc tao ra, ray nhập và sử dụng như thế nào.”
Trang 23Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 23
CHƯƠNG 2: XÂY DỰNG VÀ QUẢN LÝ KHO DỮ LIỆU
2.1 MÔ HÌNH CÁC THÀNH PHẦN KHO DỮ LIÊU
Neue datine _ KhodEea pee sử đụng
Bao gồm các dữ liệu của CDSL trong và ngoài hệ thống và rất phong phú
vẻ chủng loại Các CSDL nằm trong hệ thống được gọi là các hệ thống nguồn hoặc các hệ thống kế thừa [1]
v Hệ thống kể thừa (Legacy system - LS): là hệ thống tác nghiệp hỗ trợ
kinh doanh Hệ thống này được phát triển nhờ sử dụng các công nghệ có sẵn và vẫn đang phù hợp với các nhu cầu của kinh doanh, có thể được thực hiện trong nhiều năm và có thể không có hoặc có rất ít tài liệu kỹ thuật đi
kèm
Dữ liệu ngoài: là dữ liệu không nằm trong các hệ thống tác nghiệp của
công ty, gồm những dữ liệu do người sử dụng cuối yêu cầu để điển vào bức tranh tổng thể các nhu cầu kinh doanh của họ
Trang 24(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 24
Công là một đữ liện nhưng lại có tên khác nhau, hoặc thuộc các hệ thống,
đo lường khẩc nhau
Cuối tùng, các nguồn đữ liệu cẩn được đánh giá và các định nghĩa uấn được đưa vào siêu đữ liệu nhằm:
øœ Xfo định uắc nguồn khác nhau, uấc cấu trúc lïle khác nhau, các nên tăng khác nhau
ø Hiểu được đữ liệu nào có trong các hệ thống nguồn dang vin tai, cdc định nghĩa nghiệp vụ cũa dữ liệu và các ràng buộc nghiệp vụ dối với dữ Tiệu
o> Phat hign sự giao nhau về thông tin cha các hệ thống khẩu nhau
«œ_ Quyết định đữ liệu tốt nhất trong các hệ thống: Mỗi hệ thống cần được đánh giá để quyết định hệ thống nào có đữ liệu rõ ràng và chính xấu hơn
Nguồn cung cấp dữ liệu chú yếu cho DW là nguồn đữ liệu tác nghiệp Vì
vậy, việc xác định dữ liệu nguồn cũng đồng nghĩa với việc nghiên cứu, tìm hiểư nguồn đữ liệu tác nghiệp đã có sẵn Xác định dữ liệu nguôn còn bao gồm việc trích dữ liệu từ nguồn chuyển chúng vào đích Trong giai đoạn này cần cân nhấc
‘Lam thé nae để ánh x được dữ liệu từ nguồn đến đích chính xác?
Để dữ liệu có chất lượng thĩ tiến trình lam sạch cần thực hiện những công, việc gì?
Giải quyết vấn để xung đột dữ liệu như thế nàu?
Trang 25Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 25
2.3 TIẾN TRÌNH TRÍCH XUẤT, BIẾN ĐỔI TẢI DỮ LIỆU VÀO KHO
Kho cần những dữ liệu chất lượng cao đã được làm sạch và tích hợp từ nhiều nguồn khác nhau Để làm được điều đó, sau khi trích lọc, dữ liệu phải trải qua quá trình biến đổi trước khi chuyển vào kho Các quá trình này thường gọi là tríh xuất, biến đổi và truyền tdi (Extraction, transformation, and
transportation- ETT) [8], [9] [13]
TREhE€ ¡ Ý Đưa đối
v
olay gute
Hình 2.2 Tiến trình ETT
2.3.1 Trích xuất dữ liệu
Trích xuất dữ liệu là một thao tác lấy các dữ liệu đã được xác định trước ra
khởi các hệ thống tác nghiệp và các nguồn dữ liệu ngoài Việc trích lấy dữ liệu nguồn có thể được thực hiện theo các phương thức: đọc nguồn một cách trực tiếp,
đọc một ảnh (image) của nguồn hoac doc bang (log tape)
Các kỹ thuật trích xuất dĩ liệu:
v⁄_ Viết các chương trình bằng các ngôn ngữ thủ tục như PL/SQL hoặc
các tiện ích cho phép chuyển dữ liệu thành dạng có thể mang đi
được
v Sử dụng các công cụ đặc biệt như Gateways, các connect driver
để truy nhập các cơ sở dữ liệu không cùng hệ quản trị
Các vấn để xung quanh việc trích lấy dữ liệu bao gốm: cơ cấu định kỳ thời gian trích dữ liệu, dữ liệu và hiệu quả của việc trích lấy dữ liệu
Với mợi phương thức trích chọn dữ liệu, siêu dữ liệu luôn đóng vai trò
quan trọng trong quá trình xử lí Siêu dữ liệu mẫu bao gồm các phần: các định
nghĩa của hệ thống nguồn, các khuôn dạng vật lí, phương thức và bản liệt kẽ quá
Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi
Trang 26(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 26
trình trích lấy dữ liệu Có thể đùng các công cụ hoặc tạo tài liệu thủ công để thu được xiêu dữ liệu
2.3.2 Biến đối dữ liệu
'Tiến trình này sử đụng đữ liệu đã trích xuất để làm sạch, tích hợp, biến đổi nhằm mục đích thu được dữ liệu chất lượng cao hơn
Các công việc biếu đổi dữ liệu bao gém:
+“ Loại bỏ dữ liệu không mong muốn
v“ Định đạng nhất quán các dữ liệu khác nhau vẻ độ đo, khoảng thời
gian hay phương thức mã hoá
*⁄ Biến đổi vác quan hệ và các độ đo, chẳng hạn dữ liệu ở chô này cho thông tin về ngày sinh nhưng chỗ khác lại cho thông tin về tuổi
v⁄ Gắn các nhãn thời gian cho dữ liệu
Chúng ta cần nhận đạng cáu quy tắc biến đổi cho mỗi trường đữ liệu để
tích hgp dữ liệu vàu kho và nên cá các quy lắc mã hoá cấu ngoại lệ để giải quyết
những trường hợp không mong muốn, chẳng hạn như một trường trống
Vấn đề làm sạch đữ liệu:
Làm sạch dữ liệu là vấn để liêu tốn nhiều thời gian nhất trong toàn bộ dự
án xây dựng I2W Theo ước lượng, công việc này tiêu tốn khoảng 60% thời gian thực biện đự án [1] Cũng rất khó xác dịnh một cách chính xác công việc này tốn bao nhiêu thời gian và khí nào thì kết thúc
Làm sạch hoặc tình lọc đữ liệu liên quan đến việc đảm bảo định dạng nhất quần và cách sử dụng một trường hay một nhớm các trường liên quan Làm sạch
và tỉnh lọc được đùng ở đây như là các khái niệm có thể đổi cho nhan được, cùng,
để cập đến các biển đổi dữ liệu phức Lạp hơm các phép hiến đổi đơn giản, ở đó nội dung thực sự của trường hoặc nhóm các trường được quan tâm nhiễu hơn là định đạng lưu trữ Ví đụ: định dạng đúng thông tn vẻ địa chỉ Làm sạch và kiểm tra
những giá trị hợp lệ trong một trường chỉ tiết, sắp xếp danh sách kiểm tra hoặc
lựa chọn từ một danh sách liệt kê Tiến trình này thực hiện các công việc như: cấu
trúc lại các bản ghi, chuyển khuôn dạng, dơn vị của các trường chu nhất quấn,
Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi
Trang 27(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 27
loại bỏ hoặc đánh đấu dữ liệu có lỗi, chuyển giao các mối quan hệ về đữ liệu (ví
dụ quan hệ giữa số Luổi và năm sinh)
làm sạch đữ liệu là một chu trình kín và lặp đi lặp lại như hình vẽ vì quá trình tìm hiểu, khám phá chỉ có thể thực hiện được khi DW đã đi vào hoạt động
và cần thự: hiện liên tục Tiếp xau tiến trình khẩm phá là tiến trình phân luại các lỗi, sau đó phải ghỉ nhận và làm tài liệu về chúng Chu trình này có thể áp đụng
được cho tất cä các cha dé wong DW
i
co
ban ren
đơn giân đến những dữ liệu võ cùng phức tạp Các phép biến dởi dữ liện có thể
xảy ra bên trong cơ sở dữ liệu nhưng thông thường ở bên nguài cơ sở dữ liệu
Kỹ thuật biến dối dữ liệu:
Các kỹ thuật ở đây phù hợp với phần lớn các yêu cầu biến đổi trong thế giối thực Trong phần này đưa ra những kỹ thuật nền tầng vó thể ứng dụng vào việc thục hiện các phép biến đổi Một mong những công việc cơ bản của kho đữ liệu trích lấy dữ liệu từ hệ tác nghiệp và các nguồn khác, sau đó biến đổi hoặc làm sạch trước khi nạp vào kho I3W Mục tiêu cña việc biến đổi đữ liệu trong môi trường DW là cải tiến chất lượng dữ liện trong kho và cải thiện sự tiện lợi của đữ liệu trong kho
“trong một số trường hợp, quá trình này được gọi là tiến đổi, trong trường hợp khác lại gọi là làm sạch đữ liện, một vài công ty gọi là tiến mình S/T/I
Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi
Trang 28(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 23
(Scrubbing- lim sgch, Transformation- biến đổi, Integration tich hgp) Da tén 1a
gì thì quá trình này vẫn quyết định xự thành công và đấm bảo chất lượng đữ liệu trong DW Biến đổi đữ liệu là công việc có ý nghĩa hơn việc thay đổi cấu trúc đữ liệu đơn thuần khi chuyển dữ liệu vào kho Thực tế, phép biển đổi tốt sẽ cải tiến chất lượng và khả năng sử dụng của dữ liệu
Trang 29tMiei kế ca sỗ dự Hạn trong kho dit lign- Data Warehouse Trang 29
Các phép biến đổi dã liệu cơ sở [6]:
Mỗi kiếu biến dổi đữ liệu có những đặc trưng riêng:
vˆ Biến đổi đơn giản:
Các phép biến đổi đơn giản là cơ sở của tất cả các phép biến đổi khác, được làm thủ công và chỉ tập rung vào một trường tại một thời điểm mà không quan tâm đến phạm vì thuộc tính đó liên quan Chẳng hạn, thay đổi
kiểu đữ liệu của một trường hay thay thế giá trị đã mã hoá của một trường, bằng giá Irị đã giải mã hoặu thay đổi định dạng thời gian Khí thiết kế và
xây đựng hệ tác nghiệp người ta thường ít chú ý đến việc tình bày các
định đạng thời gian nhất quán qua các ứng dụng Một trong những vĩ dụ
điển hình nhất là “sự cố năm 2000” mà chúng r đã phải đối mặt
ˆ Tích hợp:
'Tích hợp là tiến trình đưa đữ liệu tác nghiệp từ một hoặc nhiều nguồn
và ánh xạ chứng theo từng trường vào một cấu trúc đữ liệu mới trong DW
vˆ Tập hợp dữ liệu:
'Lập hợp đữ liệu là cáo phương thức đưa các đữ liệu tìm thấy trong môi trường tác nghiệp vào môi trường DW Trong một số trường hợp, dữ liệu được lận hợp, lưu trữ trương DW không chỉ tiết như trong mới trường lất nghiệp Trong trường hợp khác, việc tập hợp đữ liệu nhằm tạo kho dữ liệu
cục bộ chứa các phiên bản hợp nhất của dĩ liệu chỉ tiết có trong DW
'Iất cả các phép biến đổi đữ liệu kể trên đến phải đảm bảo thông tin trong
DW có chất lượng cao nhất và hữu ích nhất Nhiều tổ chức mới áp đụng phương THứp kho dữ liệu chí tập trung vào các phép biến đổi đơn giản và chuyển dữ liệu vào các cấu trúc kho mới mà khong chú ý dến việc làm tăng chất lượng dữ liệu C6 công ty cho rằng phép biến đổi dữ liệu là không cần thiết vĩ họ chỉ thử nghiệm
với đữ liệu mên một nguôn tác nghiệp đơn lẻ nên chua có nhu cẩu tích hợp và
thống nhất nhiều nguồn có thông tin chổng chéo và máu thuẫn Vì thế, việc hiểu cáu thành phần logic của phớp biến đổi kho dữ liệu là rất củn thiết để lập kế hoạch
thực hiện một cách đầy đủ, hoàn chỉnh và hợp lý
23.3 Tải dữ liệu vau kho
1 Định nghia
Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi
Trang 30(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 30
‘Tai dữ liệu là quá trình chuyển dữ liệu từ nơi lưu trữ dữ liện nguồn vào cơ
sở dữ liệu đích Trước hết, cần xác định khoảng thời gian và định kỳ cẩn thiết để chuyển dữ liệu vào kho Không những cần xem xét lần nạp đữ liệu đấu tiên mà
cồn phải quan tâm đến việc thường xuyên làm Lươi đữ liệu
Có hai loại tiến trình tải đữ liệu cơ bản sau:
+ 'Tiến trình tải đầu tiên: dùng để chuyến dữ liệu vào DW mới được xây dựng Tiến uình nãy chỉ được thực hiện một lần và không cần quan tâm
nhiều đến vấn để thời gian
*⁄ˆ Các tiến trình nạp dữ liệu tiếp theo: là công việc hàng ngày của DW Tin
trình này được kiểm soát chặt chẽ vẻ mặt thời gian
Ngoài ra, cồn một số tiến trình lải dữ liệu khác cũng cần đượu nhắu đến đá
Tà liến trình lãi dữ liệu ui DW vào DM hay tải dữ liệu vào các OLAP server
2 Kỹ thuật tải dữ liệu
Có thế đùng các kỹ thuật và công cụ san |9], [10]:
*⁄ Tạo bản sao đữ liện
Giao thức truyền tệp FTP (File Transfer Protocol)
+⁄ˆ Các tiện ích sao chép
v⁄ Các công giao tiếp
+*ˆ Các giải pháp hỗ trợ phần cứng
Xây dựng tiến trình HIT là một trong những công việc khó khăn nhất của
việc xây dựng kho đữ liệu vĩ tốn rất nhiều thời gian và phức tạp
3 Mật số vấn để cẩn quan tám
Khi thực hiện tải đữ liện cần lưu ý một số vấn để sau:
a Kế hoạch tải dữ liệu
Quá trình lên kế hoạch tải đỡ liệu cần tính đến cáu tông việc sau:
v⁄ Sắp xếp thứ tự dữ liệu cần tải
¥ Hop nhất đữ liệu: đữ liệu chỉ tiết từ các bản ghỉ được tổng hợp
(thường là rộng lại) nhưng phải thoả mãn mức độ chỉ tiết thấp nhất
ma DW di dé ra
y⁄'Tạo các bảng chứa dữ liệu tổng hợp
Trang 31(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 34
⁄ Thiết lận các nguyên tic bdo dim tinh toan ven do ligu ma DW da qui ước để thực hiện việc tải đữ liệu
¥ Tai dit lieu vio DW
¥ Thue hién việc thống kê lỗi và xử lý lỗi và làm báo cáo vẻ tiến
trình
Khi thực hiện tiến trình tãi, dữ liệu cần đảm bảu các Lính chất sau:
> Tính nhất quản: cân bảo dam uit cA dit liệu đến được nạp vào
DW ‘Trong quá trình nạp đữ liệu rất có thể xảy ra sự cố ở ngay
ti hệ thống của chúng ta hoặc trong hệ thống cung cấp dữ liệu
nguồn Khi đó hệ (hống phải ghỉ nhận đượu sự cố này và vớ
cách thức xử lý để đữ liệu đã được tải vào DW trở nên nhất
quán Cách đơn giản nhất là xoá tuàn bộ đữ liệu bị hồng và thực hiện lại tiến trình
> Tỉnh roàn vẹn: cân phải đảm bão mỗi giá trị khoá ở bảng sự kiện
đều được tam chiếu đến đúng một khoá ở bảng chiều
>_ Vấn đã dữ liêu thay đổi theo thời gian:
Nếu dữ liệu trong bằng sự kiện có tham chiếu tới đữ liệu
tiến đổi theo thời gian ở một bảng khác, tong quá trình sử dụng
giá trị này có thể bị thay đổi thì khi đồ dữ liệu wong bang su
kiện sẽ không đúng và đo vậy không đảm bảo dược lính nhất
quần về mặt thời gian
b Thời gian tãi dữ liệu
"Thời gian thực hiện tiến tình tái đữ liệu luôn là một vấn đẻ làm đau đầu gác nhà quản trị DW DW sử dựng dữ liệu từ rất nhiều nguồn khác nhau mà mỗi loại lại có một khoảng thời gian tổng hợp đữ liệu riêng Để có thể đông bộ hoá được dữ liệu từ nhiều nguồn khác nhau cần tính toán kỹ trước khi thực hiện
'tốt hơn cả là toàn bộ đữ liệu được (ập trung lại tong kho tạm hoặc được chuyển đến một nơi đuy nhất trong kho dữ liệu, sau đó tối vào DW tại một thời điểm thích hợp trong ngày Thời gian tải đữ liệu được lụa chọn sao cho ít ảnh hưởng đến công việc hiện tại của DW nhất
Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi
Trang 32(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang $2
e Năng lực cắn sử dụng
điên cạnh việc tính toán bộ nhớ lưu tro cho DW không thế bỏ qua được nhiệm vụ tính toán dung lượng bộ nhớ lưu trữ đùng trong tiến trình tải dữ liệu
"Tiến trình này cần một lượng khá lớn bộ nhớ trung gjan để lưu trữ dữ liệu t¿m
Ngoài m cẩn tính đến một số khã năng khác mà hệ thống cần phải đáp ứng để có thể thự: hiện được liến trình lãi dữ liệu như:
+⁄ Tốc độ truy xuất đĩa cứng hoặc băng từ
v⁄ Khả năng truyền tải dữ liệu của mạng hiện có
+“ Khả năng tính toán của máy chủ và hệ thống xử lí song song đang đùng 'Tấi cả những vấn để trên gần phải được giải quyết, ¿ẩn cá những thử
nghiệm trên hệ thống thực để tính toán năng lực và xem chúng có thế đáp ứng được yêu cần hay không Dữ liệu xeu khi được trích Lừ các nguồn khéư nhau thường đưa vào một kho lạm (siaging are) để xử lí rỗi mối đưa vàu DW Ngoài lí
đo để tiện lợi cho việc xử lí, kho tạm cũng giúp giảm bớt thời gian ngừng trệ của
hệ thống, tăng tốu độ nạp dữ liệu vàu DW
2.4 DUY TRÌ DỮ LIỆU TRƠNG KHO
2.4.1 Làm tươi dữ liệu
Dữ liệu trong kho phải được cập nhật để có những thông tỉn mới nhất và
đuy trì những “ảnh chụp nhanh” sau cùng của dữ liệu Chẳng hạn, tình trạng hôn
nhân của một người có thể thay đổi theo thời gian, từ độc thân sang có gia đình Nhữmg thay đổi đó phải được phân ánh trong kho đữ liệu Quá trình này gọi là làm tươi dữ liệu nhằm đắm bảo dữ liện được cập nhật định kỳ và khi đữ liệu đang phân tích cũng có thể cập nhật nếu có những thay đổi Để tăng tốc độ tính toán, hầu hết
các DW được nạp vào theo lô sau khi hệ thống trực tuyến ngừng làm việc (shut
down), và tất cả các giá trị tổ hợp được đưa vào các bảng tổng hợp Theo hướng này, DW thực hiện nạp dữ liệu tập trung vào giờ nghỉ, thực hiện các truy vấn trong giờ làm việc [9]
2.4.2 Chu kỳ làm tươi dữ liệu
Làm tươi đữ liệu là công việc quan trạng và thường xuyên, cần được lập kế hoạch cẩn thận nhằm đảm bão cho người đùng có được đữ liệu mong muốn Các
Trang 33(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang $3
nhân tố xác định chu kỳ làm tươi dữ liệu trong kho: lượng đữ liệu dược chuyển, tính chất của tơ xở dữ liệu, rác giải pháp kết nối dùng để chuyển dữ liệu vào kho
“Tan 86 cha việc làm tươi dữ liện được quyết định bởi:
Vv Các yêu cầu nghiệp vụ: dựa trên tính chất chia nhỏ chiểu thời gian,
người đùng nghiệp vụ có thể phân tích đến mức chỉ tiết nhất Đây là điểm xuất phát của việc xác định chn kỳ cập nhật dữ liện
' Tính sẵn sàng của đữ liệu: đữ liệu có thế dùng được và phù hợp với
những vấn đẻ đã trình bây nếu nạp vào kho đữ liệu Thông thường, đữ
liệu giải quyết hàng ngày được làm cho mg thích và nạp hàng tuần ' Các nghiên cứu về kỹ thuật: Cần thiết kế các tình huống làm tươi đữ liện nhằm đâm bảo quá trình nạp hợp lý Làm tươi đữ liện đòi hỏi tài
nguyên rất lớn Chu kỹ làm tươi đữ liệu c6 thể chịu ảnh hưởng bởi đặc
điểm kỹ thuật cña hệ thống
2.4.3 Cách làm tươi dữ liệu
Có một số cách nắm bắt những thay đổi của đữ liệu [9], [10]:
vˆ Thay thế toàn bộ đữ liệu trong kho: kho được làm tươi theo chu kỳ của
cáu hoại động tác nghiệp Phương pháp này chỉ phí cao và dữ liệu mang tính lịch sử bị hạn chế
¥ So sénh cfc thé hiện của CSDL để có thể nắm bắt được sự khác nhau
của hai thể hiện của cùng mot CSDL
7 Nếu gắn nhãn thời gian cho các dũ liệu thay đổi, c6 thể nhanh chồng fim thấy đữ liệu thay đổi ở chu kỳ làm tươi trước đó
¥ Tao CSDL tung gian delta để chứa những thay đổi được tạo ra cho hệ tác nghiệp từ việc làm tươi trước đó
' Nếu duy tì CSDL file log với sự giải thích bằng những hình ảnh
“trước” và “sau" cña đữ liệu, có thể phân tích chúng theo từng đợt để tầm ra sự khác nhau từ tệp đelta
*ˆ Thực hiện ngay bên trong CSDL bằng cách thêm các trigger vao CSDL
để phi lại các thay đổi khi có thao tác cập nhật dữ liệu
Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi
Trang 34(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang $4
Quân lý nạp kho đữ liệu nhằm kiểm soát việc chuyển đữ liệu vào kho
Công việc này cần được lập trình cẩn thận dé dam baa có thể xác nhận được việc:
nạp, tính đúng đán của đữ liệu đã chuyến vào kho, có thể kiểm tra, giải quyết
dược các sự cố khi nạp và cung cấp thông tìn thống kê
Nếu tự động hoá và lập lịch, chức năng này còn có thể kiểm soát việc cập nhật, làm tươi đữ liện
2.5.2 Quản lý kho dữ liệu
CSDL kho được quân lý bởi máy chủ với cáu khả năng như sao lưu, bảo mật và đuy trì, phải đáp ứng được các yêu cầu sau:
ˆ Quản lý số lượng lớn đữ liệu ở đạng thô và hoạt động ốn định
vˆ Hỗ ượ khối lượng công việc không đoán trước được
ˆ Duy trì sự tích hợp của đữ liệu trong kho
ˆ Cùng cấp cách truy nhập phù hợp lới dữ liệu
'thêm vào đó, các quá trình phải theo đối được các cập nhật trong kho
25.3 Quản lý truy văn
Quần lý truy vấn là một tiến trình giải quyết các công việu sau:
v7 Xác định đường đẫn truy nhập dữ liệu tốt nhất từ siêu dữ liệu
v7 Lập lịch và thực hiện các truy vấn theo sự kiện trigger
ˆ Các truy vấn thực hiện theo phương thức hàng đợi khi các cách lối ưu
đã có sẵn
¥ Theo dai và kiểm tra việc thực hiện các truy vấn
*ˆˆ Dự đoán khối lượng công việc và cách sử dụng CPU
7ˆ Nhận dạng các truy vấn thường xuyên và ưu tiên chúng
Trang 35(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang $5
¥ Nhận đạng các truy vấn và các tổng hợp không được dùng và loại bỗ
*⁄ Nhận dạng các tống hợp nên có sẩn để tăng tốc độ thực hiện truy vấn
*ˆ Hỗ trợ truy vấn đa chiểu: Một cách quan sát mô hình đữ liệu nhiều chiéu là nhìn nó như một hình khối:
Ví dụ: Có dữ liệu bền hàng như sau:
PHẨM — TRƯỜNG | GIAN "ÔN _
"Hình 2.4 Trợ vấn dữ liệu âa chiêu
-iảng nằm bên trái chứa đữt liệu bán hàng chỉ tiết theo sẵn phẩm, thị trường,
và thời gian Hình khối nằm hên phải thể hiện xố lượng hồng bán được theo tấc chiếu: sản phẩm, thị trường và thời gian - với các biến đơn vị được tổ chức như là
các tế bào trong một đấy Hình khối này có thể mở rộng bằng cách thêm một đấy kháu - theu một chiều khấu nữa là giá tiền - liên quan tối lãi cả hoặc chỉ một vài
chiểu (giá tiền của một sản phẩm có thể hoặc không thay đổi theo thời gian hoặc không thay đổi từ thành phố này tối thành phố khác) Khối này được hỗ trợ tính toán ma trận cho phép thể hiện số tiển bán được một cách đơn giản là thực hiện
một phép toán trên tất cả các ð của đãy này (số tiền = số lượng x giá tiển)
‘Thai gian trả lời một truy vấn đa chiểu phụ thuộc vào số lượng ô được thêm
vào trong quá trình thực hiện Khi số lượng chiều tăng thì số ô của khối này tăng theo cấp số mũ Bên cụnh đó, truy vấn đa chiều đều liên quan lới những dữ liệu ở
mức cao và đữ liệu tổng hợp Vì vậy, giải pháp để xây dựng một cơ sở đữ liệu đa chiểu có hiệu quả là kết hợp từ trước Iãt cả cấc lỔng con logic và cầu lổng theo lất
cả các chiếu Sự kết hợp trước này đặc biệt có giá trị khi các chiểu mang tính
Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi
Trang 36Thist bé'eo' s6 dit ligu trong kho dit ligu ~ Data Warehouse Trang 36
phân cấp Lấy ví dụ như theo chiểu thời gian có thể phân rã thành năm, quí, tháng, tuần, và ngày Một sự phân cấp được định nghĩa từ trước đối với các chiều cho phép có một sự kết hợp logic từ trước và cũng cho phép thực hiện khả năng khoan sâu (drill down) dữ liệu, từ một nhóm các sản phẩm xuống từng sản phẩm riêng rẽ, từ việc bán hàng theo từng năm xuống theo tuần
2.6 QUÁ TRÌNH PHÁT TRIỀN KHO DỮLIỆU
Hình 2.5 Mõ tả các quá trình phát triển kho dữ liệu
Có thể khái quát quá trình phát triển kho dữ liệu bằng 3 quá trình chính với mục đích là: cung cấp, lưu trữ và sử dụng
v⁄ Cung cấp: trích xuất, biến đổi, truyền dữ liệu từ các nguồn dữ liệu và nạp vào kho chứa dữ liệu
*⁄ Lưu trữ: Sau khi dữ liệu được nạp vào kho cần được lưu trữ và quản lý
và tối ưu hoá nâng cao hiệu suất và hiệu quả sử dụng
Y Sử dụng: Sau khi dữ liệu được nạp và lưu trữ, có thể truy cập nhằm hỗ trợ quyết định hoặc trích xuất tạo ra báo cáo hay các kho dữ liệu chủ
để đặc biệt
Ding Thi Thu Huong Khou Cong nghé- DH Quée gia ir agi
Trang 37(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 37
CHƯƠNG 3: THIẾT KẾ CƠ SỞ DỮ LIỆU TRONG KHO
3.1 MO HINH DULIEU TRONG DW
Theo cách truyền thống, đữ liệu trong mơi trường OLTP thường được xây dựng theo mơ hình quan hệ thực thể (Entity Relationship - ER) Với sự ra đời của kho đữ liệu, cần cĩ kỹ thuật xây dựng mĩ hình đữ liệu đáp ứng được những yêu cầu mới nhằm hỗ trợ mơi trường phân tích đữ liệu
Ban chất đa chiều của các câu hỏi trong kinh doanh được phản ánh trong thực tế Một trong những nguyên tắc nên tảng của cơ sở đữ liệu da chiều là ý tưởng về tĩnh tổng hợp Các nhà quản lý ở các cấp khác nhau yêu cầu các mức
tổng hợp khác nhau về đữ liệu để tạo ra các quyết định phù hợp Để nhà quần lý
lựa chọn được mức tổng hợp, kho chứa phải cĩ khả năng khoan sâu, cho phép điều chỉnh mức chỉ tiết, thệm chí đến tận đỡ liệu tíc nghiệp ban đâu Hình vẽ sau
Tà một ví dụ minh họa cho việc tổng hợp đữ liệu ở các mức khác nhau:
Casi a hea ie may
Hinh 3.1 Qud trình tổng hợp và khoan sâu dữ liệu
"Trong một số kiểu tổng hợp đữ liệu, thơng dụng nhất là cuốn (roÏl_up), vỉ
đụ: lấy tổng số bán hàng theo ngày rồi “cuốn” vào bằng bán hàng theo tháng
Dạng phức tạp hơn là tập hợp trên cơ sở các phép toần logic và so sinh Mot sé
mơ hình dữ liệu cĩ thể đáp ứng được những yêu cần đĩ được giới thiệu dưới đây:
Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi
Trang 38(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 33
3.1.1 Giản đồ hình sau
Gián đổ hình sao duge Dr Ralph Kimball dé xudt ding trong thiết kế cơ sở
đữ liệu cho DW [8] Trong giân đồ hình sao, dữ liệu được phân lầm 2 loại: sự kiện và chiêu, Bằng sự kiện chứa yếu tố cốt lõi cần được phân tích Gọi là giản đổ hình sao vì các sự kiện nằm ở trung tâm của mô hình về được bao quanh bởi rác chiêu liên quan, rất giống với các đặc điểm của ngôi sao Cúc sự kiện là các đại lượng nghiệp vụ dễ dược số hoá Các chiều là các bộ lọc hoặc các rằng buộc của những sự kiện này Chẳng hạn, thong tổn vẻ khách hàng như tên, địa chỉ là một chiếu, trong khi đó thông tin bán hàng cho khách là một sự kiện
Nguyên lý cơ bản của giản đồ hình sao là một dạng đư thừa dữ liệu nhằm tăng tốc độ thực hiện các truy vấn Với giản đô hình sao, người thiết kế cố thể đế đàng mô phéng các chức năng của cơ sử đữ liệu đa chiều Việc phí huẩn có thể coi là tiên kết nối (pre joining) các bằng để cho các ứng đụng không phải thực hiện công việc kết nổi, giảm thời gian thực hiện
"Thiết kế giản đổ hình sao khắc phục được những hạn chế của mỏ hình quan hệ Trong cơ sở đữ liệu thiết kế theo giản đổ hình sao, các truy vấn với những cân hỏi phức tạp liên quan tới nhiều bảng và số liệu tổng trở nên đơn giản hơn, số lượng công việc cẩn làm ít hơn sơ với một mô hình quan hệ chuẩn Giản
đồ hình sao rất trực quan, dễ sử đụng, thể hiện khung nhìn đa chiều của dữ liệu đồng ngữ nghĩa của cơ sở dữ liệu quan he, cải thiện đáng kể thời gian truy vấn và cho phép thực hiện một số tính năng đa phạm vì Khổa của bằng sự kiện được tạo bởi khóa của các bằng chứa thông tin theo chiều 1t cả các khóa đều được định nghĩa theo cùng một chuẩn đặt tên,
Để lấy được thông tin, chẳng hạn liên quan đến thành phố của một khách hàng cụ thể, cẩn phải kết hợp khóa chỉ khách hàng đó trong bảng sự kiện với khóa của khách hàng đó trong bảng chiều và đặt thuộc tính thành phố của khách hàng dó là thành phố cần quan tâm
Những bảng sự kiện có chứa khóa của các bằng chiều có thể đùng tên khắc
dé dam bảo tính duy nhất của mỗi bản ghi, Các bang chiêu thường có định đanh
Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi
Trang 39tMiei kế ca sỗ dự Hạn trong kho dit lign- Data Warehouse thang 40
duy nhất và chứa đựng những thóng tỉn vẻ chiểu của bảng đó Số lượng các bằng, chiều của mỗi bằng sự kiện là từ 3 đến 5
Vì bằng sự kiện được tổng hợp từ trước và được kết hợp theo nhiễu chiều nên bảng này có xu hướng chứa nhiều bản ghỉ và xố lượng bản ghỉ tăng nhanh chóng trong khi các bảng chiều lại có ít bản ghỉ Hằng sự kiện có thể có hàng triệu bản ghi Bảng chiều chứa các thuộc tính có thể sứ dụng như cốc tiêu chí tìm kiếm và thường có kích thước nhỏ hơn nhiều, rất quen thuộc với người sử dựng từ trước Khoá ở bảng chiều không là khoá ghép như bằng sự kiện Nếu một bằng, chiêu được tách thành nhiều chiều thì kết quả gợi là giấn đổ hình tuyết rơi (snowflake) hoặc cấu trúc sao mở rộng
Một số kỹ thuật cấi thiện hiệu suất của cốc truy vấn trong giản đồ hình
*“ Phân hoạch bảng sự kiện để hầu hết các truy vấn chỉ truy nhập phân
đó, v⁄_ Tạo ra các hãng sự kiện độc lập
*f Tạo ra những tệp chỉ số đơn duy nhất hoặc các kỹ thuật khác để cải
thiện năng suất kết hop
Bảng sự kiện và cúc bảng chiều trong kho đữ liệu không nhất thiết ở đạng chuẩn như dối với phương pháp thiết kế truyền thống nên có dư thừa dữ liệu Giản
đô này cho phép lưu trữ đữ liệu đư thừa những khả năng truy nhập nhanh hơn,
phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp Vẻ bản chất bằng sự kiện thuộc đạng chuẩn I, lượng dữ liệu dư thừa rất lớn
Có thể nói giãn đồ hình sao là một cơ sở dữ liệu chỉ dọc, việc cập nhật dữ
liệu là rất khó Một số bằng chiều có thể thêm dữ liệu vào bằng các truy vấn có
kết nối, một xố bảng khác lại vớ thể không uhứa dữ liệu gì mã chỉ phục vụ việc
đánh chỉ số cho đữ liệu
Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi
Trang 40(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 40
Hinh 3.2 Gidn dé hink sao
3.1.2 Giản đỏ hình tuyết roi
Giản đồ hình tuyết rơi là một mở rộng của giản đổ hình sao, tại mỗi cánh
sau không phối một bảng chiều mà có nhiều bảng Trong đạng giãn đổ này, mỗi bằng chiếu của giấn đỗ hình sao được chuẩn hóa hơn Giản đồ hình tuyết rơi tối thiểu không gian đĩ: cần thiết để lưu trữ đữ liệu và cải thiện năng suất truy vấn nhờ việc chỉ kết hợp những bằng có kích thước nhỏ mà không kết hợp những bằng có kích thước lớn, không chuẩn hóc Điều này làm tăng tính linh hoạt của các ứng dụng bởi có sự chuẩn hóa và ït mang bản chất chiên hơn nhưng lầm tăng
số bằng và tăng tính phức tạp của một vài truy vấn cân có sự tham chiếu tới nhiều bảng, Một xổ công cụ che giấu người sử đụng cuối giản đồ cơ sở dữ liệu vật lí và
cho phép họ lầm việc ở mức khái niệm, Những công cụ này ánh xạ những truy vấn của người sử dụng tới sơ đô vật lí Hợ cần một bộ quản trị cơ sở đỡ liệu để thực biện công việc này lần dầu tiên khi công cụ được cài đặt Giản đồ hình tuyết rơi đưới đây là mở rộng của mô hình sao ở trên
Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi