1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse

113 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận Văn Thiết Kế Cơ Sở Dữ Liệu Trong Kho Dữ Liệu Data Warehouse
Tác giả Ding Thị Thu Hương
Người hướng dẫn TS. Đỗ Việt Nga
Trường học Đại Học Quốc Gia Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2003
Thành phố Hà Nội
Định dạng
Số trang 113
Dung lượng 1,86 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

'Vẻ bắn chất, kho dữ liệu hướng vào việc cung cấp một kiến trúc, công cụ để phát triển đít liệu của các hệ thống tác nghiệp thành dữ liệu của hệ thống hỗ trợ quyết định.. Dữ liệu phát si

Trang 1

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse tang 7

ĐẠI HỌC QUỐC GIA HÀ NỘI

KHOA CÔNG NGHỆ

DANG TH] THU HƯƠNG

THIẾT KẾ CƠ SỞ DỮ LIỆU

CHO KHO DỮ LIỆU DATA WAREHOUSE

CHUYEN NGANH: CONG NGHE THONG TIN

Trang 2

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 2

1.1.1 Định nghĩa kho dữ liệu

1.1.2 Đặc điểm của kho dã liệu

1.1.3 Kho dữ liệu chủ dể

1.14 Sử dụng DW.„

1.1.5 $0 sành kho dữ liệu và bệ thống tác nghiện

1.16 Mục đích xảy dựng kho dữ lieu

1.17 Một số yếu tố cài đặt thành công kho dữ liệ

1.1.8 Giải pháp Kỹ thuật

1.2 Các giải pháp kiến trúc kho đữ liệu

1.3.1 Kiến trúc cơ bản

1.2.2 Kiến trúc kho dữ liệu tổng thể - mức duanh nghiệp

1.2.3 Kiến trúc kho dữ liệu chủ để - Data Man! độc lập

1.3 Các luai dữ cơ hẳn trung khu

CHƯƠNG 2: XÂY DỰNG VÀ QUẢN LÝ KHO DỮ LIỆ

2.1 Mô hình các thành phần kho dữ liệu

2.2 Các nguồn dữ liện

1.3 Tiến trình trích xuất, biến đổi,

2.3.7 Trích xuất dữ lệ

2.3.2 Biến đổi dữ liệu

2.3.3 TẢi dữ liệu vào kho

3.6 Quá trình phát triển kho dữ liệu

CHƯƠNG 3: THIẾT KẾ CƠ SỞ DỮ LIỆU TRONG KHO

3.1 Mô hình dữ liệu trong DW

3.1.1 Gidin đồ hình sao

3.1.2 Gidn dỗ hình tuyết rơi

3.1.3 Giản đồ kết hợp

3.2 Các mô hình thiét ké co s6 dit

3.2.1 M6 hinh dit ligu logic

Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi

Trang 3

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang #

3.5 Thiết kế hiệu suất

3.5.7 Các thách thức đổi với hiệu suất kho dữ liệu

3.5.2 Các giải pháp

3.6 Các loại siêu dữ liệu

CHƯƠNG 4: SỬ DỤNG CÔNG CỤ ORACLE9I XÂY DỤNG KHO DỮ LIỆU

4.1 Giới thiệu một số công cụ Oracle hỗ trợ xây dựng kho dữ liệu

4.2 Các pha phát triển

4.2.1 Xác dink dy dn

4.2.2 Phân tích

4.2.3 Thiết kế,

4.2.4 Xây dựng kho dữ liệu

4.3 Bài toán xây dựng kho dữ liệu kế toán thuế cấp cụ

4.3.7 Phan tích bài toán

Trang 4

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 4

Data Definition Language Data Mart

Decision Support System Data Warehouse

Entity Relationship

Extraction, ‘Lransformation

and Transportation Legacy System Maltidimensional OLAP Massively Parallel Processor Non Uniform Memory Access Online Analytical Processing Online ‘Iransaction Processing Redundance Array Of

Inexpensive Disk Relation OLAP Subject Arca Symmetic MultiProcessor Structured Query Language

Tiếng Việt

Cơ sỡ đữ liệu Ngôn ngữ định nghĩa dữ liệu Kho đữ liệu chú đề

Hệ hỗ trợ quyết định Kho đữ liệu

Quan hệ thực thể

"Trích lạc, biển đổi và truyền tải

Hệ thống kế thừa

Xử lí phân tích trực tuyến da chiều

Bộ xử lý song song khối lớn

Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi

Trang 5

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 5

MO DAU

1 Đặt vấn đề

tHiện nay, việc áp dụng công nghệ thông tin đã mang lại những hiệu quả to

lớn trong mọi lĩnh vực của đời sống xã hội Công nghệ ngày càng phát triển và

hoàn thiện, quy mô ấp dụng duck: md rong Lừ những ứng dụng đơn lẻ đến những,

hệ thống thông tin cỡ lớn Cúc hệ thống thông tin từ chỗ chỉ đáp ứng những yêu

ấu công việc hãng ngầy tiến lới đáp ứng yêu cầu ở mứ: độ cao hon Trong hoại

động sản xuất, kinh doanh luôn cẩn có sự đáp ứng nhanh rhạy, tức thời đối với các thay đổi liên tục của môi trường (lĩnh hình tài chính của doanh nghiệp, các quy định của pháp luật, ‘u khách hàng ) Các nhà quản lý điều hành không

những cần biết điều gì đã xảy ra mà còn cần nấm bắt được xu hướng điễn ra sau

đó, nghĩa là thông tin phải mang tính phân tích và hệ thống thông lin có khả năng,

hỗ trợ quyết định Đối với một tổ chức, để có quyết định đúng đắn cần có khả

năng nhanh chồng truy cập lới tất vả các loại thông tin, nghiên vứu đữ liệu quá

khứ, phân tích nhằm định ra những xu hướng có thế Trong bối cảnh công nghệ

thông tin phát triển, đữ liệu được tập trung trong những cơ sở dữ liệu khổng lở,

nhu cầu truy cập đến lất cả các thông tin là cẩn thiết Tuy nhiên, việc xây dựng hệ

thống thông tin như thế vấp phải một số khó khăn về mặt kỹ thuật, đặc biệt khi kích thước và độ phức tạp tửa môi trường thông tín lăng lên Những hệ thống thông tin xây đựng theo phương pháp truyền thống không làm hài lòng người sử

đụng và người quản lý thông tin

Nhĩmg khó khăn người sử dụng hay gặp:

1, Không thể tìm thấy dữ tiệu cân thiết:

*ˆ Dữ liệu rải rác ở rãi nhiều hệ thống với váu giao diện và công cụ khác

nhau khiến tốn nhiễu thời gian chuyển từ hệ thống này sang hệ thống,

Trang 6

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 6

2 Không thể lấy ra dược để liệu cân thiết:

+“ 'Ihường xuyên phải có chuyên gia trợ giứp, dân đến cóng việc đồn đống

*“ˆ Nhiều loại thong tỉn không thể lấy ra được nếu không mở rộng khả năng làm việc của hệ thống có sau

3 Không thể hiểu dữ liệu tìm thái

Mô tả đữ liệu nghèo nàn và thường không đúng với các thuật ngữ nghiệp

vụ quen thuộc

4 Không thể sử dựng được dữ liệu tìm thấy:

*ˆˆ Kết quả thường không đáp ứng vẻ bản chất đữ liệu và thời gian tìm kiếm

*ˆ Phải dùng phương pháp thủ công chuyển đổi đữ liệu vào môi trường làm việc của người sử dụng

Các vấn để về hệ thống thông tín:

1 Phát triển các chương trình khác nhaw không ảơn giản:

ˆ Một chức năng được thể hiện ở rất nhiển chương trình, nhưng việc tố chức và sử đụng lại chức năng đó lại rất khó khăn đo hạn chế về kỹ thuật

*ˆ Rất khó chuyển đổi đữ liệu từ các khuôn đạng tác nghiệp khác nhau để

phù hợp với người sử dụng

2, Duy trì những chương trình này gặp rất nhiều vấn dé:

v⁄ Thay đổi ở một ứng đụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có

liên quan

+“ Thông thường sự phụ thuộc lẫn nhau giữa các chương trình không rõ rằng,

hoặc không xác định được

¥ Do su phitc tap cha công việc chuyển đổi cũng như toàn bộ quá trình bảo

tr nên mã nguồn của các chương trình trở nẽn hết sức phức tạp

3 Khối lượng dữ liệu hai trữ tăng rất nhanh:

Vì không kiểm sơái được khả năng chồng chéo dữ liệu trong các môi

trường thông tin nên khối lượng dữ liệu tăng nhanh

Trang 7

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 7

4, Quiin trị dữ liệu phúc tap:

v” "Thiếu những định nghĩa chuẩn, thống nhất về đữ liệu dẫn đến mất khả năng kiểm soát môi trường thông tỉn

v/ˆ Một thành phần đữ liệu tồn tại ở nhiều nguồn khác nhau

Giải pháp cho tất cả các vấn để nêu trên là xây dựng một kha dữ liệu

TI Mục tiêu của luận văn

Luận văn nghiên cứu việc xây đựng và quản lý một kho đữ liệu đựa vào

ấu cơ sỡ dữ liệu táu nghiệp đã uố sẩn nhằm đưa ra được các thong tin mang tinh phân tích, hỗ trợ rs quyết định Luận văn tập trung vào việc xây dựng mô hình đữ

liệu và Ihiết kế cơ sở dữ liệu trong kho

.HI Bố cục của luận văn

Ngoài phần mở đầu và kết luận, luận văn bao gồm 4 chương:

Chương 1: Giới thiệu tổng quan về kho dữ liệu, các giải phấp kiến trúc kho đữ liệu và các loại dữ liệu trong kho

Chương 2: Trinh bay mô hình các thành phần kho, lý thuyết về các tiến trình

trích lọc, biến đổi và truyền đữ liệu dế xây dựng kho, các công việc đế quân lý, duy trì kho đữ liệu

Chương 3: Trình bầy các mô hình đữ liện, lý thuyết thiết kế cơ sở dữ liệu, các

phương pháp ước lượng dung lượng của kho và các giải pháp nhằm nâng cao hiệu xuấi kho dữ liệu

Chương 4: Giới thiệu các công cụ của Oracle hỗ trợ việc xây đựng kho đữ Tiệu, sử đụng các công cụ này để thiết kế kho dữ liệu và lạo cá báo cáo phân lich,

tổng hợp trợ giúp ra quyết định

Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi

Trang 8

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 8

CHUGNG 1: TONG QUAN VE KHO DU LIEU

1.1 KHO DỮ LIÊU

1.1.1 Định nghĩa kho dữ liệu

Kho dit ligu (Data warehouse - DW) không phải là một khối niệm mới và

đã được định nghĩa theo rấi nhiều cách, vì vậy khó có thể có một định nghĩa chuẩn xác Theo một nghĩa nào đó, kho đữ liệu được xem như là một co sd dit liệu (CSDL) được duy trì riêng biệt từ nhiều nguồn CSDL tấc nghiệp khác nhau,

hỗ trợ phân tích trên cơ sở các dữ liệu lịch sử và các công cụ uy vấn dữ liệu manb Bill Inmon, người được xem như là kiến trúc sư đầu tiên xây dựng kho dữ

liệu đã định nghĩa: Kho dữ liệu DW là tập lưựp dữ liệu hướng chủ để, được tich

hợp, gắn với thời gian, không thay đổi nhằm bỗ trợ quá trình ra quyết định của nhà quần tý” |8]

'Vẻ bắn chất, kho dữ liệu hướng vào việc cung cấp một kiến trúc, công cụ

để phát triển đít liệu của các hệ thống tác nghiệp thành dữ liệu của hệ thống hỗ

trợ quyết định Dữ liệu phát sinh từ các hoạt động hàng ngày và dược thu thập xử

lí để nhục vụ công việc nghiệp vụ cụ thể của một lổ chức thường được gụi là đữ

liện tác nghiệp (Operational Data) Các hoạt động thu thập xử lí đữ liệu tác nghiệp được gọi là xử lí giao địch trực tuyến (Online Transaction Processing - QLIP) Trái lại, kho dữ liện phục vụ cho việc phân tích với kết quả mang tính

thông tìn cao Cúc hệ thống thông tỉn thu thập xử lï dữ liệu loại này còn gọi là xử

li phân tích try tuyén (Online Analytical Processing - OLAP)

DW được thiết kế để quản lí đữ liệu, cung cấp cho những ứng dụng yêu

vầu một khối lượng dữ liệu lớn quy mô doanh nghiệp DW là thể hiện vật lí va

mô hình hỗ trợ quyết định đạng quan hệ (Relational) hoặc đa chiều

(Multidimentional), cung cấp cho đuanh nghiệp những thông tin mà họ cần để

đưa ra các quyết sách chiến lược

1.1.2 Đặc điểm của kho di?

Chỉ với cụm từ ngắn gọn: hướng chủ để, được tích hợp, gắn với thời gian, không thay đổi, định nghĩa trên đã nêu các đặc trưng cơ bản nhất vủa kho dữ liệu,

Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi

Trang 9

Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse Trang 9

phục vụ mục đích phân tích và hỗ trợ quyết định Đây là những chức năng phức

tạp nên cần cân nhắc nhiều khía cạnh, tiêu chuẩn và sự chọn lựa khác nhau Dữ

liệu trong DW cẩn được tích hợp theo cách để có thể thực hiện công việc này

một cách tốt nhất, đó là phương thức tập hợp dữ liệu hướng chủ đẻ Vì vậy, không phải toàn bộ các thông tin từ cơ sở dữ liệu tác nghiệp đều được đưa vào

kho dữ liệu mà phải chọn lọc theo những chủ để thích hợp chứa thông tin cần

thiết phục vụ trợ giúp quyết định

Một kho dữ liệu được xây dựng bằng việc tích hợp nhiều nguồn dữ liệu,

lưu trữ trong một cấu trúc thống nhất, toàn vẹn trong việc đặt tên, đơn vị đo, cấu

trúc mã hoá, các thuộc tính vật lý [8J Thông thường, dữ liệu trong DW được

tích hợp từ nhiều nên tảng hệ quản trị dữ liệu khác nhau thành một hệ hợp nhất

'Với một hệ thống tác nghiệp, điều này khó có thể thực hiện được Đặc điểm tích

hợp tổng thể làm cho kho dữ liệu cung cấp thông tin nhất quán và có nghĩa Chính điều này làm cho dư thừa dữ liệu trong kho là tối thiểu nhưng quá trình tích

Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi

Trang 10

Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 10

hợp cũng chiếm chỉ phí và thời gian nhiều nhất, khoảng hơn 50% các hoạt động phát triển kho dữ liệu [8]

"Hạ tức ghigp io dia IPEESSTSAA Mr.J Smiih

asm Jce Srritl:

Joseph ——e Mir 4 Smith

3 Dữ liệu gắn với thời gian

Dữ liệu trong kho được lưu trữ trong thời gian rất lâu, cỡ vài năm đến vài

chục năm và được cập nhật định kì [8] Các hệ tác nghiệp thường bao quát dữ liệu

trong một khoảng thời gian không lớn và lưu trữ dữ liệu theo chu kỳ Ngược lại,

kho dữ liệu bao hàm một khối lượng lớn dữ liệu lịch sử Bản thân DW là một tập các "ảnh chụp nhanh" (snap-short) trạng thái của doanh nghiệp tại các thời điểm

khác nhau Điều này cho phép khôi phục lại lịch sử và so sánh một cách chính xác

các giai đoạn khác nhau, hỗ trợ việc định ra phương hướng và công tác dự báo cho tương lai Vì thế, thuộc tính thời gian được ngầm hiểu trong DW như là một thuộc

tính bắt buộc Thời gian đóng vai trò như một phần của khoá để bảo đảm tính đơn

nhất của các bản ghỉ và cung cấp đặc trưng về thời gian cho dữ liệu,

Nội dung khoá | Không chứa yếu tốthời gian | Chứa yếu tố thời gian

Hình 1 3 Dữ liệu trong DW gắn với thời gian

4 Tính không thay đổi

Dữ liệu DW là loại chỉ đọc, dữ liệu được nạp vào một lần từ các CSDL tác nghiệp nhằm mục đích phục vụ truy vấn thông tin [8] Thông thường, việc thay đổi dữ liệu đã có chỉ được thực hiện rất hạn chế khi có lỗi Nhờ vậy, tốc độ tổng hợp dữ liệu tăng lên một cách đáng kể, kết quả trả lại khi thực hiện công việc

Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi

Trang 11

Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 77

phân tích của tuần này cũng giống kết quả của tuần trước Việc cập nhật, sửa đổi

dữ liệu chỉ được phép thực hiện trên CSDL tác nghiệp Dữ liệu được lưu trữ lâu dài trong kho dữ liệu Mặc dù có thêm dữ liệu mới nạp vào nhưng dữ liệu cũ trong kho vẫn không bị xoá, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích,

dự báo Các kỹ thuật liên quan tới phục hồi dữ liệu, đảm bảo toàn vẹn tham chiếu, phát hiện và giải quyết tắc nghẽn thường không cần thiết

một chuyên ngành cụ thể DM là một kho dữ liệu thứ cấp chứa các dữ liệu tích

hợp của DW, hướng tới phần dữ liệu thường được gọi là một vùng chủ đẻ (Subject

Area - SA) được tạo ra dành cho một nhóm người sử dụng [9]

Dữ liệu trong DM cho thông tin vẻ một chủ để xác định, không phải của

toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức Thông thường,

DM là một kho dữ liệu riêng được lưu trữ vật lí trên một máy chủ riêng, trong

một mạng cục bộ phục vụ cho một nhóm người nhất định

Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi

Trang 12

Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 12

2 Phan loại DM:

Có hai loại DM sau:

*⁄ DM phụ thuộc: chứa dữ liệu được lấy từ DW và dữ liệu này sẽ được trích lọc và tỉnh chế, tích hợp lại ở mức cao hơn cho một chủ để nhất định

¥ DM doc lap: được xây dựng trước DW và dữ liệu được lấy trực tiếp từ các nguồn tác nghiệp Phương pháp này đơn giản hơn và chỉ phí thấp hơn nhưng mỗi DM độc lập có cách tích hợp riêng, do đó dữ liệu từ nhiều

Khai thác các thông tin bằng các công cụ truy vấn và báo cáo Nhờ

có việc trích lọc, tích hợp và chuyển đổi các dữ liệu thô sang dạng các

dữ liệu chất lượng cao và có tính ổn định, DW đã giúp cho việc nâng cao các kỹ thuật biểu diễn thông tin truyền thống (hỏi đáp và báo cáo) Bằng cách tạo ra các tầng ẩn giữa người dùng và cơ sở dữ liệu, các dữ liệu đầu vào của kỹ thuật này được đặt vào một nguồn duy nhất Việc

hợp nhất này loại bỏ được nhiều lỗi sinh ra do việc phải thu thập và

biểu diễn thông tin từ rất nhiều nguồn khác nhau cũng như giảm bớt

được sự chậm trễ do phải lấy các dữ liệu bị phân đoạn trong các cơ sở

dữ liệu khác nhau, giúp cho người dùng tránh được những câu lệnh SQL phức tạp Tuy nhiên, đây mới chỉ là cách khai thác với kỹ thuật

cao để đưa ra các dữ liệu tỉnh và chính xác hơn chứ chưa phải dữ liệu

Trang 13

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 13

YH ug phan tfch trực tuyển (OLAP3:

Nếu ngôn ngữ truy vấn chuẩn SQL và các công cụ làm báo cáo

truyền thống chỉ có thể miêu tả những gì có trong cơ sở đữ liệu thì

phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết là đúng hay sai Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra được các giả thuyết Do kích thước quá lớn và có tính chất phức tạp, khó có thể sử dụng DW cho những mục đích như dưa ra các giả thuyết, các thông n mà chương uình ứng đụng có thể cung

cấp

*⁄ Công nghệ khai phá đữ liệu (DData Mining):

"Trước đây, kỹ thuật học máy thường được sử đụng để im ra các giá

thuyết lừ những thông lin thu thập được Tuy nhiên, (hự nghiệm cho thấy kỹ thuật này không hiệu quả khi áp đụng với các tập đữ liệu lớn trung DW Phương pháp thống kê luy ra đời lâu nhưng cũng không phù hợp với sự phát triển của dữ liện Đây chính là lý đo mà một khối lượng, lớn đữ liệu vẫn chưa được khai thác và thậm chí được lưu chủ yếu trong, cầu khơ dữ liệu không Irực Luyến (offline) Điều này đã to (hành một

lỗ hổng lớn trong việc hỗ trợ phân tích, tìm hiểu đữ liệu, tạo ra khoảng cáh giữa việc tạo dữ liệu và khai thác đữ liệu đó Trong khi đó, càng, ngày người ta càng nhận thấy nếu được phan tich thong minh thi dé

liệu sẽ là nguồn tài nguyên quý giá trong cạnh tranh trên thương

trường Giới tin học đã đáp lại những thách thức trong thực tiễn cũng,

như trong nghiên cứu khoa hợc bằng cách đưa ra một phương pháp mới đấp ứng nhu cần trong khoa học và trong hoạt động thực tiễn

Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi

Trang 14

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 14

1.15 So sfnh kho dit ligu và hệ thing tac nghiệp

Định tướng Giao dịch, tác nghiệp Phân tích

Rich thane CSD Ci Gigabyte Ca Gigabyte dén Terabyte

Nguồn dữ liệu Nội bộ Ben trong và bên ngoài

Kha nang cập nhật Có thể cập nhật được Không cập nhật được

Nội dung khoá Không chứa yếu tổ thời gian | Chứa yếu tố thời gian

Mang tính hiện thời, cập nhật | DH liệu có tỉnh lịch sử, đuy trì

Dữ liệu lưu trữ

hồng ngày theo khoảng thời gian

Khối lượng công việc | Có thể dự đoán được Không dự đoán được

Hỗ trợ người đùng — | Thaotác và báo cáo Phân tích, dự báo và khai phá

Kếtnối Cân nhiều kết nối Cấn rất it kết nối

Chức năng, Phục vụ hoạt động hàng ngày | Hỗ trợ quyết định

ian yw ten Higu sudt cav, o6 tinh sim | Tinh mém dév cay, ngudi ding

Độ do Thông lượng giao dịch “Thông lượng truy vấn

Người đùng Người đăng cuối Quản lý, điển hành, nhân tích

HìnhT 6 Bằng so sánh những đặc trưng của hệ tác nghiép va DW [8]

Tren cơ sở các đặc trunp của DW, có thể phân biệt DW với hệ tác nghiệp

truyền thống trên nhiều phương điện [8], [10]:

¥ Kho dif ligu DW được xây dựng hướng chủ đẻ, được tổ chức và thực hiện theo mu: đích của người sử dụng cuối trong khi hầu hết các hệ CSDL tác nghiệp tổ chức đữ liệu từ khung nhìn của các ứng dụng sao cho ứng đụng truy cập được dữ liệu một cách hiệu quả nhất

*ˆ Kho đữ liệu DW quan If một khổi lượng lớn thông tin và được lưu ot trên nhiều phương tiện luu trữ và xử lí khác nhau Các kho đữ liệu chứa một khối lượng lớn các dữ liệu lịch sứ, còn cơ sỡ đữ liệu tác nghiệp lại loại bỏ những đữ liệu đó nên những cơ sở dữ liệu tác nghiệp thường quản lí lượng thông tỉn vừa và nhỏ Quản li khối lượng thong tin cue lớn là một đặu thù của kho dữ liệu

*ˆ Kho dữ liệu có thể ghép nối các phiên bản khác nhau của giản đồ cơ sở

Trang 15

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 15

đữ liệu DW lưu tữ và quản lý các thông tỉn quá khứ thể hiện ở nhiều

thời điểm khác nhau bởi nhiều phiên bản khác nhau thành những thông, tin đễ hiểu hơn đối với người sử đụng

*ˆ Kho dữ liệu tích hợp và kết nổi thông tin từ nhiễu nguồn khác nhau trên nhiều loại phương tiện lưu trữ vã xử lí thông lin nhằm phục vụ cho

những ứng đụng xử lí tác nghiệp trực tuyến

' Kho dữ liệu có thể lưu trữ các thông tỉn tổng hợp theo một chủ đẻ nghiệp vụ nào đó nhằm lạo ra uác thông tin phục vụ hiệu quả cho việc phân tích của người sử đụng

1.1.6 Mục đích xây đựng kho đữ liệu

'Mục đích cơ bản của việc xây dựng DW là lạo thuận lợi tối đa khí xem xói

đữ liệu với mục đích phân tích kinh doanh và ra quyết định (hay vì mục tiêu kỹ

thuật Việc xây đựng kho dữ liệu nhằm giải quyết những vấn đẻ cơ bán sau:

¥ Tich hợp dit liệu và các siêu đữ liệu từ nhiều nguồn dữ liệu thành một

nguồn mang tính logic đuy nhất nhằm cung cấp thông tỉn mẻm đềo từ các nguồn khác nhau và thoã mãn nhu cẩu của nhiễu loại người đùng khác nhau

¥ Nang cao chất lượng đữ liệu bằng các phương pháp làm sạch và tỉnh lọc đữ liệu theo những hướng chủ đề nhất định nên đữ liệu rõ rằng, thống nhất

hơn

+“ Đồng bộ hoá các nguồn dữ liệu với DW

¥ Phan dinh và đồng nhất các hệ quản trị cơ sở đữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW

*⁄ˆ Dũng trong các hệ hỗ trợ quyết định (Decixion support xystem - DSS), các

hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt

'Vì những uu điểm nổi bật và cá thể đán ứng được nhiều yêu cầu trong khai thác (hông tin nên nhiều tổ chức có nhu cầu xây đựng kho dữ liệu Theo số liệu thống kê của hãng Oracle [R], các đoanh nghiệp xây đựng kho đữ liệu vì các lý

Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi

Trang 16

Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse Trang 16

do sau: Chết lượng dữ liệu tot om —ễễðE“

"Dữ liêu cạnh tranh têt ễää ^^

"Truy úbâp trực tiep 32%

Hình1.7 Lý do xáy dựng DW

1.1.7 Một số yếu tố cai dat thành công kho dữ liệu

Để thực hiện thành công một kho dữ liệu cần chú ý đến các yếu tổ sau [8]:

Y Trao quyền cho người sử dụng,

Kho dữ liệu cho phép người dùng khai thác những thông tin mà họ

cần để tạo ra quyết định Sự phát triển của kho cũng đồng nghĩa với

việc cung cấp cho người dùng những thông tỉn ngày càng chính xác,

hữu ích

* Khai thác dữ liệu đã có

C6 nhiều dữ liệu có thể đưa ra câu trả lời cho các câu hỏi nghiệp vụ

Cần tận đụng mọi dữ liệu để phân tích, cung cấp thông tỉn hữu ích cho

người dùng

⁄ Tính linh hoạt của các công cụ

Kho dữ liệu cần dùng các công cụ có thể truy nhập phù hợp với tất

cả dữ liệu trong kho

*⁄ˆ Các hoạt động hỗ trợ được dùng để chuyển từ các phòng hệ thống

thông tin vào các phòng thông tin riêng biệt và các nhóm

1.1.8 Giải pháp kỹ thuật

Khi các tổ chức, doanh nghiệp có nhu cầu xây dựng một DW, cần có sẵn

số kỹ thuật đã được cài đặt để hỗ trợ với chỉ phí tương đối thấp:

Trang 17

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 17

việc đổi mới gần đây trong công nghiệp tính toán đã làm cho phần

cứng và nhần mềm mang lại lợi fch nhiều hơn Cũ thể lựa chụn các môi trường phần cứng nh SMP, MPP, NUMA hay cụm

v Nhécung cép CSDL

Nhiều nhà cung cấp cơ sở dữ liệu đang cố gắng tập trung đưa ra các

phương tiện quản lý cơ sở dữ liệu nhằm hỗ trợ cấc đặc trưng sau:

va Cau tric co sé dữ liệu rất lớn

œ_ Thực hiện các Iruy vấn lrong kho dữ liệu có cấu trúc hình sau

sa Các kỹ thuật tối ưu truy vấn dữ liệu nhanh

«_ Các kỹ thuật và chiến lược phân hoạch ở mức cao nhằm làm cho

việc quản lý và truy nhập dé dang

vˆ Kỹ thuật cơ sở dữ liệu quan hệ:

Hầu hết các kho đều thực hiện đựa trên hệ quản trị cơ sở đữ liệu quan hé nhu Oracle server

` Các công cụ truy nhập và truy vấn dữ liệu:

Các nhà cung cấp cũng đưa ra nhiều công cụ truy nhập đữ liệu khác

nhau hỗ trợ nhiều loại người dùng khá nhau với các yêu cẩu truy vấn phức tạp

v' Đội dự án

Có thể nói con người là một nhân tố quyết định sự thành công của

kho dữ liệu Một đội ngũ cho dự án kho dữ liệu không thể thiếu các thành viên sau:

œ_ Người thiết kế cơ sở đữ liệu

œ_ Người quản trị cơ sở đữ liệu

Trang 18

Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse Trang 18

1.2 CÁC GIẢI PHÁP KIẾN TRÚC KHO DỮ LIỆU

1.2.1 Kiến trúc cơ bản

Dựa trên ý tưởng thiết kế một kho dữ liệu thống nhất để phục vụ truy vấn,

kiến trúc cơ bản của DW rất đơn giản [8]:

Hình L8 Kiến trúc cơ bản của kho dữ liệu

v Lớp nguồn:

Dữ liệu được đưa vào DW từ rất nhiều nguồn khác nhau Đây là

một trong những đặc điểm chính của DW Dữ liệu nguồn có thể có sẩn

trong hệ thống tác nghiệp của doanh nghiệp hoặc lấy từ nguồn bên

ngoài

Y Lop Warehouse:

Lớp này chứa dựng dữ liệu đã được tổng hợp cùng siêu dữ liệu mô

tả chúng cũng như các tiến trình tổng hợp, phân bổ dữ liệu Hai thành phần quan trọng nhất của lớp warehouse là dữ liệu và siêu dữ liệu

Chúng được lưu trữ và mô tả một cách nhất quán vẻ nội dung (ý nghĩa

dữ liệu) cũng như hình thức (khuôn dạng dữ liệu)

Y Lép img dung:

Làm nhiệm vụ tương tác với người dùng cuối Một trong những đặc

điểm quan trọng của DW là cung cấp thông tỉn cho rất nhiều người sử

dụng với những yêu cầu không thể dự đoán trước Vì vậy, lớp người

dùng thường có cấu trúc phức tạp Hơn nữa, người dùng ở đây có thể sử

dụng nhiều công cụ khai thác và truy xuất dữ liệu khác nhau nên giao

diện giữa lớp Warehouse và người dùng cũng đa dạng

Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi

Trang 19

tMiei kế ca sỗ dự Hạn trong kho dit lign- Data Warehouse thang 70

1.2.2 Kiến trúc kho dữ liệu tổng thể - mức doanh nghiệp

Kho dữ liệu mức doanh nghiệp là một kho rất lớn chứa toàn bộ dữ liệu nghiệp vụ, được hợp nhất từ tất cả các hệ thống tác nghiệp và các nguồn dữ liệu ngoài có liên quan [8 |

Tguộu dư liệu Rhodtt Liệu Người sử duce

Hinh 1.9 Kho dữ liệu kiến trúc tổng thể,

Với kiến trúc khơ dữ liệu tập trung này có một số ưu điểm như đữ liệu

được lưu trữ tỉ một nơi nên độ ún cậy, chính xác của đữ liệu tang Mọi chủ để

déu được xem xét, đưa vào để phục vụ cho toàn đoanh nghiệp Tuy nhiên, hạn chế của kiến trúc này là cấu trúc CSDL có thể phải điều chỉnh nhiều cho tất cả các

hoạt động vì thiết kế có thể không tối wm cho một chức năng nào đó Tính sẩn

sàng bị giảm đo rỗi ro, sự cố dữ liệu hoặc bị ngưng trẻ để cập nhật đữ liệu Các

thay đổi hoặc cải thiện dĩ liệu buộc phải có sự đồng ý của toàn bộ doanh nghiệp

1.1.3 Kiến trúc kho dữ liệu chủ đề - Datamart độc lập

Việc xây dựng kho đữ liệu tổng thể - mức doanh nghiệp thường không dễ dàng Các yêu cầu côi đặi, thiết kế mô hình dữ liệu, lựa chọn và trích xuất dữ Tiệu

từ nhiêu nguồn, tích hợp, nạp dữ liệu và duy trì kho dữ liện, các công cụ truy vấn

dữ liệu đài hỗi thời gian và tiền của rất nhiều Ý tưởng “bát đầu nhỏ” với kho dữ

liệu, có thể ít rủi ro và khả thi hơn Đó là giải pháp DM độc lập — kho dữ liệu

“nhổ” |8

Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi

Trang 20

Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 20

Tuy nhiên, với dự án DM cần phải có kế hoạch nhân rộng các DM khác

theo thứ tự và tính đến các kiểu tích hợp chúng trong mô hình tổng thể Cần cân nhắc tới trình độ của đối tượng sử dụng, những vấn đẻ có thể nảy sinh do sự khác

nhau về kỹ thuật hay phân bố địa lý trong tổ chức khi lựa chọn giải pháp xây

dựng kho đữ liệu chủ đẻ

Các thành phần cần xem xét đảm bảo kiến trúc tổng thể như:

Mô hình dữ liệu chung

⁄ Các công cụ trích xuất dữ liệu

ˆ Các công cụ chuyển đổi

ˆ Các tiến trình

' Kho chứa dữ liệu

ˆ Các công cụ OLAP

1.3 CÁC LOẠI DỮ LIỆU CƠ BẢN TRONG KHO

“Trong kho dữ liệu chứa các loại dữ liệu cơ bản sau [9]:

1.3.1 Dữ liệu sự kiện

Dữ liệu sự kiện chứa các kích thước dữ liệu, các độ đo nghiệp vụ cần thiết

cho việc phân tích

Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi

Trang 21

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 24

1.3.2 Dữ liệu chiều

'Việc xem xét thiết kế các chiều là rất quan trọng bởi vì các chiều chứa đữ

Tiệu chỉ tiêu phân lích truy van Cáu chiều chứa uắc cột giá trị khoá kết nối với các

bằng sự kiện

1.3.3 Dữ liệu tham khẩn

Được (6 chức thành những thông tin dạng văn hẳn có thể ñm kiếm, trợ

giúp những người khai thác kho dữ liện, các đữ liệu này có tác dụng làm giám

kích cỡ kho dữ liệu

1.3.4 Dữ liệu tổng hợp

Dt liu tng hop là những đữ liện sự kiện đã được tổng kết có thể cung cấp

câu trá lời ngay tức khấc cho những yêu câu về đữ liệu tổng hợp từ các chiều kết

hợp với nhau Dữ liệu lổng hợp được lưu trữ trong kho Đá là những dỡ liệu số

được tính toán trước một cách đơn giản như tổng lượng hàng đã bán, có thể được tĩnh toán trước the c

hiểu nghiệp vụ như vùng, người bán, theo tháng hoặc năm I3fï liệu loại này thường được tạo trên máy chủ chứa kho dữ liệu san khi đữ liệu ch tiết được nạp

ID liệu tổng hợp cố các mức san:

+“ Mức thần: lấy từ dữ liệu sự kiện, lưu trữ theo thồi gian

ˆ Mức cao: lấy th các đữ liện đã được tổng hợp I3# liệu tổng hợp ở mức cao thường được tạo bởi những dữ liệu lịch sử

ác hãng lổng hợp trung kho rất quan trọng, đảm bảo cho việc thực hiện

các truy vấn có chất lượng cao, là một trong các nhân tố quan trọng trong việc duy trì và cải thiện hiệu suất Một kho có thể chứa hàng trăm bảng tổng hợp, một bảng này cớ thể chứa mọi kết nối khí thực hiện truy vấn Cấu hảng tổng hợp thường đùng một phần đữ liện chiều

L-3.5 Siêu dữ liệu

"Trong việu tổ chức kho dữ liệu, không những người đùng cuối mã ngay cả

những nhân viên quần trị cũng cẩn truy nhập vào toàn bộ thông 6n trong các bằng, các đổi tượng cũng như cấu thuộc lính Họ muốn được biết một xổ vấn đề

như:

Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi

Trang 22

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 22

C6 thể tìm thấy dữ liệu ở đâu?

'Tồn tại những loại thông tin, đữ liệu nào?

Tự liệu thuộc loại nào, có dạng ra sao?

SANS Dữ liệu liên quan với nhau như thế nào khí có các cơ sở dữ liệu

khác nhau?

+“ Dữ liệu được lấy từ đâu, ai quản lý?

Vi vậy, uõ một dạng dữ liệu khác gụi là siêu dữ liệu nhằm mnô lả ý nghĩa

của dữ liệu, cấu trúc nội dung của cơ sở đữ liệu chính Siêu đữ liệu được định nghĩa như sau [Z2], [7], [9]:

" Siêu dữ liệu là dữ liệu mô tả cấu trúc và ý nghĩa của dữ liệu trong kho

dữ liệu, nhằm định rõ dữ liệu này duoc tao ra, ray nhập và sử dụng như thế nào.”

Trang 23

Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 23

CHƯƠNG 2: XÂY DỰNG VÀ QUẢN LÝ KHO DỮ LIỆU

2.1 MÔ HÌNH CÁC THÀNH PHẦN KHO DỮ LIÊU

Neue datine _ KhodEea pee sử đụng

Bao gồm các dữ liệu của CDSL trong và ngoài hệ thống và rất phong phú

vẻ chủng loại Các CSDL nằm trong hệ thống được gọi là các hệ thống nguồn hoặc các hệ thống kế thừa [1]

v Hệ thống kể thừa (Legacy system - LS): là hệ thống tác nghiệp hỗ trợ

kinh doanh Hệ thống này được phát triển nhờ sử dụng các công nghệ có sẵn và vẫn đang phù hợp với các nhu cầu của kinh doanh, có thể được thực hiện trong nhiều năm và có thể không có hoặc có rất ít tài liệu kỹ thuật đi

kèm

Dữ liệu ngoài: là dữ liệu không nằm trong các hệ thống tác nghiệp của

công ty, gồm những dữ liệu do người sử dụng cuối yêu cầu để điển vào bức tranh tổng thể các nhu cầu kinh doanh của họ

Trang 24

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 24

Công là một đữ liện nhưng lại có tên khác nhau, hoặc thuộc các hệ thống,

đo lường khẩc nhau

Cuối tùng, các nguồn đữ liệu cẩn được đánh giá và các định nghĩa uấn được đưa vào siêu đữ liệu nhằm:

øœ Xfo định uắc nguồn khác nhau, uấc cấu trúc lïle khác nhau, các nên tăng khác nhau

ø Hiểu được đữ liệu nào có trong các hệ thống nguồn dang vin tai, cdc định nghĩa nghiệp vụ cũa dữ liệu và các ràng buộc nghiệp vụ dối với dữ Tiệu

o> Phat hign sự giao nhau về thông tin cha các hệ thống khẩu nhau

«œ_ Quyết định đữ liệu tốt nhất trong các hệ thống: Mỗi hệ thống cần được đánh giá để quyết định hệ thống nào có đữ liệu rõ ràng và chính xấu hơn

Nguồn cung cấp dữ liệu chú yếu cho DW là nguồn đữ liệu tác nghiệp Vì

vậy, việc xác định dữ liệu nguồn cũng đồng nghĩa với việc nghiên cứu, tìm hiểư nguồn đữ liệu tác nghiệp đã có sẵn Xác định dữ liệu nguôn còn bao gồm việc trích dữ liệu từ nguồn chuyển chúng vào đích Trong giai đoạn này cần cân nhấc

‘Lam thé nae để ánh x được dữ liệu từ nguồn đến đích chính xác?

Để dữ liệu có chất lượng thĩ tiến trình lam sạch cần thực hiện những công, việc gì?

Giải quyết vấn để xung đột dữ liệu như thế nàu?

Trang 25

Theiét kế cơ sứ dữ liệu trong keha dit ligu~ Data Warehouse rang 25

2.3 TIẾN TRÌNH TRÍCH XUẤT, BIẾN ĐỔI TẢI DỮ LIỆU VÀO KHO

Kho cần những dữ liệu chất lượng cao đã được làm sạch và tích hợp từ nhiều nguồn khác nhau Để làm được điều đó, sau khi trích lọc, dữ liệu phải trải qua quá trình biến đổi trước khi chuyển vào kho Các quá trình này thường gọi là tríh xuất, biến đổi và truyền tdi (Extraction, transformation, and

transportation- ETT) [8], [9] [13]

TREhE€ ¡ Ý Đưa đối

v

olay gute

Hình 2.2 Tiến trình ETT

2.3.1 Trích xuất dữ liệu

Trích xuất dữ liệu là một thao tác lấy các dữ liệu đã được xác định trước ra

khởi các hệ thống tác nghiệp và các nguồn dữ liệu ngoài Việc trích lấy dữ liệu nguồn có thể được thực hiện theo các phương thức: đọc nguồn một cách trực tiếp,

đọc một ảnh (image) của nguồn hoac doc bang (log tape)

Các kỹ thuật trích xuất dĩ liệu:

v⁄_ Viết các chương trình bằng các ngôn ngữ thủ tục như PL/SQL hoặc

các tiện ích cho phép chuyển dữ liệu thành dạng có thể mang đi

được

v Sử dụng các công cụ đặc biệt như Gateways, các connect driver

để truy nhập các cơ sở dữ liệu không cùng hệ quản trị

Các vấn để xung quanh việc trích lấy dữ liệu bao gốm: cơ cấu định kỳ thời gian trích dữ liệu, dữ liệu và hiệu quả của việc trích lấy dữ liệu

Với mợi phương thức trích chọn dữ liệu, siêu dữ liệu luôn đóng vai trò

quan trọng trong quá trình xử lí Siêu dữ liệu mẫu bao gồm các phần: các định

nghĩa của hệ thống nguồn, các khuôn dạng vật lí, phương thức và bản liệt kẽ quá

Ding Thi Thu Houting Khoa Cong nghé- DU Quée gia Ha ngi

Trang 26

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 26

trình trích lấy dữ liệu Có thể đùng các công cụ hoặc tạo tài liệu thủ công để thu được xiêu dữ liệu

2.3.2 Biến đối dữ liệu

'Tiến trình này sử đụng đữ liệu đã trích xuất để làm sạch, tích hợp, biến đổi nhằm mục đích thu được dữ liệu chất lượng cao hơn

Các công việc biếu đổi dữ liệu bao gém:

+“ Loại bỏ dữ liệu không mong muốn

v“ Định đạng nhất quán các dữ liệu khác nhau vẻ độ đo, khoảng thời

gian hay phương thức mã hoá

*⁄ Biến đổi vác quan hệ và các độ đo, chẳng hạn dữ liệu ở chô này cho thông tin về ngày sinh nhưng chỗ khác lại cho thông tin về tuổi

v⁄ Gắn các nhãn thời gian cho dữ liệu

Chúng ta cần nhận đạng cáu quy tắc biến đổi cho mỗi trường đữ liệu để

tích hgp dữ liệu vàu kho và nên cá các quy lắc mã hoá cấu ngoại lệ để giải quyết

những trường hợp không mong muốn, chẳng hạn như một trường trống

Vấn đề làm sạch đữ liệu:

Làm sạch dữ liệu là vấn để liêu tốn nhiều thời gian nhất trong toàn bộ dự

án xây dựng I2W Theo ước lượng, công việc này tiêu tốn khoảng 60% thời gian thực biện đự án [1] Cũng rất khó xác dịnh một cách chính xác công việc này tốn bao nhiêu thời gian và khí nào thì kết thúc

Làm sạch hoặc tình lọc đữ liệu liên quan đến việc đảm bảo định dạng nhất quần và cách sử dụng một trường hay một nhớm các trường liên quan Làm sạch

và tỉnh lọc được đùng ở đây như là các khái niệm có thể đổi cho nhan được, cùng,

để cập đến các biển đổi dữ liệu phức Lạp hơm các phép hiến đổi đơn giản, ở đó nội dung thực sự của trường hoặc nhóm các trường được quan tâm nhiễu hơn là định đạng lưu trữ Ví đụ: định dạng đúng thông tn vẻ địa chỉ Làm sạch và kiểm tra

những giá trị hợp lệ trong một trường chỉ tiết, sắp xếp danh sách kiểm tra hoặc

lựa chọn từ một danh sách liệt kê Tiến trình này thực hiện các công việc như: cấu

trúc lại các bản ghi, chuyển khuôn dạng, dơn vị của các trường chu nhất quấn,

Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi

Trang 27

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 27

loại bỏ hoặc đánh đấu dữ liệu có lỗi, chuyển giao các mối quan hệ về đữ liệu (ví

dụ quan hệ giữa số Luổi và năm sinh)

làm sạch đữ liệu là một chu trình kín và lặp đi lặp lại như hình vẽ vì quá trình tìm hiểu, khám phá chỉ có thể thực hiện được khi DW đã đi vào hoạt động

và cần thự: hiện liên tục Tiếp xau tiến trình khẩm phá là tiến trình phân luại các lỗi, sau đó phải ghỉ nhận và làm tài liệu về chúng Chu trình này có thể áp đụng

được cho tất cä các cha dé wong DW

i

co

ban ren

đơn giân đến những dữ liệu võ cùng phức tạp Các phép biến dởi dữ liện có thể

xảy ra bên trong cơ sở dữ liệu nhưng thông thường ở bên nguài cơ sở dữ liệu

Kỹ thuật biến dối dữ liệu:

Các kỹ thuật ở đây phù hợp với phần lớn các yêu cầu biến đổi trong thế giối thực Trong phần này đưa ra những kỹ thuật nền tầng vó thể ứng dụng vào việc thục hiện các phép biến đổi Một mong những công việc cơ bản của kho đữ liệu trích lấy dữ liệu từ hệ tác nghiệp và các nguồn khác, sau đó biến đổi hoặc làm sạch trước khi nạp vào kho I3W Mục tiêu cña việc biến đổi đữ liệu trong môi trường DW là cải tiến chất lượng dữ liện trong kho và cải thiện sự tiện lợi của đữ liệu trong kho

“trong một số trường hợp, quá trình này được gọi là tiến đổi, trong trường hợp khác lại gọi là làm sạch đữ liện, một vài công ty gọi là tiến mình S/T/I

Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi

Trang 28

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 23

(Scrubbing- lim sgch, Transformation- biến đổi, Integration tich hgp) Da tén 1a

gì thì quá trình này vẫn quyết định xự thành công và đấm bảo chất lượng đữ liệu trong DW Biến đổi đữ liệu là công việc có ý nghĩa hơn việc thay đổi cấu trúc đữ liệu đơn thuần khi chuyển dữ liệu vào kho Thực tế, phép biển đổi tốt sẽ cải tiến chất lượng và khả năng sử dụng của dữ liệu

Trang 29

tMiei kế ca sỗ dự Hạn trong kho dit lign- Data Warehouse Trang 29

Các phép biến đổi dã liệu cơ sở [6]:

Mỗi kiếu biến dổi đữ liệu có những đặc trưng riêng:

vˆ Biến đổi đơn giản:

Các phép biến đổi đơn giản là cơ sở của tất cả các phép biến đổi khác, được làm thủ công và chỉ tập rung vào một trường tại một thời điểm mà không quan tâm đến phạm vì thuộc tính đó liên quan Chẳng hạn, thay đổi

kiểu đữ liệu của một trường hay thay thế giá trị đã mã hoá của một trường, bằng giá Irị đã giải mã hoặu thay đổi định dạng thời gian Khí thiết kế và

xây đựng hệ tác nghiệp người ta thường ít chú ý đến việc tình bày các

định đạng thời gian nhất quán qua các ứng dụng Một trong những vĩ dụ

điển hình nhất là “sự cố năm 2000” mà chúng r đã phải đối mặt

ˆ Tích hợp:

'Tích hợp là tiến trình đưa đữ liệu tác nghiệp từ một hoặc nhiều nguồn

và ánh xạ chứng theo từng trường vào một cấu trúc đữ liệu mới trong DW

vˆ Tập hợp dữ liệu:

'Lập hợp đữ liệu là cáo phương thức đưa các đữ liệu tìm thấy trong môi trường tác nghiệp vào môi trường DW Trong một số trường hợp, dữ liệu được lận hợp, lưu trữ trương DW không chỉ tiết như trong mới trường lất nghiệp Trong trường hợp khác, việc tập hợp đữ liệu nhằm tạo kho dữ liệu

cục bộ chứa các phiên bản hợp nhất của dĩ liệu chỉ tiết có trong DW

'Iất cả các phép biến đổi đữ liệu kể trên đến phải đảm bảo thông tin trong

DW có chất lượng cao nhất và hữu ích nhất Nhiều tổ chức mới áp đụng phương THứp kho dữ liệu chí tập trung vào các phép biến đổi đơn giản và chuyển dữ liệu vào các cấu trúc kho mới mà khong chú ý dến việc làm tăng chất lượng dữ liệu C6 công ty cho rằng phép biến đổi dữ liệu là không cần thiết vĩ họ chỉ thử nghiệm

với đữ liệu mên một nguôn tác nghiệp đơn lẻ nên chua có nhu cẩu tích hợp và

thống nhất nhiều nguồn có thông tin chổng chéo và máu thuẫn Vì thế, việc hiểu cáu thành phần logic của phớp biến đổi kho dữ liệu là rất củn thiết để lập kế hoạch

thực hiện một cách đầy đủ, hoàn chỉnh và hợp lý

23.3 Tải dữ liệu vau kho

1 Định nghia

Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi

Trang 30

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 30

‘Tai dữ liệu là quá trình chuyển dữ liệu từ nơi lưu trữ dữ liện nguồn vào cơ

sở dữ liệu đích Trước hết, cần xác định khoảng thời gian và định kỳ cẩn thiết để chuyển dữ liệu vào kho Không những cần xem xét lần nạp đữ liệu đấu tiên mà

cồn phải quan tâm đến việc thường xuyên làm Lươi đữ liệu

Có hai loại tiến trình tải đữ liệu cơ bản sau:

+ 'Tiến trình tải đầu tiên: dùng để chuyến dữ liệu vào DW mới được xây dựng Tiến uình nãy chỉ được thực hiện một lần và không cần quan tâm

nhiều đến vấn để thời gian

*⁄ˆ Các tiến trình nạp dữ liệu tiếp theo: là công việc hàng ngày của DW Tin

trình này được kiểm soát chặt chẽ vẻ mặt thời gian

Ngoài ra, cồn một số tiến trình lải dữ liệu khác cũng cần đượu nhắu đến đá

Tà liến trình lãi dữ liệu ui DW vào DM hay tải dữ liệu vào các OLAP server

2 Kỹ thuật tải dữ liệu

Có thế đùng các kỹ thuật và công cụ san |9], [10]:

*⁄ Tạo bản sao đữ liện

Giao thức truyền tệp FTP (File Transfer Protocol)

+⁄ˆ Các tiện ích sao chép

v⁄ Các công giao tiếp

+*ˆ Các giải pháp hỗ trợ phần cứng

Xây dựng tiến trình HIT là một trong những công việc khó khăn nhất của

việc xây dựng kho đữ liệu vĩ tốn rất nhiều thời gian và phức tạp

3 Mật số vấn để cẩn quan tám

Khi thực hiện tải đữ liện cần lưu ý một số vấn để sau:

a Kế hoạch tải dữ liệu

Quá trình lên kế hoạch tải đỡ liệu cần tính đến cáu tông việc sau:

v⁄ Sắp xếp thứ tự dữ liệu cần tải

¥ Hop nhất đữ liệu: đữ liệu chỉ tiết từ các bản ghỉ được tổng hợp

(thường là rộng lại) nhưng phải thoả mãn mức độ chỉ tiết thấp nhất

ma DW di dé ra

y⁄'Tạo các bảng chứa dữ liệu tổng hợp

Trang 31

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 34

⁄ Thiết lận các nguyên tic bdo dim tinh toan ven do ligu ma DW da qui ước để thực hiện việc tải đữ liệu

¥ Tai dit lieu vio DW

¥ Thue hién việc thống kê lỗi và xử lý lỗi và làm báo cáo vẻ tiến

trình

Khi thực hiện tiến trình tãi, dữ liệu cần đảm bảu các Lính chất sau:

> Tính nhất quản: cân bảo dam uit cA dit liệu đến được nạp vào

DW ‘Trong quá trình nạp đữ liệu rất có thể xảy ra sự cố ở ngay

ti hệ thống của chúng ta hoặc trong hệ thống cung cấp dữ liệu

nguồn Khi đó hệ (hống phải ghỉ nhận đượu sự cố này và vớ

cách thức xử lý để đữ liệu đã được tải vào DW trở nên nhất

quán Cách đơn giản nhất là xoá tuàn bộ đữ liệu bị hồng và thực hiện lại tiến trình

> Tỉnh roàn vẹn: cân phải đảm bão mỗi giá trị khoá ở bảng sự kiện

đều được tam chiếu đến đúng một khoá ở bảng chiều

>_ Vấn đã dữ liêu thay đổi theo thời gian:

Nếu dữ liệu trong bằng sự kiện có tham chiếu tới đữ liệu

tiến đổi theo thời gian ở một bảng khác, tong quá trình sử dụng

giá trị này có thể bị thay đổi thì khi đồ dữ liệu wong bang su

kiện sẽ không đúng và đo vậy không đảm bảo dược lính nhất

quần về mặt thời gian

b Thời gian tãi dữ liệu

"Thời gian thực hiện tiến tình tái đữ liệu luôn là một vấn đẻ làm đau đầu gác nhà quản trị DW DW sử dựng dữ liệu từ rất nhiều nguồn khác nhau mà mỗi loại lại có một khoảng thời gian tổng hợp đữ liệu riêng Để có thể đông bộ hoá được dữ liệu từ nhiều nguồn khác nhau cần tính toán kỹ trước khi thực hiện

'tốt hơn cả là toàn bộ đữ liệu được (ập trung lại tong kho tạm hoặc được chuyển đến một nơi đuy nhất trong kho dữ liệu, sau đó tối vào DW tại một thời điểm thích hợp trong ngày Thời gian tải đữ liệu được lụa chọn sao cho ít ảnh hưởng đến công việc hiện tại của DW nhất

Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi

Trang 32

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang $2

e Năng lực cắn sử dụng

điên cạnh việc tính toán bộ nhớ lưu tro cho DW không thế bỏ qua được nhiệm vụ tính toán dung lượng bộ nhớ lưu trữ đùng trong tiến trình tải dữ liệu

"Tiến trình này cần một lượng khá lớn bộ nhớ trung gjan để lưu trữ dữ liệu t¿m

Ngoài m cẩn tính đến một số khã năng khác mà hệ thống cần phải đáp ứng để có thể thự: hiện được liến trình lãi dữ liệu như:

+⁄ Tốc độ truy xuất đĩa cứng hoặc băng từ

v⁄ Khả năng truyền tải dữ liệu của mạng hiện có

+“ Khả năng tính toán của máy chủ và hệ thống xử lí song song đang đùng 'Tấi cả những vấn để trên gần phải được giải quyết, ¿ẩn cá những thử

nghiệm trên hệ thống thực để tính toán năng lực và xem chúng có thế đáp ứng được yêu cần hay không Dữ liệu xeu khi được trích Lừ các nguồn khéư nhau thường đưa vào một kho lạm (siaging are) để xử lí rỗi mối đưa vàu DW Ngoài lí

đo để tiện lợi cho việc xử lí, kho tạm cũng giúp giảm bớt thời gian ngừng trệ của

hệ thống, tăng tốu độ nạp dữ liệu vàu DW

2.4 DUY TRÌ DỮ LIỆU TRƠNG KHO

2.4.1 Làm tươi dữ liệu

Dữ liệu trong kho phải được cập nhật để có những thông tỉn mới nhất và

đuy trì những “ảnh chụp nhanh” sau cùng của dữ liệu Chẳng hạn, tình trạng hôn

nhân của một người có thể thay đổi theo thời gian, từ độc thân sang có gia đình Nhữmg thay đổi đó phải được phân ánh trong kho đữ liệu Quá trình này gọi là làm tươi dữ liệu nhằm đắm bảo dữ liện được cập nhật định kỳ và khi đữ liệu đang phân tích cũng có thể cập nhật nếu có những thay đổi Để tăng tốc độ tính toán, hầu hết

các DW được nạp vào theo lô sau khi hệ thống trực tuyến ngừng làm việc (shut

down), và tất cả các giá trị tổ hợp được đưa vào các bảng tổng hợp Theo hướng này, DW thực hiện nạp dữ liệu tập trung vào giờ nghỉ, thực hiện các truy vấn trong giờ làm việc [9]

2.4.2 Chu kỳ làm tươi dữ liệu

Làm tươi đữ liệu là công việc quan trạng và thường xuyên, cần được lập kế hoạch cẩn thận nhằm đảm bão cho người đùng có được đữ liệu mong muốn Các

Trang 33

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang $3

nhân tố xác định chu kỳ làm tươi dữ liệu trong kho: lượng đữ liệu dược chuyển, tính chất của tơ xở dữ liệu, rác giải pháp kết nối dùng để chuyển dữ liệu vào kho

“Tan 86 cha việc làm tươi dữ liện được quyết định bởi:

Vv Các yêu cầu nghiệp vụ: dựa trên tính chất chia nhỏ chiểu thời gian,

người đùng nghiệp vụ có thể phân tích đến mức chỉ tiết nhất Đây là điểm xuất phát của việc xác định chn kỳ cập nhật dữ liện

' Tính sẵn sàng của đữ liệu: đữ liệu có thế dùng được và phù hợp với

những vấn đẻ đã trình bây nếu nạp vào kho đữ liệu Thông thường, đữ

liệu giải quyết hàng ngày được làm cho mg thích và nạp hàng tuần ' Các nghiên cứu về kỹ thuật: Cần thiết kế các tình huống làm tươi đữ liện nhằm đâm bảo quá trình nạp hợp lý Làm tươi đữ liện đòi hỏi tài

nguyên rất lớn Chu kỹ làm tươi đữ liệu c6 thể chịu ảnh hưởng bởi đặc

điểm kỹ thuật cña hệ thống

2.4.3 Cách làm tươi dữ liệu

Có một số cách nắm bắt những thay đổi của đữ liệu [9], [10]:

vˆ Thay thế toàn bộ đữ liệu trong kho: kho được làm tươi theo chu kỳ của

cáu hoại động tác nghiệp Phương pháp này chỉ phí cao và dữ liệu mang tính lịch sử bị hạn chế

¥ So sénh cfc thé hiện của CSDL để có thể nắm bắt được sự khác nhau

của hai thể hiện của cùng mot CSDL

7 Nếu gắn nhãn thời gian cho các dũ liệu thay đổi, c6 thể nhanh chồng fim thấy đữ liệu thay đổi ở chu kỳ làm tươi trước đó

¥ Tao CSDL tung gian delta để chứa những thay đổi được tạo ra cho hệ tác nghiệp từ việc làm tươi trước đó

' Nếu duy tì CSDL file log với sự giải thích bằng những hình ảnh

“trước” và “sau" cña đữ liệu, có thể phân tích chúng theo từng đợt để tầm ra sự khác nhau từ tệp đelta

*ˆ Thực hiện ngay bên trong CSDL bằng cách thêm các trigger vao CSDL

để phi lại các thay đổi khi có thao tác cập nhật dữ liệu

Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi

Trang 34

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang $4

Quân lý nạp kho đữ liệu nhằm kiểm soát việc chuyển đữ liệu vào kho

Công việc này cần được lập trình cẩn thận dé dam baa có thể xác nhận được việc:

nạp, tính đúng đán của đữ liệu đã chuyến vào kho, có thể kiểm tra, giải quyết

dược các sự cố khi nạp và cung cấp thông tìn thống kê

Nếu tự động hoá và lập lịch, chức năng này còn có thể kiểm soát việc cập nhật, làm tươi đữ liện

2.5.2 Quản lý kho dữ liệu

CSDL kho được quân lý bởi máy chủ với cáu khả năng như sao lưu, bảo mật và đuy trì, phải đáp ứng được các yêu cầu sau:

ˆ Quản lý số lượng lớn đữ liệu ở đạng thô và hoạt động ốn định

vˆ Hỗ ượ khối lượng công việc không đoán trước được

ˆ Duy trì sự tích hợp của đữ liệu trong kho

ˆ Cùng cấp cách truy nhập phù hợp lới dữ liệu

'thêm vào đó, các quá trình phải theo đối được các cập nhật trong kho

25.3 Quản lý truy văn

Quần lý truy vấn là một tiến trình giải quyết các công việu sau:

v7 Xác định đường đẫn truy nhập dữ liệu tốt nhất từ siêu dữ liệu

v7 Lập lịch và thực hiện các truy vấn theo sự kiện trigger

ˆ Các truy vấn thực hiện theo phương thức hàng đợi khi các cách lối ưu

đã có sẵn

¥ Theo dai và kiểm tra việc thực hiện các truy vấn

*ˆˆ Dự đoán khối lượng công việc và cách sử dụng CPU

7ˆ Nhận dạng các truy vấn thường xuyên và ưu tiên chúng

Trang 35

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang $5

¥ Nhận đạng các truy vấn và các tổng hợp không được dùng và loại bỗ

*⁄ Nhận dạng các tống hợp nên có sẩn để tăng tốc độ thực hiện truy vấn

*ˆ Hỗ trợ truy vấn đa chiểu: Một cách quan sát mô hình đữ liệu nhiều chiéu là nhìn nó như một hình khối:

Ví dụ: Có dữ liệu bền hàng như sau:

PHẨM — TRƯỜNG | GIAN "ÔN _

"Hình 2.4 Trợ vấn dữ liệu âa chiêu

-iảng nằm bên trái chứa đữt liệu bán hàng chỉ tiết theo sẵn phẩm, thị trường,

và thời gian Hình khối nằm hên phải thể hiện xố lượng hồng bán được theo tấc chiếu: sản phẩm, thị trường và thời gian - với các biến đơn vị được tổ chức như là

các tế bào trong một đấy Hình khối này có thể mở rộng bằng cách thêm một đấy kháu - theu một chiều khấu nữa là giá tiền - liên quan tối lãi cả hoặc chỉ một vài

chiểu (giá tiền của một sản phẩm có thể hoặc không thay đổi theo thời gian hoặc không thay đổi từ thành phố này tối thành phố khác) Khối này được hỗ trợ tính toán ma trận cho phép thể hiện số tiển bán được một cách đơn giản là thực hiện

một phép toán trên tất cả các ð của đãy này (số tiền = số lượng x giá tiển)

‘Thai gian trả lời một truy vấn đa chiểu phụ thuộc vào số lượng ô được thêm

vào trong quá trình thực hiện Khi số lượng chiều tăng thì số ô của khối này tăng theo cấp số mũ Bên cụnh đó, truy vấn đa chiều đều liên quan lới những dữ liệu ở

mức cao và đữ liệu tổng hợp Vì vậy, giải pháp để xây dựng một cơ sở đữ liệu đa chiểu có hiệu quả là kết hợp từ trước Iãt cả cấc lỔng con logic và cầu lổng theo lất

cả các chiếu Sự kết hợp trước này đặc biệt có giá trị khi các chiểu mang tính

Ding Tht The Huong Khoa Gang nghe- DIG Qube gia Ha npi

Trang 36

Thist bé'eo' s6 dit ligu trong kho dit ligu ~ Data Warehouse Trang 36

phân cấp Lấy ví dụ như theo chiểu thời gian có thể phân rã thành năm, quí, tháng, tuần, và ngày Một sự phân cấp được định nghĩa từ trước đối với các chiều cho phép có một sự kết hợp logic từ trước và cũng cho phép thực hiện khả năng khoan sâu (drill down) dữ liệu, từ một nhóm các sản phẩm xuống từng sản phẩm riêng rẽ, từ việc bán hàng theo từng năm xuống theo tuần

2.6 QUÁ TRÌNH PHÁT TRIỀN KHO DỮLIỆU

Hình 2.5 Mõ tả các quá trình phát triển kho dữ liệu

Có thể khái quát quá trình phát triển kho dữ liệu bằng 3 quá trình chính với mục đích là: cung cấp, lưu trữ và sử dụng

v⁄ Cung cấp: trích xuất, biến đổi, truyền dữ liệu từ các nguồn dữ liệu và nạp vào kho chứa dữ liệu

*⁄ Lưu trữ: Sau khi dữ liệu được nạp vào kho cần được lưu trữ và quản lý

và tối ưu hoá nâng cao hiệu suất và hiệu quả sử dụng

Y Sử dụng: Sau khi dữ liệu được nạp và lưu trữ, có thể truy cập nhằm hỗ trợ quyết định hoặc trích xuất tạo ra báo cáo hay các kho dữ liệu chủ

để đặc biệt

Ding Thi Thu Huong Khou Cong nghé- DH Quée gia ir agi

Trang 37

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 37

CHƯƠNG 3: THIẾT KẾ CƠ SỞ DỮ LIỆU TRONG KHO

3.1 MO HINH DULIEU TRONG DW

Theo cách truyền thống, đữ liệu trong mơi trường OLTP thường được xây dựng theo mơ hình quan hệ thực thể (Entity Relationship - ER) Với sự ra đời của kho đữ liệu, cần cĩ kỹ thuật xây dựng mĩ hình đữ liệu đáp ứng được những yêu cầu mới nhằm hỗ trợ mơi trường phân tích đữ liệu

Ban chất đa chiều của các câu hỏi trong kinh doanh được phản ánh trong thực tế Một trong những nguyên tắc nên tảng của cơ sở đữ liệu da chiều là ý tưởng về tĩnh tổng hợp Các nhà quản lý ở các cấp khác nhau yêu cầu các mức

tổng hợp khác nhau về đữ liệu để tạo ra các quyết định phù hợp Để nhà quần lý

lựa chọn được mức tổng hợp, kho chứa phải cĩ khả năng khoan sâu, cho phép điều chỉnh mức chỉ tiết, thệm chí đến tận đỡ liệu tíc nghiệp ban đâu Hình vẽ sau

Tà một ví dụ minh họa cho việc tổng hợp đữ liệu ở các mức khác nhau:

Casi a hea ie may

Hinh 3.1 Qud trình tổng hợp và khoan sâu dữ liệu

"Trong một số kiểu tổng hợp đữ liệu, thơng dụng nhất là cuốn (roÏl_up), vỉ

đụ: lấy tổng số bán hàng theo ngày rồi “cuốn” vào bằng bán hàng theo tháng

Dạng phức tạp hơn là tập hợp trên cơ sở các phép toần logic và so sinh Mot sé

mơ hình dữ liệu cĩ thể đáp ứng được những yêu cần đĩ được giới thiệu dưới đây:

Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi

Trang 38

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 33

3.1.1 Giản đồ hình sau

Gián đổ hình sao duge Dr Ralph Kimball dé xudt ding trong thiết kế cơ sở

đữ liệu cho DW [8] Trong giân đồ hình sao, dữ liệu được phân lầm 2 loại: sự kiện và chiêu, Bằng sự kiện chứa yếu tố cốt lõi cần được phân tích Gọi là giản đổ hình sao vì các sự kiện nằm ở trung tâm của mô hình về được bao quanh bởi rác chiêu liên quan, rất giống với các đặc điểm của ngôi sao Cúc sự kiện là các đại lượng nghiệp vụ dễ dược số hoá Các chiều là các bộ lọc hoặc các rằng buộc của những sự kiện này Chẳng hạn, thong tổn vẻ khách hàng như tên, địa chỉ là một chiếu, trong khi đó thông tin bán hàng cho khách là một sự kiện

Nguyên lý cơ bản của giản đồ hình sao là một dạng đư thừa dữ liệu nhằm tăng tốc độ thực hiện các truy vấn Với giản đô hình sao, người thiết kế cố thể đế đàng mô phéng các chức năng của cơ sử đữ liệu đa chiều Việc phí huẩn có thể coi là tiên kết nối (pre joining) các bằng để cho các ứng đụng không phải thực hiện công việc kết nổi, giảm thời gian thực hiện

"Thiết kế giản đổ hình sao khắc phục được những hạn chế của mỏ hình quan hệ Trong cơ sở đữ liệu thiết kế theo giản đổ hình sao, các truy vấn với những cân hỏi phức tạp liên quan tới nhiều bảng và số liệu tổng trở nên đơn giản hơn, số lượng công việc cẩn làm ít hơn sơ với một mô hình quan hệ chuẩn Giản

đồ hình sao rất trực quan, dễ sử đụng, thể hiện khung nhìn đa chiều của dữ liệu đồng ngữ nghĩa của cơ sở dữ liệu quan he, cải thiện đáng kể thời gian truy vấn và cho phép thực hiện một số tính năng đa phạm vì Khổa của bằng sự kiện được tạo bởi khóa của các bằng chứa thông tin theo chiều 1t cả các khóa đều được định nghĩa theo cùng một chuẩn đặt tên,

Để lấy được thông tin, chẳng hạn liên quan đến thành phố của một khách hàng cụ thể, cẩn phải kết hợp khóa chỉ khách hàng đó trong bảng sự kiện với khóa của khách hàng đó trong bảng chiều và đặt thuộc tính thành phố của khách hàng dó là thành phố cần quan tâm

Những bảng sự kiện có chứa khóa của các bằng chiều có thể đùng tên khắc

dé dam bảo tính duy nhất của mỗi bản ghi, Các bang chiêu thường có định đanh

Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi

Trang 39

tMiei kế ca sỗ dự Hạn trong kho dit lign- Data Warehouse thang 40

duy nhất và chứa đựng những thóng tỉn vẻ chiểu của bảng đó Số lượng các bằng, chiều của mỗi bằng sự kiện là từ 3 đến 5

Vì bằng sự kiện được tổng hợp từ trước và được kết hợp theo nhiễu chiều nên bảng này có xu hướng chứa nhiều bản ghỉ và xố lượng bản ghỉ tăng nhanh chóng trong khi các bảng chiều lại có ít bản ghỉ Hằng sự kiện có thể có hàng triệu bản ghi Bảng chiều chứa các thuộc tính có thể sứ dụng như cốc tiêu chí tìm kiếm và thường có kích thước nhỏ hơn nhiều, rất quen thuộc với người sử dựng từ trước Khoá ở bảng chiều không là khoá ghép như bằng sự kiện Nếu một bằng, chiêu được tách thành nhiều chiều thì kết quả gợi là giấn đổ hình tuyết rơi (snowflake) hoặc cấu trúc sao mở rộng

Một số kỹ thuật cấi thiện hiệu suất của cốc truy vấn trong giản đồ hình

*“ Phân hoạch bảng sự kiện để hầu hết các truy vấn chỉ truy nhập phân

đó, v⁄_ Tạo ra các hãng sự kiện độc lập

*f Tạo ra những tệp chỉ số đơn duy nhất hoặc các kỹ thuật khác để cải

thiện năng suất kết hop

Bảng sự kiện và cúc bảng chiều trong kho đữ liệu không nhất thiết ở đạng chuẩn như dối với phương pháp thiết kế truyền thống nên có dư thừa dữ liệu Giản

đô này cho phép lưu trữ đữ liệu đư thừa những khả năng truy nhập nhanh hơn,

phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp Vẻ bản chất bằng sự kiện thuộc đạng chuẩn I, lượng dữ liệu dư thừa rất lớn

Có thể nói giãn đồ hình sao là một cơ sở dữ liệu chỉ dọc, việc cập nhật dữ

liệu là rất khó Một số bằng chiều có thể thêm dữ liệu vào bằng các truy vấn có

kết nối, một xố bảng khác lại vớ thể không uhứa dữ liệu gì mã chỉ phục vụ việc

đánh chỉ số cho đữ liệu

Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi

Trang 40

(Giải kế ca od det tiga trong kho dit liga - Data Warehouse Trang 40

Hinh 3.2 Gidn dé hink sao

3.1.2 Giản đỏ hình tuyết roi

Giản đồ hình tuyết rơi là một mở rộng của giản đổ hình sao, tại mỗi cánh

sau không phối một bảng chiều mà có nhiều bảng Trong đạng giãn đổ này, mỗi bằng chiếu của giấn đỗ hình sao được chuẩn hóa hơn Giản đồ hình tuyết rơi tối thiểu không gian đĩ: cần thiết để lưu trữ đữ liệu và cải thiện năng suất truy vấn nhờ việc chỉ kết hợp những bằng có kích thước nhỏ mà không kết hợp những bằng có kích thước lớn, không chuẩn hóc Điều này làm tăng tính linh hoạt của các ứng dụng bởi có sự chuẩn hóa và ït mang bản chất chiên hơn nhưng lầm tăng

số bằng và tăng tính phức tạp của một vài truy vấn cân có sự tham chiếu tới nhiều bảng, Một xổ công cụ che giấu người sử đụng cuối giản đồ cơ sở dữ liệu vật lí và

cho phép họ lầm việc ở mức khái niệm, Những công cụ này ánh xạ những truy vấn của người sử dụng tới sơ đô vật lí Hợ cần một bộ quản trị cơ sở đỡ liệu để thực biện công việc này lần dầu tiên khi công cụ được cài đặt Giản đồ hình tuyết rơi đưới đây là mở rộng của mô hình sao ở trên

Ding Tht The Huong Khoa Gang nghe- DI Qube gia Ha nbi

Ngày đăng: 21/05/2025, 19:59

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1.. Đỗ Việt Nga(1999): Thiết kế hệ thống trong xây dựng Data Wurehonse và Sách, tạp chí
Tiêu đề: Thiết kế hệ thống trong xây dựng Data Warehouse
Tác giả: Đỗ Việt Nga
Năm: 1999
3. Tổng cục thuế (2002): Hệ thống quân lý thu thuế cấp Cục, cấu trúc cơ sở dữ liệu.TIẾNG ANH Sách, tạp chí
Tiêu đề: Hệ thống quân lý thu thuế cấp Cục, cấu trúc cơ sở dữ liệu
Tác giả: Tổng cục thuế
Năm: 2002
4. Alex Berson, Suephen J. Smilh, MeGaw Hill (1997): Data Warehousing, Data Mining and OLAP Sách, tạp chí
Tiêu đề: Data Warehousing, Data Mining and OLAP
Tác giả: Alex Berson, Suephen J. Smilh, MeGaw Hill
Năm: 1997
5. Bary Devin (1997): Dara Warehouse from Architecture to implementation. Addison Wesley Longman Sách, tạp chí
Tiêu đề: Dara Warehouse from Architecture to implementation
Tác giả: Bary Devin
Nhà XB: Addison Wesley Longman
Năm: 1997
6. Joyce Bischoff and Ted Alexander: Dara Warehouse: Practical Advice from the Experts, Prentice Hall Upper Saddle River, New Jersey 07458 Sách, tạp chí
Tiêu đề: Dara Warehouse: Practical Advice from the Experts
Tác giả: Joyce Bischoff, Ted Alexander
Nhà XB: Prentice Hall Upper Saddle River, New Jersey 07458
Năm: N/A
7. Oracle Coporation (1997): Database design for Oracle Warehouse, 50103GC10, Production 1.0, M05909 Sách, tạp chí
Tiêu đề: Database design for Oracle Warehouse
Tác giả: Oracle Corporation
Năm: 1997
8. Oracle Coporation (1997): Introduction to Duta Warehousing, Part Number M06089, WWE Course Guide 50101GC13 Sách, tạp chí
Tiêu đề: Introduction to Duta Warehousing
Tác giả: Oracle Corporation
Năm: 1997
9. Oracle Coporation (2001): Data Warehousing Guide, Release 1 (9.0.1), Part. No. A90237-01 Sách, tạp chí
Tiêu đề: Data Warehousing Guide, Release 1 (9.0.1)
Tác giả: Oracle Corporation
Năm: 2001
10. Oracle Coporation (March 2002): Oracie¥i Data Warehousing Guide (9.2) Sách, tạp chí
Tiêu đề: Oracle Data Warehousing Guide (9.2)
Tác giả: Oracle Corporation
Năm: 2002
11. Oreele Caporation (2003): Oracle9i Warehuuse Builder Tastallation and Configuration Release 2 (9.0.4) for Windows and Unix, Part No. BLO656- ol Sách, tạp chí
Tiêu đề: Oracle9i Warehouse Builder Installation and Configuration Release 2 (9.0.4) for Windows and Unix
Tác giả: Oreele Caporation
Năm: 2003
12. Oracle Copuration (2003): Oracle@i Warehouse Ruilder Scripting Reference, Release 2 (9.044) for Windows and Unix, Part Nu. BIO659-01 Sách, tạp chí
Tiêu đề: Oracle@i Warehouse Ruilder Scripting Reference, Release 2 (9.044) for Windows and Unix
Tác giả: Oracle Copuration
Năm: 2003
13. Oracle Coporation (2003): Oracie9i Warehouse Builder Transformation Guide Release 2 (9.0.4) for Windows and Unix, Part No, B10658-01 Sách, tạp chí
Tiêu đề: Oracie9i Warehouse Builder Transformation Guide Release 2 (9.0.4) for Windows and Unix
Tác giả: Oracle Corporation
Năm: 2003
14, Oracle Coporation (2003): Oracle9i Warehouse Builder User's Guide Release 2 (9.0.4) for Windows and Unix, Part No, B10657-01 Sách, tạp chí
Tiêu đề: Oracle9i Warehouse Builder User's Guide Release 2 (9.0.4) for Windows and Unix
Tác giả: Oracle Corporation
Năm: 2003
15, Ramez Elmasri and Shamkant B. Navathe (2000): Fradamentals of Dutubase Systems, Third Edition, International Edition Sách, tạp chí
Tiêu đề: Fundamentals of Database Systems
Tác giả: Ramez Elmasri, Shamkant B. Navathe
Nhà XB: International Edition
Năm: 2000
16. Ramon C. Barguin, HerberL AEdelsiein (1997): Ruilding, using and managing the Data Warehouse, The Data Warehousing Institute Series from Prentice Hall PTR, Upper Saddle River, New Jersey 07458 Sách, tạp chí
Tiêu đề: Ruilding, using and managing the Data Warehouse
Tác giả: Ramon C. Barguin, HerberL AEdelsiein
Nhà XB: The Data Warehousing Institute Series from Prentice Hall PTR
Năm: 1997
17. Vidette Poe (1997): Bulding a Data Warehouse for Decision support, Prentice Hell Sách, tạp chí
Tiêu đề: Bulding a Data Warehouse for Decision support
Tác giả: Vidette Poe
Nhà XB: Prentice Hell
Năm: 1997

HÌNH ẢNH LIÊN QUAN

Hình  1.1  Tính  hướng  chủ  đề  của  dữ  liệu  trong  DW - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 1.1 Tính hướng chủ đề của dữ liệu trong DW (Trang 9)
Hình  1.4  Tĩnh  không  thay  đổi  của  đữ  liệu  trong  DW - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 1.4 Tĩnh không thay đổi của đữ liệu trong DW (Trang 11)
Hình  L8  Kiến  trúc  cơ bản  của  kho  dữ  liệu. - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh L8 Kiến trúc cơ bản của kho dữ liệu (Trang 18)
Hình  1.10  Kiến  trúc  Datamart  độc  lập. - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 1.10 Kiến trúc Datamart độc lập (Trang 20)
Hình  2.1  Mô  hình  các  thành  phần  kho  dữ  liệu  [8]- - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 2.1 Mô hình các thành phần kho dữ liệu [8]- (Trang 23)
Hình  2.3  Mộ  tả  quả  trình  lầm  sạch  dữ  liệu. - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 2.3 Mộ tả quả trình lầm sạch dữ liệu (Trang 27)
Hình  2.5  Mõ  tả  các  quá  trình  phát  triển  kho  dữ  liệu. - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 2.5 Mõ tả các quá trình phát triển kho dữ liệu (Trang 36)
Hình  3.5  Vĩ  dụ  tính  toán  dung  lượng  CSDL  bằng  cách  ước  lượng  trung - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 3.5 Vĩ dụ tính toán dung lượng CSDL bằng cách ước lượng trung (Trang 51)
Hình  3.6  Cách  tính  theo  cách  ước  lượng  thô - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 3.6 Cách tính theo cách ước lượng thô (Trang 52)
Hình  4.2  Mô  hình  kho  dữ  liệu  chủ  đề  kế  toán  thuế. - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 4.2 Mô hình kho dữ liệu chủ đề kế toán thuế (Trang 67)
Hình  4.4  Giản  đồ  hình  sao  bing  Fact  DW_FT_DTNT - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 4.4 Giản đồ hình sao bing Fact DW_FT_DTNT (Trang 70)
Hình  4.6  Kết  xuất  dữ  liệu  theo  thời  gian - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 4.6 Kết xuất dữ liệu theo thời gian (Trang 80)
Hình  4.7  Nạp  dữ  liệu  vào  bing  Dimension. - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 4.7 Nạp dữ liệu vào bing Dimension (Trang 83)
Hình  4.8  Sa  sánh  hệ  thống  dàng  và  không  đùng  cơ  chế CŨC. - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 4.8 Sa sánh hệ thống dàng và không đùng cơ chế CŨC (Trang 86)
Hình  4.9  Nạp  dữ  liệu  vao  bang  Fact - Luận văn thiết kế cơ sở dữ liệu trong kho dữ liệu data warehouse
nh 4.9 Nạp dữ liệu vao bang Fact (Trang 87)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm