1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng hệ thống data warehouse và business intelligence ứng dụng trong ngành bưu chính của tổng công ty bưu điện việt nam

106 31 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 106
Dung lượng 3,54 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DANH SÁCH CÁC THUẬT NGỮSTT Thuật ngữ Ý nghĩa Tiếng Việt1 roll-up Tổng hợp lên - xem dữ liệu ở mức cao hơn dữ liệu đang ở mức tháng khi roll-up sẽ xem dữ liệu tổnghợp ở mức quý, hoặc mức

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN THỊ GIANG

XÂY DỰNG HỆ THỐNG DATA WAREHOUSE VÀ

BUSINESS INTELLIGENCE ỨNG DỤNG TRONG NGÀNH BƯU CHÍNH CỦA TỔNG CÔNG TY BƯU ĐIỆN VIỆT NAM

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI - 2015

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN THỊ GIANG

XÂY DỰNG HỆ THỐNG DATA WAREHOUSE VÀ

BUSINESS INTELLIGENCE ỨNG DỤNG TRONG NGÀNH BƯU CHÍNH CỦA TỔNG CÔNG TY BƯU ĐIỆN VIỆT NAM

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYÊN HẢI CHÂU

HÀ NỘI - 2015

Trang 3

Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Nguyễn HảiChâu, người đã tận tình hướng dẫn và chỉ bảo tôi trong suốt quá trình thực hiện khóa luậntốt nghiệp đại học và luận văn cao học.

Tôi chân thành cảm ơn các thầy, cô trong trường Đại học Công nghệ đã cho tôi một môitrường rất tốt để học tập và nghiên cứu Các thầy cô đã giảng dạy và cho tôi những kiếnthức quý báu, làm nền tảng để tôi hoàn thành luận văn cũng như công việc trong tươnglai

Tôi cũng xin gửi lời tri ân tới các anh, chị, bạn học viên K19 đã luôn bên cạnh, ủng hộ vàgiúp đỡ tôi trong suốt quá trình học tập tại trường

Cuối cùng, tôi muốn gửi lời cảm ơn vô hạn tới gia đình và bạn bè – những người thân yêuluôn ở bên, khuyến khích và động viên tôi trong cuộc sống cũng như trong học tập

Tôi xin chân thành cảm ơn

Hà nội, tháng 5 năm 2015

Học viênTrần Thị Giang

Trang 4

Tôi xin cam đoan đề tài Xây dựng hệ thống Data Warehouse và Business Intelligenceứng dụng trong ngành bưu chính của Tổng công ty Bưu điện Việt Nam được trình bàytrong luận văn này là do tôi thực hiện dưới sự hướng dẫn và chỉ bảo của PGS.TS NguyễnHải Châu.

Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc mộtcách rõ ràng trong danh mục Tài liệu tham khảo của luận văn Trong luận văn, không cóviệc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệutham khảo

Hà nội, tháng 5 năm 2015

Học viênTrần Thị Giang

Trang 5

MỤC LỤC

MỤC LỤC i

DANH SÁCH CÁC BẢNG iv

DANH SÁCH CÁC HÌNH VẼ v

DANH SÁCH CÁC TỪ VIẾT TẮT vii

DANH SÁCH CÁC THUẬT NGỮ viii

MỞ ĐẦU 1

CHƯƠNG 1: GIỚI THIỆU VỀ DATA WAREHOUSE VÀ BUSINESS INTELLIGENCE 3

1 Các khái niệm cơ bản 3

1.1 Định nghĩa Data Warehouse 3

1.2 Định nghĩa Business Intelligence 4

2 Lợi ích của hệ thống Data Warehouse và Business Intelligence 5

3 Kiến trúc của hệ thống Data Warehouse và Business Intelligence 6

3.1 Data Source - Dữ liệu nguồn 7

3.2 Data Warehouse - Kho dữ liệu tập trung 7

3.3 Tầng Business Intelligence (BI) 8

3.4 Administration (Quản trị hệ thống) 8

4 Thiết kế logic hệ thống Data Warehouse và Business Intelligence 8

4.1 Thiết kế thành phần Data Warehouse 8

4.1.1 Các mô hình CSDL trong Data Warehouse 8

4.1.2 Một số thuật ngữ trong Data Warehouse 10

4.1.3 Thiết kế CSDL chủ đề (Data Mart) 11

4.1.4 Thiết kế CSDL tích hợp (Enterprise Model - EM) 13

4.1.5 Thiết kế CSDL trung chuyển (Data Staging Area – DSA) 15

4.1.6 Thiết kế tiến trình Thu thập, làm sạch và tích hợp dữ liệu (Extraction -Transformation - Loading - ETL) 17

4.2 Thiết kế metadata 18

Trang 6

4.3 Thiết kế tầng khai thác và phân tích thông tin 18

4.3.1 Thiết kế CSDL đa chiều với OLAP 18

4.3.2 Thiết kế tầng khai thác và phân tích thông tin 19

CHƯƠNG 2: BÀI TOÁN XÂY DỰNG HỆ THỐNG DW VÀ BI TẠI VNPOST 21

1 Hiện trạng ngành bưu chính của Tổng công ty bưu điện Việt Nam 21

1.1 Hiện trạng các hệ thống công nghệ thông tin 21

1.2 Hiện trạng công tác lập báo cáo tổng hợp 22

1.3 Vấn đề đặt ra 23

2 Mục tiêu bài toán 23

3 Phạm vi bài toán 24

CHƯƠNG 3: KHẢO SÁT, PHÂN TÍCH, THIẾT KẾ VÀ TRIỂN KHAI HỆ THỐNG DW VÀ BI TẠI VNPOST 25

1 Khảo sát 25

1.1 Khảo sát dữ liệu nguồn 25

1.2 Khảo sát báo cáo 26

2 Phân tích, thiết kế 29

2.1 Thiết kê kiến trúc tổng thể 29

2.2 Thiết kế các CSDL chủ đề 31

2.3 Thiết kế CSDL EM 35

2.4 Thiết kế CSDL DSA 36

2.5 Thiết kế tiến trình ETL 37

2.5.1 ETL các bảng danh mục 37

2.5.2 ETL các bảng sự kiện 42

2.5.3 Thiết kế tầng Business Intelligence 58

3 Triển khai 59

3.1 Cài đặt hệ thống 59

3.2 Triển khai module ETL 60

3.2.1 Module ETL tổng hợp 60

Trang 7

3.2.2 ETL bảng danh mục D_POST 61

3.2.3 ETL bảng danh mục D_PRODUCTION 61

3.2.4 ETL bảng danh mục D_COST 62

3.2.5 ETL bảng sự kiện F_BCCP 62

3.2.6 ETL bảng sự kiện F_TCBC 63

3.2.7 ETL bảng sự kiện F_REVENUE 64

3.2.8 ETL bảng sự kiện F_COST 65

4 Kết quả 66

KẾT LUẬN 74

TÀI LIỆU THAM KHẢO 76

Trang 8

DANH SÁCH CÁC BẢNG

Bảng 1: Thực trạng công nghệ của các phần mềm tại VNPOST 22

Trang 9

DANH SÁCH CÁC HÌNH VẼ

Hình 1: Đặc trưng của Data Warehouse 3

Hình 2: Lợi ích của DW và BI trong hỗ trợ ra quyết định 5

Hình 3: Mô hình kiến trúc tổng thể 6

Hình 4: CSDL hình sao 9

Hình 5: CSDL hình bông tuyết 9

Hình 6: ERD của một Data Mart về Doanh số 13

Hình 7: ERD của một Enterprise Model 15

Hình 8: Báo cáo mẫu về tổng hợp cân đối kế hoạch SXKD toàn Tổng công ty 27

Hình 9: Báo cáo mẫu về Sơ kết công tác 6 tháng 28

Hình 10: Báo cáo mẫu Tình hình sản xuất kinh doanh khối HTPT 29

Hình 11: Kiến trúc tổng thể của hệ thống tại VNPOST 29

Hình 12: Sơ đồ quan hệ của CSDL chủ đề Sản lượng dịch vụ BCCP 31

Hình 13: Sơ đồ quan hệ của CSDL chủ đề sản lượng dịch vụ TCBC 32

Hình 14: Sơ đồ quan hệ của CSDL chủ đề doanh thu 33

Hình 15: Sơ đồ quan hệ của CSDL chủ đề chi phí 34

Hình 16: Sơ đồ quan hệ của CSDL EM 35

Hình 17: Luồng dữ liệu của các bảng danh mục 37

Hình 18: Luồng dữ liệu của bảng sự kiện F_BCCP 42

Hình 19: Luồng dữ liệu của bảng sự kiện F_TCBC 45

Hình 20: Luồng dữ liệu của bảng sự kiện F_REVENUE 48

Hình 21: Luồng dữ liệu của bảng F_COST 53

Hình 22: Kết quả cài đặt hệ quản trị CSDL và tầng Business Intelligence 59

Hình 20: Module ETL tổng hợp 60

Hình 21: Module ETL bảng danh mục D_POST 61

Hình 22: Load dữ liệu từ file excel Danh sách tỉnh thành vào bảng DSA_D_POST 61

Hình 23: Module ETL bảng danh mục D_PRODUCTION 61

Trang 10

Hình 24: Load dữ liệu từ file excel Danh sách dịch vụ vào bảng DSA_D_PRODUCTION 61

Hình 25: Module ETL bảng danh mục D_COST 62

Hình 26: Load dữ liệu từ file excel Danh sách khoản chi phí vào bảng DSA_D_COST 62 Hình 27: Module ETL bảng sự kiện F_BCCP 62

Hình 28: Load dữ liệu từ file excel Danh sách sản lượng dịch vụ BCCP vào bảng DSA_F_BCCP 63

Hình 29: Module ETL bảng sự kiện F_TCBC 63

Hình 30: Load dữ liệu từ file excel Danh sách sản lượng dịch vụ TCBC vào bảng DSA_F_TCBC 63

Hình 31: Module ETL bảng sự kiện F_REVENUE 64

Hình 32: Load dữ liệu từ file excel Kế hoạch doanh thu vào bảng TMP_REVENUE_PLAN 64

Hình 33: Load dữ liệu từ file excel Doanh thu vào bảng TMP_REVENUE_PLAN 64

Hình 34: Module ETL bảng sự kiện F_COST 65

Hình 35: Load dữ liệu từ file excel Kế hoạch doanh thu vào bảng TMP_COST_PLAN 65 Hình 36: Load dữ liệu từ file excel Chi phí vào bảng TMP_COST_PLAN 65

Hình 37: Báo cáo về doanh thu – dạng bảng biểu 66

Hình 38: Báo cáo về sản lượng BCCP trong năm 2012 – dạng bảng biểu 67

Hình 39: Báo cáo về sản lượng TCBC trong năm 2012 – dạng bảng biểu 69

Hình 40: Báo cáo doanh thu – dạng đồ thị 70

Hình 41: Báo cáo Top các bưu điện tỉnh thành về thực hiện doanh thu 71

Hình 42: Báo cáo Bottom các bưu điện tỉnh thành về thực hiện doanh thu 71

Hình 43: Báo cáo tình hình thực hiện doanh thu – dạng dashboard 72

Hình 44: Báo cáo tình hình chi phí phát sinh – dạng dashboard 73

Trang 11

DANH SÁCH CÁC TỪ VIẾT TẮT

Nam

9 ETL Extraction - Transformation – Thu thập – làm sạch – tích hợp

Loading

10 OLAP Online Analytical Processing Xử lý phân tích trực tuyến

12 ERD Entity Relationship Diagram Sơ đồ thực thể liên kết

Trang 12

DANH SÁCH CÁC THUẬT NGỮSTT Thuật ngữ Ý nghĩa Tiếng Việt

1 roll-up Tổng hợp lên - xem dữ liệu ở mức cao hơn (dữ liệu

đang ở mức tháng khi roll-up sẽ xem dữ liệu tổnghợp ở mức quý, hoặc mức năm)

2 drill-down Chi tiết xuống - xem dữ liệu ở mức chi tiết (dữ liệu

đang ở mức tháng khi drill-down sẽ xem dữ liệu chitiết ở mức ngày)

5 Aggregate data Dữ liệu tổng hợp

6 Derived data Dữ liệu dẫn xuất

10 Dimension table Bảng chiều thông tin / Bảng danh mục

12 Slave table Bảng chi tiết cho bảng sự kiện

13 Hirachy Quan hệ phân cấp bên trong một chiều thông tin

17 OLAP cube Khối dữ liệu đa chiều

18 Business_Date Ngày dữ liệu nghiệp vụ (ngày giao dịch)

Trang 13

MỞ ĐẦU

Hiện nay, ngành bưu chính ở Việt Nam đã và đang phát triển mạnh mẽ, các dịch vụ bưuchính được triển khai với quy mô toàn quốc, từ cấp xã, huyện, tỉnh/thành phố đến trungương Do vậy, công tác quản lý là rất cần thiết Trước tình hình này, ngành bưu chínhViệt Nam, mà cụ thể là Tổng công ty bưu điện Việt Nam đã triển khai nhiều phần mềmứng dụng để hỗ trợ trong công tác quản lý và doanh thác các dịch vụ Tuy nhiên, cácphần mềm này sử dụng độc lập trong từng lĩnh vực, mỗi phần mềm có một cơ sở dữ liệuriêng, theo đó, phần lớn số liệu tổng hợp phục vụ công tác quản lý, điều hành muốn cóđược phải truy xuất vào từng hệ thống riêng thông qua các chức năng thống kê, báo cáo.Các báo cáo tổng hợp, phân tích thông tin đang được xây dựng thủ công, những bướcthực hiện chính bao gồm: Tập hợp số liệu nguồn cho báo cáo từ các đơn vị thành viêndưới dạng file excel được kết xuất từ các phần mềm và gửi qua email, công văn Sau khinhận đủ số liệu nguồn, cán bộ phụ trách thực hiện lập báo cáo bằng tay trên MicrosoftExcel, tính toán thủ công các chỉ tiêu thống kê, báo cáo Chính vì vậy, các báo cáo tổnghợp chưa đáp ứng được nhu cầu thông tin quản lý điều hành của Lãnh đạo tổng công ty,các đơn vị chuyên môn như các thông tin chưa được khai thác hiệu quả, chưa thể hiệnđược tính phân tích, hỗ trợ ra quyết định Ngoài ra, khi có nhu cầu phân tích về một đơn

vị hoặc một dịch vụ cụ thể, các lãnh đạo phải truy cập vào mục báo cáo thống kê trongtừng phần mềm ứng dụng riêng biệt để lấy thông tin Bên cạnh đó, thời gian để xây dựngcác báo cáo tổng hợp với cách làm thủ công là rất lâu do phải chờ các đơn vị thành viêngửi số liệu về, trong khi tính chính xác của báo cáo không được đảm bảo

Để giải quyết được các vấn đề nêu trên, luận văn tập trung nghiên cứu, xây dựng một hệthống thông tin quản trị điều hành theo mô hình Data Warehouse và BusinessIntelligence Data Warehouse là một hệ thống tập trung dữ liệu từ nhiều nguồn khác nhaunhằm mục đích khai thác, phân tích thông tin và hỗ trợ quyết định với các đặc trưng vềmặt dữ liệu: tích hợp, hướng chủ đề, tích lũy theo thời gian và bất biến BusinessIntelligence (BI) là tầng ứng dụng khai thác dữ liệu và phân tích thông tin từ DataWarehouse với thiết kế cơ sở dữ liệu đa chiều (OLAP) Tầng ứng dụng BI bao gồm các

dữ liệu metadata, các chương trình ứng dụng, các công cụ phần mềm,… nhằm mục đíchđưa các kết quả báo cáo, phân tích nghiệp vụ đến trực tiếp người dùng cuối – những cán

bộ nghiệp vụ, các lãnh đạo – để ra quyết định

Hệ thống Data Warehouse và Business Intelligence hướng đến cung cấp thông tin đầy đủ,chính xác với các thông tin đa chiều nhằm đáp ứng tốt nhất các nhu cầu thông tin quản lý,điều hành của Lãnh đạo Tổng công ty, các ban của Tổng công ty và lãnh đạo các đơn vịthành viên của Tổng công ty Bưu điện Việt Nam

Trang 14

Luận văn gồm 3 chương với các nội dung:

Chương 1: Giới thiệu về Data Warehouse và Business Intelligence Luận văn giới thiệu

về các khái niệm Data Warehouse (DW), Business Intelligence (BI); Lợi ích của hệ thống

DW và BI Sau đó, luận văn giới thiệu về kiến trúc phổ biến của một hệ thống DW và BI.Cuối chương, luận văn trình bày phương pháp thiết kế logic hệ thống DW và BI

Chương 2: Bài toán xây dựng hệ thống DW và BI tại VNPOST Luận văn đề cập đến

hiện trạng ngành bưu chính, các hệ thống thông tin và công tác lập báo cáo tổng hợp củaTổng công ty Bưu điện Việt Nam - VNPOST Từ đó luận văn đưa ra các vấn đề cần giảiquyết để phát biểu bài toán xây dựng hệ thống DW và BI tại VNPOST Sau đó, luận vănđưa ra phạm vi thực hiện trong đề tài luận văn

Chương 3: Khảo sát, phân tích, thiết kế và triển khai hệ thống DW và BI tại VNPOST.

Trong chương này, luận văn thực hiện khảo sát dữ liệu nguồn, các báo cáo mẫu và nhucầu báo cáo phân tích của VNPOST Sau đó, luận văn thực hiện phân tích, thiết kế vàtriển khai hệ thống DW và BI Cuối cùng, luận văn trình bày các kết quả đạt được

Kết luận: Luận văn trình bày các kết quả đạt được, các hạn chế còn tồn tại của luận văn

và hướng nghiên cứu tiếp theo

Trang 15

CHƯƠNG 1: GIỚI THIỆU VỀ DATA WAREHOUSE VÀ

BUSINESS INTELLIGENCE

1 Các khái niệm cơ bản

1.1 Định nghĩa Data Warehouse

Data Warehouse (DW) – Kho dữ liệu – là thuật ngữ được William H Inmon đưa ra trongnhững năm 1970 DW là hệ thống tập trung dữ liệu từ các nguồn khác nhau nhằm mụcđích khai thác, phân tích thông tin và hỗ trợ quyết định, với các đặc trưng về mặt dữ liệulà: tích hợp, hướng chủ đề, tích lũy theo thời gian và bất biến

Hình 1: Đặc trưng của Data Warehouse

- Tích hợp (Integrated): Dữ liệu của DW được tập hợp về từ các nguồn khác nhau

như các CSDL của các hệ thống tác nghiệp, các file tài liệu,… của một doanh nghiệp

Ví dụ: dữ liệu của một ngân hàng được tạo ra bởi các nguồn khác nhau như: hệthống giao dịch tại các chi nhánh – dữ liệu giao dịch vay và gửi tiền, hay tại cácphòng ban chức năng như chăm sóc khách hàng – dữ liệu về khách hàng, phòngtài chính kế toán – dữ liệu về tài chính kế toán, Dữ liệu tại mỗi phòng ban, chinhánh là một khung nhìn Hệ thống DW sẽ tập hợp tất cả dữ liệu tại các nguồn nàytạo nên một khung nhìn tổng thể về ngân hàng

Tính tích hợp còn được thể hiện trong việc thống nhất các kiểu, định dạng của dữ liệu, độ đo hay các thuật ngữ chung trong doanh nghiệp

Trang 16

Ví dụ: dữ liệu số điện thoại trong ứng dụng tác nghiệp được lưu theo định dạng +84 943 , nhưng trong tập tin được quản lý bởi một phòng ban nào đó lại đượclưu theo định dạng 0943 Dữ liệu này trong DW sẽ được lưu theo một định dạngthống nhất phù hợp với doanh nghiệp.

- Hướng chủ đề (Subject-Oriented): Dữ liệu của DW được tổ chức và lưu trữ theo

các chủ đề nghiệp vụ mà người khai thác quan tâm

Ví dụ: Dữ liệu của một doanh nghiệp trong DW có các chủ đề sau:

- Tích lũy theo thời gian (Time-Variant): Dữ liệu lưu trữ có tính chất lịch sử, theo

dòng thời gian tính từ một thời điểm trong quá khứ cho đến hiện tại và các dữ liệu sẽ phátsinh trong tương lai

- Bất biến (Non-Volatile): Dữ liệu đã đưa vào trong DW nói chung ở dạng chỉ đọc

(read-only) và rất hiếm khi thay đổi (không update, không delete) DW chính là nhữngCSDL được thiết kế cho mục đích Khai thác và Phân tích thông tin (query - truy vấn) chứkhông phải mục đích cập nhật (update – cập nhật, delete - xóa) như trong CSDL của cácứng dụng tác nghiệp

1.2 Định nghĩa Business Intelligence

Business Intelligence là tầng ứng dụng khai thác dữ liệu và phân tích thông tin từ cácnguồn dữ liệu khác nhau mà tiêu biểu trong đó chính là các DW với thiết kế CSDL đachiều (OLAP) Tầng ứng dụng BI bao gồm các siêu dữ liệu (metadata), các chương trìnhứng dụng, các công cụ phần mềm… nhằm mục đích đưa các kết quả báo cáo, phân tíchnghiệp vụ,… đến trực tiếp các người dùng cuối (những cán bộ nghiệp vụ, các lãnh đạo,

…)

Trang 17

2 Lợi ích của hệ thống Data Warehouse và Business Intelligence

Hình dưới minh họa lợi ích của DW và BI trong việc hỗ trợ ra quyết định

Hình 2: Lợi ích của DW và BI trong hỗ trợ ra quyết định

Kinh doanh thông minh được nâng cao: các nhà quản lý và giám đốc điều hành sẽ được

giải phóng khỏi các quết định dựa trên dữ liệu hạn chế và mang tính cảm xúc của mình.Các quyết định có ảnh hưởng đến chiến lược và hoạt động của tổ chức sẽ được dựa trênnhững thực tế đang tin cậy với các bằng chứng và số liệu thực tế được tổ chức rõ ràng.Ngoài ra, DW và BI có thể được áp dụng trực tiếp vào các quá trình kinh doanh bao gồmphân khúc thị trường, quản lý hàng tồn kho, quản lý tài chính và bán hàng

Tăng hiệu suất hệ thống và truy vấn: hệ thống DW được tách riêng biệt khỏi hệ thống

tác nghiệp (OLTP) nên các giao dịch trực tuyến không bị ảnh hưởng và gián đoạn bởi cáctruy vấn báo cáo Trong khi đó, hệ thống DW được thiết kế để lưu trữ một lượng lớn dữliệu với tốc độ truy vấn dữ liệu nhanh

Kinh doanh thông minh từ nhiều nguồn dữ liệu khác nhau: nhiều doanh nghiệp, hệ

thống thông tin doanh nghiệp bao gồm nhiều hệ thống con, tách biệt nhau và được xâydựng trên các nền tảng khác nhau Trong khi để kinh doanh thông minh thì việc sát nhập

dữ liệu từ các hệ thống con này là một nhu cầu thiết yếu Hệ thống DW giải quyết đượcnhu cầu thiết yếu này bởi đặc trưng tích hợp dữ liệu từ các nguồn khác nhau Với DW,các nhà quản lý chỉ cần truy cập dữ liệu tại một nơi, giảm bớt gánh nặng thu thập, tổng

Trang 18

hợp thông tin và có “cái nhìn duy nhất của sự thật” chứ không phải là nhiều sự thật có thểđến từ báo cáo của các hệ thống con.

Dữ liệu được cập nhật liên tục và kịp thời: trong DW, dữ liệu từ nhiều nguồn khác nhau

sẽ được lập lịch cập nhật định kỳ một cách tự động theo một chu kỳ thời gian (tiến trìnhETL) phù hợp với mục đích khai thác dữ liệu của doanh nghiệp Khi đó người dùngkhông phải mất thời gian chờ dữ liệu được tích hợp từ nhiều nguồn khác nhau Ngoài ra,

dữ liệu được tổng hợp và truy cập thông qua giao diện của hệ thống BI, để có được dữliệu mới, người dùng chỉ cần thực hiện thao tác làm mới (refresh) dữ liệu mà không cầnphải chờ đợi các chuyên gia xây dựng các báo cáo Thay vào đó, người dùng có thời gian

để phân tích dữ liệu và đưa ra quyết định đúng đắn

Kinh doanh thông mình từ dữ liệu lịch sử: các hệ thống tác nghiệp chỉ lưu trữ dữ liệu

trong một khoảng thời gian nhất định và đáp ứng nhu cầu báo cáo, phân tích trongkhoảng thời gian đó Với đặc trưng Tích lũy theo thời gian của DW, dữ liệu được lưu trữtrong nhiều năm, cho phép những người quản lý doanh nghiệp có được sự phân tích về xuhướng phát triển và dự đoán xu hướng trong tương lai

Với các lợi ích kinh doanh thông minh và hỗ trợ ra quyết định, hệ thống DW và BI giúpcho tăng doanh thu và giảm chi phí làm cho doanh nghiệp phát triển nhanh chóng

3 Kiến trúc của hệ thống Data Warehouse và Business Intelligence

Kiến trúc phổ biến của hệ thống DW và BI được thể hiện trong hình sau:

Hình 3: Mô hình kiến trúc tổng thể

Trang 19

3.1 Data Source - Dữ liệu nguồn

Dữ liệu nguồn là đầu vào của toàn bộ hệ thống DW, bao gồm một danh sách nguồn dữliệu được lựa chọn để đưa vào hệ thống

Dữ liệu nguồn điển hình của DW là các CSDL tác nghiệp bên trong tổ chức, cung cấp sốliệu chi tiết về các giao dịch phát sinh hàng ngày; các CSDL này có thể được xây dựngtrên các công nghệ khác nhau (Oracle, Microsoft SQL Server, DB2,…)

Ngoài ra, dữ liệu nguồn cho DW cũng có thể ở dạng file – tập tin (text, xml, excel, …);hoặc có thể là dữ liệu nguồn bên ngoài tổ chức (CSDL của các tổ chức liên kết, các cơquan nhà nước,…)

3.2 Data Warehouse - Kho dữ liệu tập trung

Kho dữ liệu tập trung là thành phần trung tâm của hệ thống, là nơi lưu trữ dữ liệu tậptrung từ các nguồn về, DW bao gồm một tập hợp các CSDL quan hệ được thiết kế nhằmđảm bảo lưu trữ khối lượng lớn dữ liệu đồng thời đáp ứng tốt nhất các nhu cầu tra cứu,khai thác dữ liệu Trong DW có các CSDL sau:

- DSA (Data Staging Area): CSDL trung chuyển, chứa dữ liệu tạm thời của mộtphiên chuyển dữ liệu, phục vụ công việc xử lý, làm sạch trước khi đưa vào CSDL chính.DSA có hai loại:

o DSA nguồn: chứa dữ liệu tương ứng với một nguồn cụ thể, ở dạng 1:1 về nội dung và cấu trúc với dữ liệu nguồn; phạm vi dữ liệu là một phiên

o DSA đích: chứa dữ liệu tổng hợp từ các DSA nguồn, phạm vi dữ liệu làmột phiên, cấu trúc DSA ở dạng thuận tiện cho việc chuyển đổi dữ liệu vào CSDL tích hợp

- EM (Enterprise Model): CSDL tích hợp, chứa dữ liệu của toàn bộ các nguồn, đó làcác dữ liệu đã được xử lý, làm sạch và tích hợp EM cần đảm bảo cung cấp đủ dữ liệu chotất cả các DM

- DM (Data Mart): CSDL chủ đề, chứa dữ liệu về một chủ đề thông tin xác định,phục vụ một lớp đối tượng người dùng cụ thể Tất cả các DM đều có dữ liệu nguồn là EM

- OLAP (Online Analytical Processing): CSDL chủ đề đã được tổng hợp sẵn, được

tổ chức ở dạng đa chiều nhằm mục đích đáp ứng nhanh nhất việc khai thác thông tin Nguồn

dữ liệu cho OLAP là từ EM hoặc các DM

Trang 20

- Bên trong DW có tiến trình ETL (Extraction - Transformation - Loading): tiếntrình thu thập, làm sạch, tích hợp dữ liệu; chuyển dữ liệu từ nguồn vào các CSDL bên trongDW.

3.3 Tầng Business Intelligence (BI)

BI là một môi trường thuận tiện để người dùng nghiệp vụ làm việc với hệ thống, chophép người dùng chủ động khai thác, phân tích, tạo báo cáo, chia sẻ thông tin,… Thànhphần BI này bao gồm:

- Lớp dữ liệu nghiệp vụ: các thuật ngữ/tên gọi dành cho người dùng nghiệp vụ, mỗi thuật ngữ tương ứng với các trường dữ liệu trong các DM

- Nơi chứa các kết quả phân tích, báo cáo

- Các chương trình ứng dụng, các công cụ dùng để khai thác và phân tích

- Cổng giao tiếp với end-user (ví dụ: web portal, office, …)

3.4 Administration (Quản trị hệ thống)

Administration là thành phần dành cho các chuyên gia kỹ thuật thực hiện việc quản trị,vận hành hệ thống DW và BI, đảm bảo hệ thống hoạt động ổn định, an toàn và các dữliệu được làm mới định kỳ Thành phần này bao gồm:

- Metadata: lưu thông tin về các nguồn dữ liệu, thông tin của các CSDL thành phần trong kho dữ liệu tập trung; thông tin quản lý các tiến trình ETL

- Các công cụ quản trị, vận hành hệ thống (quản trị, vận hành các tiến trình, các job

tự động, các công việc sao lưu/khôi phục…)

4 Thiết kế logic hệ thống Data Warehouse và Business Intelligence

4.1 Thiết kế thành phần Data Warehouse

4.1.1 Các mô hình CSDL trong Data Warehouse

Trong thiết kế logic DW, có hai loại mô hình CSDL thường được sử dụng, đó là: mô hình

sao và mô hình bông tuyết:

- Star Schema (CSDL hình sao): là CSDL quan hệ được thiết kế logic dạng hình

sao bao gồm một bảng dữ liệu chi tiết ở vị trí trung tâm quan hệ với các bảng dữ liệu danhmục xung quanh (kiểu N:1) Mỗi bảng danh mục đều là bảng duy nhất của nhánh, không cóquan hệ với bảng danh mục nào khác Ví dụ, trong mô hình sao sau đây, bảng dữ liệu trungtâm thể hiện sản lượng và doanh số, các bảng danh mục xung quanh là: khách hàng, sảnphẩm, kênh phân phối, thời gian

Trang 21

Hình 4: CSDL hình sao

o Mục tiêu của mô hình sao là truy vấn dữ liệu được nhanh nhất; chấp nhận

dư thừa dữ liệu ở các bảng danh mục

- Snowflake Schema (CSDL hình bông tuyết): là CSDL hình sao nhưng được

chuẩn hóa theo một dạng chuẩn khác: mỗi bảng danh mục được tách thành cácbảng danh mục phân cấp (nếu có) để đảm bảo không dư thừa dữ liệu Trong ví dụdưới đây, nhánh bảng Khách Hàng đã được tách thành các bảng phân cấp

Hình 5: CSDL hình bông tuyết

o Mục tiêu của mô hình bông tuyết là kế thừa việc truy vấn nhanh của mô hình sao; không để dưa thừa dữ liệu

Trang 22

4.1.2 Một số thuật ngữ trong Data Warehouse

- Dimension Table (bảng danh mục): là bảng danh mục trong CSDL hình sao hoặc

bông tuyết, lưu trữ thông tin về các đối tượng như: khách hàng, sản phẩm, thời gian, … Các trường của bảng danh mục bao gồm:

o Primary key: kiểu số (ví dụ: id sản phẩm)

o Các trường thông tin thuộc tính (ví dụ: mã sản phẩm, tên sản phẩm, mã chủng loại, tên chủng loại,…)

o Trong mô hình sao, bảng danh mục còn có thêm các trường sau

 Các trường thông tin tổng hợp (aggregate data): các giá trị tổng hợp và

tính sẵn (ví dụ: tổng số lượng, tổng tiền, số lượng lớn nhất, số lượng

nhỏ nhất, số lượng trung bình,…)

 Các trường thông tin dẫn xuất (derived data): các giá trị được tính theo công thức dựa trên các trường thông tin tổng hợp đã có

- Fact Table (bảng sự kiện hay còn gọi là Master Table): là bảng trung tâm trong

CSDL hình sao hoặc bông tuyết, lưu trữ dữ liệu chi tiết về các giao dịch phát sinh Trongbảng sự kiện, tất cả các trường đều có kiểu dữ liệu là kiểu số (hoặc kiểu ngày) Các trườngcủa bảng sự kiện bao gồm:

o Primary key: kiểu số, định danh duy nhất một dòng dữ liệu của bảng fact

(ví dụ: id giao dịch).

o Foreign key: tham chiếu tới Primary Key của các bảng danh mục (ví dụ: id

sản phẩm).

o Các trường thông tin phát sinh: kiểu số (ví dụ Số lượng, Doanh thu, )

- Slave Table: bảng dữ liệu chi tiết có quan hệ 1:1 với bảng sự kiện, dùng để lưu các

trường dữ liệu không phải kiểu số Các trường của Slave Table bao gồm:

o Primary key: kiểu số (thường trùng tên trường và cùng kiểu dữ liệu vớiPrimary Key của bảng sự kiện), cũng đồng thời đóng vai trò Foreign Key trong quan hệ 1:1với bảng sự kiện

o Các trường thông tin không phải kiểu số (Ví dụ: ghi chú, mô tả giao dịch,

…)

o Slave Table không dùng Foreign Key đến các bảng danh mục

- Surrogate Key (khóa giả): là trường kiểu số, dùng để làm Primary Key cho các

bảng danh mục hoặc bảng sự kiện trong trường hợp Primary Key gốc của các bảng nàykhông phải là kiểu số hoặc là khóa tổ hợp của nhiều trường

Trang 23

- Measure (hay còn gọi là Fact): là những thông tin có thể đo lường được, mỗi

measure tương ứng với một trường thông tin phát sinh trong bảng sự kiện như: Số

lượng, Doanh số,

- Dimension (hay còn gọi là Chiều): là những chiều tổng hợp, phân tích về các

measure, ví dụ: chiều sản phẩm, chiều thời gian,…; thông tin về dimension được

lưu ở bảng danh mục; trong dữ liệu chi tiết phát sinh, dimension chính là cáctrường Foregn Key của bảng sự kiện Dimension bao gồm một tập các thuộc tính

(attribute) đi kèm, ví dụ: dimension Khách hàng bao gồm các thuộc tính sau: mã

khách hàng, tên khách hàng, mã quận huyện, tên quận huyện, mã tỉnh thành, tên tỉnh thành, mã loại hình, tên loại hình…

- Hierarchy: là quan hệ phân cấp bên trong một dimension; trong một dimension có

thể có nhiều hieararchy Hieararchy là căn cứ để thực hiện các thao tác trên dữ liệu tổng

hợp: tổng hợp lên (roll-up) hoặc chi tiết xuống (drill-down) Ví dụ: trong dimension Khách

Hàng, có 2 hierarchy sau:

o hieararchy Khách hàng - địa chỉ là: Khách hàng << Phường/xã <<

Quận/huyện << Tỉnh/thành

o hieararchy Khách hàng - loại hình là: Khách hàng << Loại hình

4.1.3 Thiết kế CSDL chủ đề (Data Mart)

CSDL chủ đề (Data Mart - DM) là CSDL được thiết kế theo mô hình sao (như đã nêu ởmục 4.1.1), chứa dữ liệu về một chủ đề thông tin xác định, phục vụ một lớp đối tượngngười dùng cụ thể Trong một DW, có thể có nhiều DM, mỗi DM tương ứng với một chủ

đề thông tin

Dựa trên các kết quả đã có từ giai đoạn khảo sát và phân tích về nhu cầu thông tin, dựatrên việc phân tích khả năng cung cấp những thông tin có thể lấy ra từ dữ liệu nguồn(mặc dù người dùng chưa yêu cầu), các bước để thiết kế DM bao gồm:

- Xác định danh sách các chủ đề thông tin mà hệ thống cần đáp ứng Mỗi chủ đề thông tin cần có các nội dung sau:

o Các measure: các giá trị số: những con số nghiệp vụ như: Số lượng bán, Giá trị bán thể hiện chủ đề Tình Hình Bán Hàng

o Các dimension: các chiều phân tích thông tin Ví dụ: sản phẩm, cửa hàng, thời gian,…

- Với mỗi chủ đề, thiết kế một DM:

o Vẽ sơ đồ thực thể quan hệ (ERD, mô hình sao)

Trang 24

o Thiết kế các bảng danh mục:

 Primary key: kiểu số, dùng Surrogate Key nếu Primary Key hiện thời chưaphải là kiểu số

 Các trường gốc, các trường thông tin tổng hợp, trường thông tin dẫn xuất

o Thiết kế bảng sự kiện (mỗi DM chỉ có một bảng sự kiện)

 Primary key: kiểu số, dùng Surrogate Key (khóa giả) nếu Primary Key hiện thời chưa phải là kiểu số

o Thiết kế giải pháp phi chuẩn:

 Làm dư thừa dữ liệu để tăng tốc độ thực hiện các câu lệnh truy vấn, ví dụ: mview trong Oracle

Dưới đây là một ví dụ về ERD của một Data Mart, trong đó có bảng sự kiệnDOANH_SO với 2 measure là Số lượng, Doanh số và 4 bảng danh mục là Thời gian,Cửa hàng, Khách hàng, Sản phẩm

Trang 25

Hình 6: ERD của một Data Mart về Doanh số

4.1.4 Thiết kế CSDL tích hợp (Enterprise Model - EM)

Enterprise Model là CSDL được thiết kế theo mô hình bông tuyết (như đã nêu ở mục4.1.1), chứa dữ liệu tích hợp của tất cả các chủ đề thông tin mà hệ thống cần đáp ứng,cung cấp dữ liệu cho tất cả các DM Trong một DW, chỉ có một EM, nhưng bên trong

EM này có thể có một hoặc nhiều bảng sự kiện

Dựa trên bản thiết kế logic các DM đã có, các bước để thiết kế EM bao gồm:

- Phân tích bản thiết kế logic các DM đã có

- Chuẩn hóa và tích hợp các bảng danh mục:

o Mỗi DM có một tập hợp các bảng danh mục, mỗi bảng này cần được chuẩnhóa (tách bảng) thành các bảng quan hệ theo dạng chuẩn 3 để không bị dư thừa dữ liệu

o Sau khi chuẩn hóa, những bảng danh mục nào tương đương nhau (cùng ýnghĩa nghiệp vụ, cùng primary key,…) thì tích hợp thành một bảng

(primary key là chung, các trường thuộc tính là hợp từ hai bảng); nhữngbảng danh mục còn lại được giữ nguyên cấu trúc và nếu có quan hệ thì tạoForeign Key với các bảng danh mục khác

- Tích hợp các bảng sự kiện

o Mỗi DM có một bảng sự kiện, mỗi bảng sự kiện bao gồm một số hoặc tất

cả các trường thông tin của một loại dữ liệu nghiệp vụ cụ thể (ví dụ: dữ liệu hóa đơn bán

hàng) Những bảng sự kiện nào lưu thông tin về cùng một loại

Trang 26

dữ liệu (và cùng primary key) thì tích hợp thành một bảng (primary key làchung, các foreign key và các trường measure là hợp từ hai bảng); nhữngbảng sự kiện còn lại được giữ nguyên cấu trúc.

o Tích hợp các bảng slave (nếu có): tương tự và đi kèm với bảng sự kiện

- Vẽ sơ đồ thực thể quan hệ (ERD, mô hình bông tuyết, có thể có nhiều bảng sự kiện)

- Thiết kế các bảng danh mục theo dạng chuẩn 3, một số đặc điểm:

o Riêng với bảng danh mục quan hệ trực tiếp với bảng sự kiện: Primary Key phải là kiểu số (có thể dùng Surrogate Key nếu cần)

o Không cần các trường thông tin tổng hợp, thông tin dẫn xuất

- Thiết kế các bảng sự kiện: tương tự trong DM

o Primary Key: kiểu số, dùng Surrogate Key nếu Primary Key hiện thời chưa phải là kiểu số

o Foreign Key: sang các bảng danh mục

- Thiết kế Slave Table (nếu cần lưu thông tin bổ sung, không phải kiểu số, như đã

mô tả ở trên): tương tự trong DM

- Thiết kế các partition: tương tự trong DM

o Với bảng sự kiện: thường chia partition theo chiều thời gian (tức là chia theo trường Foreign Key sang bảng danh mục thời gian)

o Với các bảng danh mục lớn, có sự tăng trưởng dữ liệu: chia partition theo trường có nhu cầu tìm kiếm chủ yếu (nếu xác định được)

o Thiết kế giải pháp phi chuẩn:

 Làm dư thừa dữ liệu để tăng tốc độ thực hiện các câu lệnh truy vấn, ví dụ: mview trong Oracle

Dưới đây là một ví dụ về ERD của một Enterprise Model, trong đó có 2 bảng fact là

Công nợ và Sản lượng doanh thu

Trang 27

Hình 7: ERD của một Enterprise Model

4.1.5 Thiết kế CSDL trung chuyển (Data Staging Area – DSA)

Data Staging Area (DSA) là một tập các CSDL đóng vai trò trung chuyển dữ liệu giữacác nguồn dữ liệu với EM DSA là môi trường dữ liệu trung gian, lưu trữ tạm thời dữ liệu

để xử lý, làm sạch và tích hợp trước khi đưa vào EM

Đặc điểm dữ liệu tại DSA:

- Chỉ lưu trữ tạm thời của một phiên, khi xử lý xong thì xóa đi để chuẩn bị xử lý chophiên tiếp theo

- Có hai loại DSA:

 Là CSDL có cấu trúc tương đương với EM (CSDL hình bông tuyết), lànơi chứa dữ liệu kết quả cuối cùng của giai đoạn xử lý, làm sạch và tích hợp trước khi đưavào EM

Trang 28

- Thiết kế DSA đích (dựa trên bản thiết kế EM đã có):

o Vẽ sơ đồ ERD cho DSA đích giống với ERD của EM (nên tạo các bảng trùng tên với bảng tương ứng trong EM)

o Thiết kế các bảng danh mục, các bảng sự kiện, các bảng slave giống như trong EM

o Thiết kế các index: tương như index EM

- Thiết kế các DSA nguồn:

o Mục tiêu của thiết kế các DSA nguồn:

 Cấu trúc DSA nguồn đảm bảo tính nguyên bản của dữ liệu nguồn (kiểu

dữ liệu tương đương, nội dung dữ liệu tương đương) tại thời điểm trước khi xử lý

 Cấu trúc DSA nguồn đảm bảo cung cấp đầy đủ dữ liệu nguồn cho DSA

 Vẽ sơ đồ ERD cho DSA nguồn (dựa trên các kết quả phân tích)

 Thiết kế các bảng cho DSA nguồn: cấu trúc các bảng của DSA nguồntương đương với cấu trúc các bảng của CSDL nguồn (tương đương về kiểu dữ liệu của cáctrường, về primary key, foreign key)

o Thiết kế các index trên các trường Primary Key, Foreign Key

Trang 29

4.1.6 Thiết kế tiến trình Thu thập, làm sạch và tích hợp dữ liệu (Extraction Transformation - Loading - ETL)

-ETL là tiến trình thu thập, làm sạch và tích hợp dữ liệu với mục đích đưa được các dữliệu nguồn cần thiết vào DW theo đúng yêu cầu nghiệp vụ

ETL vừa thực hiện việc xử lý dữ liệu vừa tạo ra dòng chảy của dữ liệu từ nguồn qua cácthành phần khác nhau và đến đích (các DM), giúp cho dữ liệu của hệ thống DW được cậpnhật định kỳ

Trên thực tế, các tình huống chuyển đổi dữ liệu từ nguồn đến kho tập trung là rất đa dạng,phức tạp,… và vì thế ETL cũng có thể rất đa dạng và phức tạp Dưới đây chỉ là một cáchchia tách các công đoạn xử lý bên trong một tiến trình ETL, theo đó coi cả hệ thống DWchỉ có một tiến trình ETL, và nó bao gồm các công đoạn xử lý sau:

- Thu thập dữ liệu (Extraction): là công đoạn khai thác và đưa dữ liệu từ các nguồn

vào CSDL trung chuyển (các DSA nguồn), chưa xử lý gì đối với dữ liệu

- Làm sạch và tích hợp (Transformation): là cộng đoạn phức tạp nhất, xử lý dữ liệu

tại CSDL trung chuyển, các xử lý bao gồm:

o Làm sạch: chuẩn hóa hoặc loại bỏ các dữ liệu không hợp lệ, không toàn vẹn

o Tích hợp: tích hợp dữ liệu từ nhiều DSA nguồn về một DSA đích, tích hợp các bảng dữ liệu tương đương nhau thành một bảng

- Loading (load dữ liệu): là công đoạn load dữ liệu đã được xử lý

Căn cứ vào tài liệu khảo sát và phân tích về dữ liệu nguồn, căn cứ vào bản thiết kế logiccác thành phần đã có (các DM, EM, DSA đích, các DSA nguồn), thiết kế tiến trình ETLtheo các bước sau:

- Thiết kế các chức năng chuyển dữ liệu vào DW: o từ EM sang các DM

o từ DSA đích sang EM

o từ các DSA nguồn sang DSA đích

- Thiết kế các chức năng Thu thập dữ liệu từ nguồn vào DSA nguồn

- Thiết kế các chức năng Làm sạch, bổ sung dữ liệu:

o Làm sạch và bổ sung dữ liệu tại DSA nguồn

Trang 30

o Làm sạch và bổ sung dữ liệu tại DSA đích

4.2 Thiết kế metadata

Metadata là lớp dữ liệu lưu trữ các thông tin mô tả về chính các thành phần của DW.Thực chất việc thiết kế metadata cho DW là thiết kế một CSDL quan hệ để lưu trữ cácloại dữ liệu sau:

- Cấu trúc và ý nghĩa của từng CSDL trong DW (dữ liệu nguồn, DSA, EM, DM):

mô tả về các bảng, các trường, ý nghĩa ngiệp vụ

- Quan hệ tham chiếu giữa các trường, bảng của các CSDL khác nhau

- Dữ liệu nghiệp vụ của người dùng: các measure, các dimension, các thuộc tính đi kèm (attribute), các phân cấp (hieararchy)

- Dữ liệu quản lý tiến trình ETL: dữ liệu về từng công đoạn chuyển đổi, các phiên thực hiện,…

- Dữ liệu về tầng khai thác và phân tích thông tin: cấu trúc và ý nghĩa các đơn vị củalớp dữ liệu tham chiếu; danh mục các kết quả đầu ra (báo cáo, phân tích), danh sách user vàquyền truy cập

Vai trò của metadata:

- Lưu trữ hình ảnh về toàn bộ thiết kế của hệ thống DW và BI, phục vụ việc tra cứu thông tin về hệ thống, bảo trì và mở rộng hệ thống

- Cung cấp các dữ liệu cơ sở (thông tin đầu vào) cho giai đoạn thiết kế vật lý: thiết

kế vật lý các CSDL, tiến trình ETL, các công cụ quản trị và vận hành

4.3 Thiết kế tầng khai thác và phân tích thông tin

4.3.1 Thiết kế CSDL đa chiều với OLAP

Nhìn chung, mục đích hướng đến của việc thiết kế DW là ra được các DM Về mặt logic,các DM được thiết kế theo ý tưởng đa chiều với các bảng danh mục (các chiều) xoayquanh bảng dữ liệu chi tiết về các giao dịch phát sinh; kiểu thiết kế này giúp đáp ứngnhanh và linh hoạt các nhu cầu thông tin đa dạng, đa chiều của người dùng Nhưng vềbản chất lưu trữ dữ liệu, DM vẫn là một tập các bảng dữ liệu quan hệ (các bảng với 2chiều dòng và cột), để đưa ra được các báo cáo đa chiều, cần thực hiện các câu lệnh truyvấn (SQL) để join các bảng với nhau

Để tạo sự thuận tiện và chủ động cho người dùng cuối, đồng thời tăng tốc độ đáp ứng cácnhu cầu thông tin, cần tạo thêm một lớp dữ liệu nữa ở dạng tính toán sẵn và gần gũi hơnvới nhu cầu thông tin của người dùng, lớp dữ liệu đó chính là OLAP

Trang 31

OLAP là tầng dữ liệu phía trên các DM, có cấu trúc lưu trữ đặc biệt (không sử dụng cácbảng quan hệ thông thường) để lưu trữ các dữ liệu đa chiều ở dạng tính toán sẵn, các dữliệu này rất gần với nhu cầu thông tin của người dùng.

Với OLAP, người dùng chỉ cần chọn và lấy ra các thông tin mình cần (các dimension, cácmeasure) để thực hiện việc báo cáo và phân tích vì các thông tin này đã được tính toánsẵn trong OLAP

OLAP được tổ chức thành các OLAP cube (Khối dữ liệu đa chiều), mỗi OLAP cube phục

vụ một nhóm nhu cầu thông tin của người dùng Tương ứng với một chủ đề thông tin(DM), có thể tạo ra nhiều OLAP cube Ngoài ra, tùy thuộc nhu cầu phân tích thông tin,cũng có thể tạo ra một OLAP cube từ các DM khác nhau

Căn cứ vào việc phân tích các nhu cầu thông tin của người dùng, căn cứ bản thiết kế các

DM, thiết kế tầng dữ liệu OLAP theo các bước sau:

- Xác định danh sách các OLAP cube dựa trên các nhóm nhu cầu thông tin đã biết

- Thiết kế từng OLAP cube:

o Cấu trúc của cube: các Measure, các Dimension

o Thủ tục chuyển dữ liệu từ DM vào cube

4.3.2 Thiết kế tầng khai thác và phân tích thông tin

Tầng khai thác và phân tích thông tin là môi trường thuận tiện và an toàn để người dùng tương tác với hệ thống, môi trường này bao gồm các thành phần sau:

- Lớp dữ liệu tham chiếu:

o Là một cấu trúc lưu trữ xác định mối quan hệ tham chiếu giữa các thuật ngữnghiệp vụ (của người dùng cuối) với các đối tượng dữ liệu tin học (các bảng, các trường)

o Đóng vai trò cầu nối để người dùng cuối có thể khai thác được dữ liệu củacác CSDL trong DW bằng cách lựa chọn và kéo thả các thông tin nghiệp vụ mình cần thay

vì việc viết các câu lệnh truy vấn SQL

- Lớp thông tin kết quả

o Là tập hợp các file kết quả báo cáo, phân tích,… của người dùng và được lưu tại các thư mục xác định

- Các công cụ khai thác và phân tích thông tin

o Là các chương trình ứng dụng để người dùng phân tích, lập báo cáo và chia

sẻ các thông tin

Trang 32

- Cổng thông tin:

o Là giao diện để người dùng truy cập hệ thống và lấy các thông tin kết quả

o Ví dụ: web portal, ms office,…

Trang 33

CHƯƠNG 2: BÀI TOÁN XÂY DỰNG HỆ THỐNG DW VÀ BI TẠI

VNPOST

1 Hiện trạng ngành bưu chính của Tổng công ty bưu điện Việt Nam

Ngày nay, mặc dù Viễn thông – Công nghệ thông tin phát triển nhưng tính an toàn và bảomật không cao, để thông tin liên lạc được bảo đảm vẫn phải tận dụng dịch vụ bưu chính.Trên thực tế, ở tất cả các nước trên thế giới, ngay cả những nước có nền kinh tế kỹ thuậtphát triển cao như Mỹ, Nhật, các nước Tây Âu…, bưu chính vẫn chiếm một vị trí đáng kểtrong toàn bộ nền kinh tế và xã hội Hơn nữa, bưu chính nước nào cũng có mạng lướirộng khắp - ngành bưu chính của Việt Nam có mạng lới trên tất cả 64 tỉnh thành cả nước.Việc sử dụng bưu chính kết hợp với Viễn thông – Công nghệ thông tin có được sự tiệnlợi và rẻ tiền (như dịch vụ tiền tệ, phát hành sách báo ) Vì vậy ngành Bưu chính ở ViệtNam vẫn đang được coi trọng, duy trì hoạt động tốt và sẽ phát triển mạnh mẽ hơn nữatrong tương lai

1.1 Hiện trạng các hệ thống công nghệ thông tin

Hiện nay, VNPOST đã triển khai nhiều phần mềm ứng dụng để hỗ trợ trong công tácquản lý và doanh thác các dịch vụ Tuy nhiên, các phần mềm này đang sử dụng độc lậptrong từng lĩnh vực, mỗi phần mềm có một CSDL riêng, theo đó, phần lớn các số liệutổng hợp phục vụ công tác quản lý, điều hành muốn có được đều phải truy xuất vào từng

hệ thống riêng thông qua các chức năng thống kê, báo cáo

Danh sách cụ thể các phần mềm ứng dụng đã triển khai như sau:

- Các phần mềm hỗ trợ khai thác dịch vụ Bưu chính chuyển phát o BK2007: Phần

mềm hỗ trợ doanh thác dịch vụ Bưu kiện

o GS10 : Phần mềm hỗ trợ doanh thác dịch vụ Bưu phẩm ghi số

o OE10: Phần mềm hỗ trợ doanh thác các dịch vụ tại bưu cục Ngoại dịch

- Các phần mềm quản lý, khai thác các dịch vụ Tài chính Bưu chính

o CT2003: Phần mềm hỗ trợ doanh thác các dịch vụ chuyển tiền;

o PayPost: Phần mềm hỗ trợ doanh thác các dịch vụ thu hộ, chi hộ;

o ePost: Phần mềm hỗ trợ doanh thác dịch vụ bán mã thẻ điện tử

- Các hệ thống phần mềm hỗ trợ công tác quản lý

o CFM: Phần mềm quản lý điều hành quỹ ngân vụ;

o QTMS2007: Phần mềm quản lý chất lượng các dịch vụ Bưu chính;

o MBC2006: Phần mềm quản lý Mã địa chỉ Bưu chính;

Trang 34

o HRM: Phần mềm quản lý nguồn nhân lực.

o KTBĐ: Hệ thống phần mềm kế toán Bưu điện

Thực trạng công nghệ của các phần mềm ứng dụng đang vận hành tại VNPost:

1 Hệ điều hành máy chủ Windows 2003 Server trở lên

2 Hệ điều hành máy trạm Windows 2000 Professional hoặc Window XP

SP2

3 Hệ quản trị cơ sở dữ liệu MS SQL Server 2005 Standard/Enterprise.

tại Tổng công ty Oracle 10G/11G

4 Công cụ lập trình Microsoft Visual Studio NET 2005/2008

5 Công cụ hỗ trợ SQL Developer, Logic Works ERwin ERX

3.5.2

6 Công nghệ giao tiếp NET Remoting, WCF, Web Services

client và server

Bảng 1: Thực trạng công nghệ của các phần mềm tại VNPOST

1.2 Hiện trạng công tác lập báo cáo tổng hợp

Các “báo cáo tổng hợp” là những báo cáo được xây dựng ở cấp Tổng công ty, cung cấpcác thông tin có tính chất phân tích, hỗ trợ quản lý điều hành Đối tượng người dùng củacác báo cáo này là: Lãnh đạo Tổng công ty, các ban của Tổng công ty, lãnh đạo các bưuđiện tỉnh/thành, lãnh đạo các công ty thành viên

Về cơ bản, các báo cáo tổng hợp hiện nay đang được xây dựng theo cách thủ công, nhữngbước thực hiện chính bao gồm:

- Tập hợp số liệu nguồn cho báo cáo từ các đơn vị thành viên: o Phạm vi cung cấp

số liệu nguồn:

 Các đơn vị trực thuộc: Bưu điện tỉnh/thành, Công ty thành viên

 Các loại dữ liệu: File số liệu (Excel) được kết xuất từ các phần mềm và gửi qua email, Các số liệu được gửi qua công văn

Trang 36

các cán bộ phụ trách thực hiện lập báo cáo sẽ phải tính toán và lập lại báo cáo từ đầu.

o Nguồn thông tin tổng hợp và đẩy đủ nhất hiện có cho các lãnh đạo là Báocáo tình hình sản xuất kinh doanh theo từng khối Tuy nhiên, đây là một báo cáo với quánhiều chỉ tiêu thống kê và khó theo dõi, chủ yếu mang tính chất thống kê, chưa thể hiệnđược tính phân tích, hỗ trợ quyết định

o Khi có nhu cầu phân tích về một đơn vị hoặc dịch vụ cụ thể nào, cần truycập vào mục báo cáo thống kê trong từng phần mềm ứng dụng riêng biệt để lấy thông tin

- Thời gian xây dựng các báo cáo tổng hợp rất lâu do phải chờ các đơn vị thành viêngửi số liệu về; phương thức gửi số liệu là công văn hoặc email

- Tính chính xác của báo cáo bị ảnh hưởng do thực hiện tính toán thủ công, nguồn

số liệu thiếu tính nhất quán, công thức tính toán phức tạp

- Số liệu báo cáo lưu trữ trên Excel - chưa phải là CSDL tập trung - nên thiếu tínhchia sẻ cũng như không đảm bảo độ an toàn, dễ xảy ra nguy cơ mất dữ liệu hoặc thay đổi dữliệu

Như vậy, nhu cầu cấp thiết là cần có một hệ thống thông tin quản trị điều hành hướng đếncung cấp thông tin đầy đủ, chính xác với các thông tin đa chiều nhằm đáp ứng tốt nhấtcác nhu cầu thông tin quản lý, điều hành của Lãnh đạo Tổng công ty, các ban của Tổngcông ty và lãnh đạo các đơn vị thành viên của Tổng công ty Bưu điện Việt Nam

2 Mục tiêu bài toán

Bài toán xây dựng hệ thống Data Warehouse và Business Intelligence ứng dụng trongngành bưu chính của Tổng công ty Bưu điện Việt Nam nhằm đáp ứng được các mục tiêusau:

Trang 37

- Cung cấp thông tin đầy đủ, chính xác, đa chiều; bám sát các nhu cầu quản lý củalãnh đạo Tổng công ty, theo dõi tình hình thực hiện các chỉ tiêu kế hoạch năm của từng đơn

vị và theo từng loại dịch vụ; phân tích tình hình kinh doanh các dịch vụ chiến lược theo cácchiều thông tin khác nhau

- Các báo cáo được trình diễn một cách thân thiện, có tính hỗ trợ quản trị kinh doanh cao; cho phép truy cập báo cáo mọi lúc mọi nơi, từ các thiết bị khác nhau

- Số liệu báo cáo được lưu trữ trong một CSDL tập trung theo mô hình DW, đảm bảo tính an toàn, bảo mật và tránh nguy cơ mất dữ liệu

3 Phạm vi bài toán

Phạm vi bài toán trong luận văn như sau:

- Đối tượng sử dụng hệ thống: o Lãnh đạo Tổng công ty

o Các ban của Tổng công ty

o Lãnh đạo các đơn vị thành viên

- Các chủ đề thông tin được xây dựng trong hệ thống:

o Sản lượng của hai dịch vụ Bưu chính chuyển phát, Tài chính bưu chính

o Tình hình Doanh thu của Tổng công ty

o Tình hình Chi phí của Tổng công ty

o Tình hình sản xuất kinh doanh của Tổng công ty

- Các chủ đề thông tin được phân tích theo các chiều: Thời gian, Dịch vụ, bưu điện/tỉnh thành

- Phạm vi dữ liệu: 2 năm (năm 2011 và 2012)

Trang 38

CHƯƠNG 3: KHẢO SÁT, PHÂN TÍCH, THIẾT KẾ VÀ TRIỂN KHAI HỆ THỐNG DW VÀ BI TẠI VNPOST

1 Khảo sát

1.1 Khảo sát dữ liệu nguồn

Dữ liệu nguồn bao gồm:

- File excel về danh sách bưu điện tỉnh thành

- Dữ liệu được kết xuất ra file excel từ CSDL của phần mềm hỗ trợ khai thác dịch

vụ Bưu chính chuyển phát, bao gồm các thông tin về sản lượng của dịch vụ Bưu chínhchuyển phát:

o Mã giao dịch – mã của một lần thực hiện dịch vụ Bưu chính chuyển phát

o Loại hình dịch vụ: liên tỉnh hay quốc tế

- Dữ liệu được kết xuất ra file excel từ CSDL của phần mềm hỗ trợ khai thác dịch

vụ Tài chính bưu chính, bao gồm các thông tin về sản lượng của dịch vụ Tài chính bưuchính:

Trang 39

- Dữ liệu được kết xuất ra file excel từ CSDL của phần mềm kế toán, bao gồm cácthông tin về doanh thu, chi phí, kế hoạch doanh thu, kế hoạch chi phí theo từng bưu điện,dịch vụ:

1.2 Khảo sát báo cáo

Một số mẫu báo cáo của VNPOST bao gồm:

a Biểu giao kế hoạch của ban Kế hoạch & đầu tư

- Tên biểu: Tổng hợp cân đối kế hoạch SXKD điều chỉnh 2012 toàn TCT

- Định dạng excel

- Ý nghĩa: Đầu năm tổng công ty giao kế hoạch năm, hằng tháng ban kế hoạch và

đầu tư cân đối lại kế hoạch Có sự so sánh mục tiêu năm nay với năm trước Hàngtháng sẽ có báo cáo tình hình sản xuất kinh doanh so sánh với kế hoạch này Cácchỉ tiêu gồm có:

o Chỉ tiêu tổng hợp: doanh thu, chi phí, lợi nhuận cần đạt được của toàn công

ty, của từng khối (công ty mẹ, công ty con)

o Chỉ tiêu chi tiếp: cho từng loại dịch vụ, từng hạng mục chi phí

Trang 40

Hình 8: Báo cáo mẫu về tổng hợp cân đối kế hoạch SXKD toàn Tổng công ty

b Báo cáo lãnh đạo Tổng công ty của văn phòng

- Tên báo cáo: Sơ kết công tác 6 tháng Nhiệm vụ chủ yếu tháng 7 năm 2012

- Báo cáo dạng world

- Ý nghĩa: Đây là báo cáo do khối văn phòng nộp cho lãnh đạo tổng công ty Mô tảbằng lời tình hình thực hiện các chỉ tiêu kinh tế của tháng 6 và đến tháng 6 Liệt kê các côngtác đã triển khai trong tháng 6 và kế hoạch công tác cần triển khai trong tháng 7

- Các chỉ tiêu nêu trong báo cáo gồm:

Ngày đăng: 11/11/2020, 22:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w