1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng data warehouse và business intelligence cho công ty ngành nhựa tại tp hcm

88 31 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 88
Dung lượng 5,24 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Để triển khai mục tiêu trên tác giả thực hiện các công việc như: Tìm hiểu cơ sở lý thuyết data warehouse và BI, khảo sát thực trạng cơ sở hạ tầng CNTT và quy trình nghiệp vụ bán hàng của

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

NGUYỄN VĂN TÀI

XÂY DỰNG DATA WAREHOUSE VÀ BUSINESS INTELLIGENCE CHO CÔNG TY NGÀNH NHỰA TẠI

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học : PGS.TS Nguyễn Thanh Bình

Cán bộ chấm nhận xét 1: PGS.TS Trần Mạnh Hà

Cán bộ chấm nhận xét 2: PGS.TS Đặng Trần Khánh

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 03 tháng 07 năm 2019 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1 TS Trần Quang Minh

2 TS Trương Tuấn Anh

3 PGS.TS Trần Mạnh Hà

4 PGS.TS Đặng Trần Khánh

5 TS Lê Hồng Trang

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Nguyễn Văn Tài MSHV: 1670466 Ngày, tháng, năm sinh: 09/01/1991 Nơi sinh: Thái Bình Ngành: Hệ Thống Thông Tin Quản Lý Mã số : 60.34.04.05

TÊN ĐỀ TÀI: Xây dựng Data Warehouse và Business Intelligence cho một công ty ngành

Nhựa tại TP.HCM

NHIỆM VỤ VÀ NỘI DUNG:

- Tìm hiểu về cơ sở lý thuyết để xây dựng Data Warehouse và Business Intelligence

- Khảo sát thực trạng cơ sở hạ tầng CNTT và quy trình nghiệp vụ bán hàng tại một công ty ngành nhựa TPHCM

- Đề xuất xây dựng hệ thống Data Warehouse và Business Intelligence cho một công ty ngành nhựa tại TPHCM

I NGÀY GIAO NHIỆM VỤ: 13/08/2018

II NGÀY HOÀN THÀNH NHIỆM VỤ: 02/06/2019

III CÁN BỘ HƯỚNG DẪN: PGS.TS Nguyễn Thanh Bình

Trang 4

LỜI CẢM ƠN

Để có thể hoàn thành đề tài luận văn thạc sĩ một cách hoàn chỉnh, bên cạnh sự nỗ lực cố gắng của bản thân còn có sự hướng dẫn nhiệt tình của quý Thầy Cô, cũng như sự tạo điều kiện thuận lợi từ phía công ty đang công tác và sự động viên ủng hộ của gia đình

và bạn bè trong suốt thời gian học tập nghiên cứu và thực hiện luận văn thạc sĩ

Xin chân thành bày tỏ lòng biết ơn đến Thầy PGS.TS Nguyễn Thanh Bình người

đã hết lòng giúp đỡ tạo mọi điều kiện tốt nhất cho tôi hoàn thành luận văn này Xin chân thành bày tỏ lòng biết ơn đến quý thầy cô trong khoa Khoa học máy tính và khoa sau đại học Đại học Quốc gia TPHCM – Trường Đại học Bách Khoa đã tận tình truyền đạt những kiến thức quý báu cũng như tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập nghiên cứu tại trường

Xin chân thanh cảm ơn công ty ngành nhựa mà tôi đang công tác đã cho phép và không ngừng hỗ trợ thực hiện luận văn

Cuối cùng tôi xin chân thành cảm ơn đến gia đình, bạn bè, đồng nghiệp đã hỗ trợ cho tôi rất nhiều trong suốt quá trình nghiên cứu và thực hiện đề tài luận văn thạc sĩ một cách hoàn chỉnh

TP Hồ Chí Minh, tháng 4 năm 2019

Học viên thực hiện

Nguyễn Văn Tài

Trang 5

TÓM TẮT LUẬN VĂN

Mục tiêu của đề tài là “Xây dựng hệ thống Data Warehouse và BI cho một công ty ngành nhựa tại TPHCM” Hệ thống này nhằm tập trung dữ liệu từ nhiều nguồn dữ liệu khác nhau với mục địch khai thác, xử lý thông tin hỗ trợ cho ban lãnh đạo ra quyết định nhanh và chính xác Đề tài này tác giả giới hạn lại việc xây dựng hệ thống data warehouse và BI dành cho phân hệ bán hàng và đi sâu vào bốn sự kiện: bán hàng, công

nợ khách hàng, kế hoạch sản xuất, khiếu nại của khách hàng Để triển khai mục tiêu trên tác giả thực hiện các công việc như: Tìm hiểu cơ sở lý thuyết data warehouse và

BI, khảo sát thực trạng cơ sở hạ tầng CNTT và quy trình nghiệp vụ bán hàng của công

ty, đề xuất mô hình data warehouse và BI cho công ty đi sâu vào ba sự kiện chính: bán hàng, công nợ khách hàng, kế hoạch sản xuất, khiếu nại khách hàng, và cuối cùng tác giả xin ý kiến đánh giá từ ban lãnh đạo công ty, hệ thống có thể đáp ứng được với nhu cầu hiện nay của công ty

ABTRACT

The objective of the project is "Building a Data Warehouse and BI system for a plastic industry company in Ho Chi Minh City" This system aims to focus data from many different data sources with the aim of exploiting and processing information to support management board to make decisions quickly and accurately This topic limits the construction of data warehouse and BI systems for sales modules and delves into four events: sales, customer debt, production plans and customer complaints To implement the objectives on the author perform tasks such as: Understanding warehouse data base and BI, surveying the status of IT infrastructure and the company's sales process, proposing models Data warehouse and BI for the company went into three main events: sales, customer debt, production plans, customer complaints, and finally the author asked for comments from the company's management, The system can meet the current needs of the company

Trang 6

LỜI CAM ĐOAN

Tôi xin cam đoan Luận văn Thạc sĩ Hệ Thống Thông Tin Quản Lý: “ Xây dựng Data Warehouse và Business Intelligence cho một công ty ngành Nhựa tại TP.HCM” là kết quả của quá trình học tập, nghiên nghiêm túc

Các số liệu, kết quả trong luận văn là trung thực, tôi thực hiện khảo sát tại công ty ngành nhựa mà tôi đang làm việc, được sự cho phép, ủng hộ từ Ban Lãnh Đạo công ty

TP Hồ Chí Minh, ngày 01 tháng 04 năm 2019

Nguyễn Văn Tài

Trang 7

MỤC LỤC

CHƯƠNG I GIỚI THIỆU 1

1.1 GIỚI THIỆU ĐỀ TÀI 2

1.2 MỤC TIÊU CỦA ĐỀ TÀI 2

1.3 NỘI DUNG CỦA ĐỀ TÀI 3

1.4 GIỚI HẠN ĐỀ TÀI 3

1.5 PHƯƠNG PHÁP NGHIÊN CỨU 4

1.6 CẤU TRÚC LUẬN VĂN 4

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 5

2.1 CƠ SỞ LÝ THUYẾT DATA WAREHOUSE BI 6

2.1.1 Một số lý do cần phải có Data Warehouse và BI trong doanh nghiệp 6

2.1.2 Đặc tính của kho dữ liệu 7

2.1.3 Đặc trưng kho dữ liệu và cơ sở dữ liệu thông thường 8

2.1.4 Lợi ích của kho dữ liệu mang lại 9

2.1.5 Kho dữ liệu hiện nay 10

2.1.7 Tổ chức dữ liệu trong kho dữ liệu 12

2.2 KIẾN TRÚC DATA WAREHOUSE 15

2.2.2 Thành phần trong Datawarehouse 18

2.2.2 Thu thập, làm sạch và tích hợp dữ liệu (Extraction -Transformation -Loading -ETL) 20

2.2.3 CSDL đa chiều với OLAP 21

2.2.4 Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu 21

2.3 CÁC NGHIÊN CỨU LIÊN QUAN 22

CHƯƠNG 3: THỰC TRẠNG CƠ SỞ HẠ TẦNG CNTT VÀ QUY TRÌNH NGHIỆP VỤ BÁN HÀNG CỦA CÔNG TY 24

3.1 CƠ SỞ HẠ TẦNG CNTT 25

3.1.1 Máy chủ Server 25

3.1.2 Thiết bị lưu trữ NAS 26

3.2 HỆ THỐNG PHẦN MỀM ỨNG DỤNG TRONG CÔNG VIỆC SẢN XUẤT KINH DOANH CỦA CÔNG TY 26

Trang 8

3.2.2 Phần mềm ERP – SAP 27

3.2.3 Phần mềm quản ly nhân sự tiền lương – nhà ăn 27

3.2.4 Thực trạng công nghệ của phần mềm quản lý sản xuất kinh doanh của công ty 27 3.3 HỆ THỐNG BÁO CÁO CỦA CÔNG TY 28

3.4 QUY TRÌNH NGHIỆP VỤ BÁN HÀNG CỦA CÔNG TY 29

3.4.1 Quy trình bán hàng theo đơn hàng 29

TRÁCH NHIỆM 30

3.4.2 Quy trình bán lẻ 37

CHƯƠNG 4: PHƯƠNG PHÁP ĐỀ XUẤT XÂY DỰNG HỆ THỐNG DATA WAREHOUSE VÀ BI 40

4.1 YÊU CẦU CỦA CÔNG TY 41

4.2 PHẠM VI XÂY DỰNG HỆ THỐNG 41

4.3 MÔ HÌNH DATA WAREHOUSE ĐỀ XUẤT 41

4.4 XÂY DỰNG CƠ SỞ DỮ LIỆU CHỦ ĐỀ DATA MART 43

4.3.1 Bán hàng 43

4.3.2 Kế hoạch sản xuất 49

4.3.3 Công nợ khách hàng 52

4.3.4 Khiếu nại khách hàng 54

4.4 THIẾT KẾ CSDL DSA 56

4.5 THIẾT KẾ TIẾN TRÌNH ETL 57

4.6 THIẾT KẾ BUSINESS INTELLIGENCE 59

CHƯƠNG 5: ĐÁNH GIÁ HỆ THỐNG 61

5.1 SỬ DỤNG PHƯƠNG PHÁP HỎI Ý KIẾN CHUYÊN GIA 62

CHƯƠNG 6: KẾT LUẬN 72

6.1 KẾT QUẢ ĐẠT ĐƯỢC 73

6.2 ƯU VÀ NHƯỢC ĐIỂM 73

6.3 ĐÓNG GÓP CỦA LUẬN VĂN 73

6.3.1 Đóng góp về mặt khoa học 73

6.3.2 Đóng góp về mặt thực tiễn 73

6.4 HƯỚNG MỞ RỘNG TƯƠNG LAI 74

TÀI LIỆU THAM KHẢO 75

Trang 9

DANH MỤC BẢNG BIỂU

Bảng 3 1: Thực trạng cơ sở vật chất hạ tầng công nghệ thông tin 25

Bảng 3 2: Danh sạch các hệ thống quản lý của công ty 27

Bảng 3 3: Thực trạng công nghệ phần mềm quản lý 28

Bảng 3 4 : Quy trình bán hàng theo đơn đặt hàng 30

Bảng 3 5: Quy trình bán lẻ trên kênh online 37

Bảng 4 1: Thuộc tính cơ bản của chiều thời gian 45

Bảng 4 2: Thuộc tính cơ bản của chiều khách hàng 46

Bảng 4 3: Thuộc tính cơ bản của chiều sản phẩm 47

Bảng 4 4: Thuộc tính cơ bản của chiều kênh bán hàng 48

Bảng 4 5: Thuộc tính cơ bản của chiều chương trình khuyến mãi 49

Bảng 4 6: Thuộc tính cơ bản của chiều đơn vị sản xuất 51

Bảng 4 7: Thuộc tính cơ bản của chiều đơn hàng 52

Bảng 4 8: Thuộc tính cơ bản của chiều loại nợ quá hạn 54

Bảng 4 9: Thuộc tính cơ bản của chiều đơn vị quản lý công nợ 54

Bảng 4 10: Thuộc tính của chiều nhóm khiếu nại 56

Bảng 4 11: Báo cáo của tầng BI 60

Trang 10

DANH MỤC HÌNH ẢNH

Hình 2 1: Ví dụ về lược đồ hình sao 12

Hình 2 2: Ví dụ về lược đồ hình bông tuyết 13

Hình 2 3: Mô hình dữ liệu đa chiều 14

Hình 2 4: Kiến trúc DW cơ bản 16

Hình 2 5: Kiến trúc DW với DSA 17

Hình 2 6: Kiến trúc DW với DSA, DM 18

Hình 2 7: Ví dụ CSDL chủ đề Data Mart DOANH SỐ 20

Hình 4 1: Mô hình Data Warehouse đề xuất 42

Hình 4 2: Sơ đồ bông tuyết sự kiện bán hàng 43

Hình 4 3: Sơ đồ Database sự kiện bán hàng 44

Hình 4 4: Chiều thời gian 45

Hình 4 5: Chiều khách hàng 46

Hình 4 6: Chiều sản phẩm 47

Hình 4 7: Chiều kênh bán hàng 48

Hình 4 8: Chiều chương trình khuyến mãi 48

Hình 4 9: Sơ đồ bông tuyết sự kiện Kế Hoạch Sản Xuất 49

Hình 4 10: Sơ đồ Database sự kiện Kế Hoạch Sản Xuất 50

Hình 4 11: Chiều đơn vị sản xuất 50

Hình 4 12: Chiều đơn hàng 51

Hình 4 13: Sơ đồ hình sao sự kiện Công Nợ Khách Hàng 52

Hình 4 14: Sơ đồ Database sự kiện Công Nợ Khách Hàng 53

Hình 4 15: Chiều loại nợ quá hạn 54

Hình 4 16: Chiều đơn vị quản lý công nợ 54

Hình 4 17: Sơ đồ hình sao sự kiện khiếu nại của khách hàng 55

Hình 4 18: Sơ đồ database sự kiện khiếu nại của khách hàng 55

Hình 4 19: Luồng dữ liệu ETL cho bảng chiều dữ liệu 58

Hình 4 20: Luồng dữ liệu ETL cho bảng sự kiện 59

Trang 11

ETL: Extraction – Transformation – Loading

DSA: Data Staging Arear

ĐVBH: Đơn vị bán hàng: các Phòng Kinh Doanh,các Đại lý,các cửa hàng PXK : Phòng Xuất Khẩu

ĐDLĐ: Đại diện lãnh đạo

GĐKD: Giám đốc Kinh doanh

GĐKD : Giám đốc Xuất khẩu

HTQLCL: Hệ thống quản lý chất lượng

NLĐƯ : Năng lực đáp ứng

Trang 12

PYCTM-ĐM : Phiếu yêu cầu thử mẫu và tính Định mức PYCSP : Phiếu yêu cầu sản phẩm

BBHĐG: Biên bản hội đồng giá

KHQ : Khai Hải Quan

Trang 13

CHƯƠNG I GIỚI THIỆU

Trong chương này tác giả nêu ra lý do cũng như mục tiêu đề xuất xây dựng hệ thống data warehouse và BI trong một công ty ngành nhựa tại TP.HCM Để triển khai các mục tiêu đặt ra, tác giả liệt kê ra sáu công việc cần làm để hoàn thành mục tiêu

Trong quá trình triển khai xây dựng data warehouse và BI cần một nguồn lực tương đối lớn (con người, thời gian, chi phí …) Vì thế tác giả đề xuất chọn phân hệ bán hàng

và chỉ đi sâu vào một số bước trên tổng sáu bước nói ở trên

Để hiểu rõ hơn về chương này, dưới đây là phần trình bày chi tiết của chương giới thiệu đề tài

Trang 14

1.1 GIỚI THIỆU ĐỀ TÀI

Trong môi trường cạnh tranh trong ngành nhựa tại Việt Nam như ngày nay, khách hàng là nhân tố quyết định sự tồn tại của doanh nghiệp Các doanh nghiệp ngành nhựa cần phải tìm hiểu nhu cầu đa dạng của khách hàng, giành cho họ giá trị tối ưu hơn so với đối thủ cạnh tranh và có những quyệt định chiến lược phù hợp trong sản xuất và kinh doanh

Trong những năm qua thị trường ngành Nhựa tại Việt Nam đang gặp rất nhiều cạnh tranh khốc liệt Các công ty lớn ngành nhựa đang bị các tập toàn nước ngoài mua và kiểm soát công ty, còn lại một số danh nghiệp vẫn còn trụ lại thì đang gặp rất nhiều khó khăn về việc nhập khẩu nguyên liệu, chính sách, giá thành, chất lượng và một vấn đề cũng quan trọng không kém là áp dụng hệ thống công nghệ thông tin vào quản lý Một số doanh nghiệp nói chung cũng như doanh nghiệp Nhựa nói riêng ngày nay đang gặp phải một số thách thức về hệ thống CNTT trong quản lý như:

- Hệ thống báo cáo lấy từ nhiều nguồn sau đó mới hợp nhất lại để thành báo cáo tổng thể, rất mất thời gian, dễ xảy ra sai sót

- Ban lãnh đạo công ty không tự tin ra quyết định vì thiết thông tin, các thông tin chấp vá từ nhiều hệ thống, từ nhiều loại file khác nhau

- Chính vì sự ra quyết định chậm của Ban Lãnh Đạo công ty đôi khi công ty mất đi

cơ hội đầu tư, mất đi khách hàng

Từ những thách thức trên, và hơn nữa Tác giả lại là một nhân viên làm trong một công

ty trong ngành nhựa đang sử dụng nhiều hệ thống CNTT riêng lẻ trong quản lý, rất mất thời gian trong khi làm báo cáo, thiếu thông tin để ra quyết định Vì thế công ty Tác giả đang cần mộ hệ thống tích hợp dữ liệu từ các nguồn dữ liệu riêng lẻ công ty đang sử dụng

Với những thách thức và nhu cầu trên, Tác giả xin đề xuất: “Xây dựng Data

Warehouse và BI cho một công ty ngành Nhựa tại TP.HCM” để giải quyết những

vướng mắc mà công ty đang gặp phải

1.2 MỤC TIÊU CỦA ĐỀ TÀI

Mục tiêu của đề tài là “Xây dựng data warehouse và BI cho công ty ngành nhựa tại TPHCM” nhằm giải quyết các vấn đề sau:

- Cung cấp thông tin đầy đủ, chính xác, đa chiều; bám sát các nhu cầu quản lý của lãnh đạo công ty, theo dõi tình hình thực hiện các chỉ tiêu kế hoạch năm của từng đơn

vị, phân tích tình hình kinh doanh các chiến lược theo các chiều thông tin khác nhau

Trang 15

- Số liệu báo cáo được lưu trữ trong một CSDL tập trung theo mô hình DW, đảm bảo tính an toàn, bảo mật và tránh nguy cơ mất dữ liệu

- Báo cáo được trình bày dễ hiểu, cho phép truy cập mọi lúc

1.3 NỘI DUNG CỦA ĐỀ TÀI

Đề tài tập trung nghiên cứu, xây dựng một hệ thống thông tin quản trị trong một công

ty ngành nhựa tại TPHCM, theo mô hình Data Warehouse và BI Data Warehouse là hệ thống lưu trữ dữ liệu tập trung từ nhiều nguồn dữ liệu khác nhau nhằm mục đích khai thác, xử lý thông tin hỗ trợ ra quyết định BI gồm các các chương trình ứng dụng phần mềm để đưa ra các báo cáo gần với nghiệp vụ cho nhà lãnh đạnh đưa ra quyết định chính xác và nhanh nhất

Việc triển khai đề tài gồm có các công việc sau:

- Tìm hiểu cơ sở lý thuyết liên quan đến đề tài

- Tìm hiểu quy trình nghiệp vụ trong công ty ngành nhựa

- Khảo sát thực trạng hạ tầng CNTT và quy trình nghiệp vụ của công ty

- Xây dựng hệ thống cơ sở dữ liệu chủ đề (Data Mart) của nghiệp vụ chọn để triển khai

- Thực hiện tiến trình đưa dữ liệu từ hệ thống nguồn vào hệ thống dữ liệu chủ đề (Data Mart) - Tiến trình ETL

- Xây dựng hệ thống báo cáo thông minh BI

- Hiện thực hệ thống

1.4 GIỚI HẠN ĐỀ TÀI

Dựa vào mục tiêu của đề tài “Xây dựng Data Warehouse và BI cho công ty ngành nhựa tại TPHCM”, Tác giả muốn hướng tới xây dựng toàn bộ các phân hệ trong công ty

để có một giải pháp toàn diện Data Warehouse và BI

Nhưng có một số vướng mắc như sau:

- Việc xây dựng một hệ thống DW và BI cần một nguồn nhân lực tương đối lơn (Con người, chi phí, thời gian…)

Với những vướng mắc như trên, Tác giả xin đề xuất chọn một phân hệ Bán Hàng để triển khai trong đề tài này

Để triển khai công việc xây dựng DW và BI cho phân hệ Bán Hàng tại công ty thì cần phải làm các công việc sau:

Trang 16

- Công Việc thứ hai: Khảo thực trạng hạ tầng CNTT và quy trình nghiệp vụ bán hàng của công ty

- Công Việc thứ ba: Xây dựng hệ thống cơ sở dữ liệu chủ đề (Data Mart) cho phân hệ bán hàng

- Công Việc thứ tư: Thực hiện tiến trình đưa dữ liệu từ hệ thống nguồn vào hệ thống dữ liệu chủ đề (Data Mart) - Tiến trình ETL

- Công Việc thứ năm: Xây dựng hệ thống báo cáo thông minh BI

- Công Việc thứ sau: Hiện thực hệ thống

Với sáu công việc cần làm để xây dựng DW và BI, Tác giả sẽ đi nghiên cứu kỹ phần công việc thứ nhất, hai, ba và thứ tư

1.5 PHƯƠNG PHÁP NGHIÊN CỨU

- Phương pháp phân tích và tổng hợp lý thuyết

- Phương pháp điều tra

- Phương pháp hỏi ý kiến chuyên gia

1.6 CẤU TRÚC LUẬN VĂN

Luận văn được trình bày gồm 6 chương sau đây:

- Chương 1: Giới thiệu

- Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan

- Chương 3: Thực trạng cơ sở hạ tầng CNTT và quy trình nghiệp vụ bán hàng của công ty

- Chương 4: Phương pháp đề xuất xây dựng hệ thống data warehouse và BI

- Chương 5: Đánh giá hệ thống

- Chương 6: Kết luận

Trang 17

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU

LIÊN QUAN

Trong chương 2: cơ sở lý thuyết và các nghiên cứu liên quan, tác giả trình bày về cơ

sở lý thuyết data warehouse và BI trong đó đi tìm hiểu về: lý do cần phải có data warehose và BI trong doanh nghiệp, đặc tính của data warehouse, lợi ích của kho dữ liệu, các kho dữ liệu hiện nay và tổ chức dữ liệu trong kho dữ liệu

Tiếp theo trình bay đến phần kiến trúc của data warehouse gồm có: thành phần trong data warehouse, tiến trình ETL, CSDL đa chiều với OLAP, và các công cụ truy vấn phân tích dữ liệu Cuối cùng trong chương này tác giả trình bày một số nghiên cứu liên quan Dưới đây là phần tác giả đã trình bày chi tiết trong chương này để người đọc hiểu rõ hơn

Trang 18

2.1 CƠ SỞ LÝ THUYẾT DATA WAREHOUSE BI

2.1.1 Một số lý do cần phải có Data Warehouse và BI trong doanh nghiệp

Các doanh nghiệp ngày nay khi áp dụng một hệ thống thông tin vào công việc sản xuất kinh doanh của công ty thì không thể thiếu được phần báo cáo

Đề có được báo cáo tốt thì doanh nghiệp cần cung cấp vào hệ thống các dữ liệu đầu vào

đủ, chính xác và tổn tại theo thời gian Với thời đại công nghệ thông tin phát triển như ngày nay thì có rất nhiều giải pháp để giải quyết việc kiểm soát một hệ thống đầu vào dữ liệu để đưa ra được các báo cáo mang tính chất quyết định

Trong phần này Tác giả xin đề cấp đến một số lý do doanh nghiệp cần phải có hệ thống kho dữ liệu (DW) và báo cáo thông minh (BI) như sau:

Data Warehouse

- Đối với các tổ chức có một lượng dữ liệu ngày càng lớn thì càng khó truy cập và

sử dụng dữ liệu

- Dữ liệu trong nhiều định dạng khác nhau, tồn tại trên nhiều nền tảng khác nhau,

và lưu trữ trong nhiều tập tin khác nhau, cấu trúc cơ sở dữ liệu khác nhau được phát triển bởi các nhà cung cấp khác nhau

- Tổ chức phải viết và duy trì hàng trăm chương trình để trích xuất, chuẩn bị, hợp nhất dữ liệu để sử dụng cho nhiều chương trình khác nhau dùng để phân tích và báo cáo

- Người ra quyết định muốn khai thác sâu hơn vào các dữ liệu

- Điều này dẫn đến các yêu cầu phát triển chương trình trích xuất mới hơn Quá trình này rất tốn kém, không hiệu quả và tốn thời gian Data Warehousing cung cấp một phương pháp tiếp cận tốt hơn

- Data Warehousing thực hiện quá trình truy cập dữ liệu từ các nguồn không đồng nhất; làm sạch, lọc và chuyển đổi dữ liệu; lưu trữ dữ liệu theo cấu trúc để dễ dàng truy cập, hiểu rõ và sử dụng

- Dữ liệu sau đó được dùng để truy vấn, báo cáo và phân tích dữ liệu

- Khối lượng dữ liệu trong kho dữ liệu có thể rất lớn, đặc biệt khi xem xét các yêu cầu phân tích dữ liệu mang tính lịch sử

- Chương trình phân tích dữ liệu đòi hỏi phải quét qua khối lượng dữ liệu rất lớn,

có thể dẫn đến kết quả không tốt cho các ứng dụng hoạt động

Business Intelligence

- Giúp các tổ chức doanh nghiệp đưa ra những quyết định đúng đắn nhất cho việc kinh doanh giữa hàng trăm, hàng ngàn lựa chọn

Trang 19

- Đây là cách tốt nhất để công ty có thể vượt lên trên đối thủ của mình vì bản thân

dữ liệu chính là feedback của khách hàng, là xu hướng của thị trường vv

- Khi phân tích các sự kiện mua hàng hoặc sử dụng 1 sản phẩm của khách hàng, công ty có thể xác định được ngân sách ngay từ ban đầu khi muốn đưa ra sản phẩm mới cho thị trường

- Ngoài việc phát hiện những cơ hội kinh doanh mới, BI còn giúp doanh nghiệp đánh giá lại những mặt yếu kém về: quy trình nội bộ, sản phẩm, chiến lược marketing… dựa trên những benchmark của thị trường và đối thủ

2.1.2 Đặc trưng của kho dữ liệu (Data Warehouse)

Cũng như các hệ thống CNTT khác, kho dữ liệu có những đặc trưng riêng biệt sau:

- Tính tích hợp (Integration): Dữ liệu của DW được tập hợp về từ các nguồn khác

nhau như các CSDL của các hệ thống tác nghiệp, các file tài liệu của một doanh nghiệp

- Hướng chủ đề (Subject-Oriented): Dữ liệu của DW được tổ chức và lưu trữ

theo các chủ đề nghiệp vụ mà người khai thác quan tâm Ví dụ: Dữ liệu của một doanh nghiệp trong DW có các chủ đề sau:

Thực thể doanh nghiệp: Khách hàng, đối tác, đại lý

Hoạt động của doanh nghiệp: Bán hàng, phân phối, chế tạo

- Tích lũy theo thời gian (Time-Variant): Dữ liệu lưu trữ có tính chất lịch sử,

theo dòng thời gian tính từ một thời điểm trong quá khứ cho đến hiện tại và các

dữ liệu sẽ phát sinh trong tương lai

- Bất biến (Non-Volatile): Dữ liệu đã đưa vào trong DW nói chung ở dạng chỉ đọc

(read-only) và rất hiếm khi thay đổi (không update, không delete) DW chính là những cơ sở dữ liệu (CSDL) được thiết kế cho mục đích khai thác và phân tích thông tin (query - truy vấn) chứ không phải mục đích cập nhật (update–cập nhật, delete-xóa) như trong CSDL của các ứng dụng tác nghiệp

2.1.2 Đặc tính của kho dữ liệu

Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh nghiệp phát sinh ngày càng nhiều Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những mục đích hỗ trợ cho công việc kinh doanh ví dụ như cho mục đích thống kê hay phân tích Quá trình tập hợp và thao tác trên các dữ liệu này có những đặc tính sau:

- Tính tích hợp

Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiều

Trang 20

Một kho dữ liệu là một khung nhìn tổng thể thống nhất các khung nhìn khác nhau

Ví dụ: một hệ thống tác nghiệp như bán hàng hoặc tiếp thị có thể có chung một dạng thông tin về khách hàng, nhưng các vấn đề về tài chính cần một khung nhìn khác cho thông tin về khách hàng Một kho sẽ có một khung nhìn toàn thể về một khách hàng Khung nhìn đó bao gồm các phần dữ liệu khác nhau từ các hệ thống tác nghiệp khác nhau

- Dữ liệu tổng hợp

Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu Dữ liệu tác nghiệp chính là thông tin mức thấp nhất Dữ liệu tổng hợp được tích hợp lại qua nhiều giai đoạn khác nhau

2.1.3 Đặc trưng kho dữ liệu và cơ sở dữ liệu thông thường

DW về bản chất cũng là một database bình thường, các hệ quản trị cơ sở dữ liệu quản

lý và lưu trữ nó như các database thông thường (tuy nhiên có hỗ trợ thêm về quản lý dữ liệu lớn và truy vấn) Một số khác biệt của DW so với database

- Trước tiên DW là database rất lớn

- Database hướng về xử lý thời gian thực, DW hướng về dữ liệu lịch sử, tính ổn định

- Database phục vụ xử lý transaction, cập nhật Datawarehouse thường chỉ đọc, phục vụ cho những nhu cầu báo cáo

- DW sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLserver thậm chí cả File thông thưởng rồi làm sạch chúng và đưa vào cấu trúc của nó

DW rất lớn nên muốn cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thể khai thác thông dễ dàng thì bản thân DW phải được chuyên hoá, phân ra thành

Trang 21

những chủ đề, do đó những chủ đề chuyên môn hóa đó tạo thành một Database chuyên biệt, đó là Data mart

- Một điểm quan trọng là Database thường được chuẩn hóa (Dạng chuẩn 1, 2, 3, BCK) để khai thác DW phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo lược

đồ hình sao trong Data mart, điều này đồng nghĩa với việc DW sẽ trùng lắp thông tin Thật ra điều này theo Tác giả nghĩ là hiển nhiên vì việc chuẩn hoá nhằm tránh

sự trùng lắp thông tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sửa, tuy nhiên DW là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc nên việc trùng lắp thông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn Đây cũng là một quy luật: Càng trùng lắp thông tin thì tìm kiếm càng dễ dàng và ngược lại

2.1.4 Lợi ích của kho dữ liệu mang lại

Tạo ra những quyết định có ảnh hưởng lớn: Một DW cho phép trích rút tài

nguyên nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào cơ sở dữ liệu hoạt động và sản xuất Điều này tạo ra sự tiết kiệm đáng kể Có kho dữ liệu cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một

chương trình quá lâu hoặc các báo cáo và các câu truy vấn phức hợp

Công việc kinh doanh trở nên thông minh hơn: Tăng thêm chất lượng và tính

linh hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho

dữ liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh cho đến mức độ cao hơn - mức độ tổng quát Đảm bảo được dữ liệu chính xác và đáng tin cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất

lượng cao và ổn định (trusted data)

Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối quan

hệ với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua

một kho dữ liệu riêng

Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích không ngừng

thông tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh

do đó có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại Chỉ khi xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá được

những hạn chế và mục tiêu kinh doanh một cách chính xác hơn

Tái sáng tạo hệ thống thông tin: Một DW là nền tảng cho các yêu cầu dữ liệu

trong mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quen cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành

Trang 22

2.1.5 Kho dữ liệu hiện nay

Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh nghiệp thông minh làm tăng mối quan hệ khách hàng (CRM - Customer Relationship Management)

và khai thác dữ liệu Một số được sử dụng để báo cáo tổng hợp, một số được sử dụng để tích hợp dữ liệu Các cách sử dụng này đều tương quan với nhau; ví dụ, quản trị doanh nghiệp thông minh (Business Intelligence - BI) và CRM sử dụng khai thác dữ liệu, kinh doanh thông minh sử dụng báo cáo, còn BI và CRM còn sử dụng tích hợp dữ liệu Trong các phần sau sẽ mô tả cách sử dụng chính, bao gồm quản trị doanh nghiệp thông minh, CRM và khai thác dữ liệu

a Quản trị doanh nghiệp thông minh

Dường như nhiều nhà cung cấp thích dùng quản trị doanh nghiệp thông minh hơn là

DW Nói cách khác, họ tập trung hơn vào việc xem DW có thể làm gì cho doanh nghiệp Nhiều DW hiện nay được dùng cho BI: giúp nhà kinh doanh hiểu công việc kinh doanh của họ hơn; giúp họ đưa ra các quyết định hành động, chiến lược, và mục tiêu kinh doanh tốt hơn; giúp họ cải tiến hoạt động kinh doanh

Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu Và 1 công cụ quản trị doanh nghiệp thông minh chạy và vận hành trên của kho dữ liệu có thể

là một công cụ hỗ trợ tốt cho mục đích đó Điều này có được là do sử dụng báo cáo và OLAP Báo cáo DW được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong DW tới những người kinh doanh OLAP cho phép doanh nghiệp phân tích sựảnh hưởng lẫn nhau của dữ liệu giao dịch kinh doanh được lưu trữ trong DW đa chiều

b Quản lý mối quan hệ khách hàng

Một hệ thống quản lý mối quan hệ khách hàng (CRM - Customer Relationship Management) gồm có những ứng dụng mà hỗ trợ quản lý mối quan hệ khách hàng Trong một hệ thống CRM, chức năng lý tưởng sau đây được xây dựng trong một DW đa chiều:

Trang 23

hướng trong tương lai, các tri thức mà data mining mang lại cho các doanh nghiệp có thể

ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để xử lý Với ưu điểm trên, Data mining đã chứng tỏ được tính hữu dụng của nó trong môi trường kinh doanh đầy tính cạnh tranh20 ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễn thông,…

d Tích hợp dữ liệu khách hàng

Tích hợp dữ liệu khách hàng (CDI- Customer Data Integration) là MDM cho dữ liệu khách hàng CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữ liệu của khách hàng CDI hệ thống chiết dữ liệu khách hàng từ hệ thống OLTP, làm sạch nó, lưu trữ trong một kho dữ liệu khách hàng chính, duy trì dữ liệu của khách hàng, lưu giữ

nó, và phân phối các dữ liệu khách hàng cho các hệ thống khác

Hệ thống CDI cho phép bạn có một phiên bản dữ liệu khách hàng sạch hơn, duy nhất, đáng tin cậy mà các ứng dụng khác trong các doanh nghiệp có thể sử dụng Điều này cũng có thể gia tăng lợi ích kinh doanh chẳng hạn như tăng sự hài lòng của khách hàng

và phân tích kinh doanh tốt hơn, và nó làm giảm sự phức tạp của các quá trình sử dụng

dữ liệu khách hàng Tất cả các loại khác nhau của quản lý dữ liệu chính, CDI là sử dụng rộng rãi nhất bởi vì mỗi tổ chức có khách hàng CDI cung cấp dữ liệu tích hợp sạch cho quản lý mối quan hệ khách hàng

e Dữ liệu phi cấu trúc

Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị cơ sở

dữ liệu quan hệ như Oracle, MS SQL Server, MySQL,… trong đó các thực thể và các thuộc tính được định nghĩa sẵn Ví dụ, dữ liệu của một thí sinh dự thi đại học có thể bao gồm các thông tin như họ tên, năm sinh, trường dự thi, điểm thi các môn Trong khi đó

dữ liệu phi cấu trúc (Unstructured Data) thường dùng để chỉ dữ liệu ở dạng tự do (free type) và không cần có cấu trúc định nghĩa sẵn Các trang web, video, ảnh, âm thanh là các ví dụ của dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc được lưu trữ trong kho dữ liệu như thế nào ? Và, sau khi lưu giữ, làm thế nào để nhận được những thông tin mà bạn cần ra khỏi dữ liệu này ? Để trả lời câu hỏi thứ nhất, đối với mỗi thành phần dữ liệu phi cấu trúc bạn định nghĩa thuộc tính

và sau đó thiết lập những thành phần đó theo các thuộc tính Bạn có thể lưu trữ các thành phần dữ liệu phi cấu trong một cơ sở dữ liệu quan hệ như là một cột đối tượng nhị phân, với các thuộc tính như là các cột khác Hoặc bạn có thể lưu trữ các thành phần dữ liệu

Trang 24

phi cấu trúc trong hệ thống tập tin và chỉ cần lưu trữ các con trỏ vào tập tin trong cơ sở

dữ liệu

Mỗi kiểu của dữ liệu phi cấu trúc có thuộc tính về vật lý và nội dung khác nhau Các thuộc tính có thể được lưu giữ trong một hay nhiều cơ sở dữ liệu để cho phép người sử dụng dễ dàng tìm thấy dữ liệu phi cấu trúc riêng chi tiết Nội dung của các dữ liệu phi cấu trúc chính nó có thể được phân tích, trích xuất, phân loại, lưu trữ và để hỗ trợ truy vấn thông tin

f Kho dữ liệu thời gian thực:

DW ngày nay thông thường được cập nhật từng ngày, từng tuần, từng tháng, Có một

số yêu cầu của những người sử dụng muốn nhìn thấy dữ liệu trong kho dữ liệu được cập nhật cứ hai phút một lần hay thậm chí thời gian thực Một DW thời gian thực (Real-Time Data Warehouse) là một DW mà được cập nhật (bởi ETL) ngay thời điểm giao dịch xảy

ra trong hệ thống nguồn

2.1.7 Tổ chức dữ liệu trong kho dữ liệu

a Lược đồ dữ liệu trong DW

Trong thiết kế logic DW, có hai loại mô hình CSDL thường được sử dụng, đó là: mô hình sao và mô hình bông tuyết:

- Star Schema (lược đồ hình sao): là CSDL quan hệ được thiết kế logic dạng hình sao bao gồm một bảng dữ liệu chi tiết ở vị trí trung tâm quan hệ với các bảng dữ liệu danh mục xung quanh (kiểu N:1) Mỗi bảng danh mục đều là bảng duy nhất của nhánh, không có quan hệ với bảng danh mục nào khác Ví dụ, trong mô hình sao sau đây, bảng

dữ liệu trung tâm thể hiện sản lượng và doanh số, các bảng danh mục xung quanh là: khách hàng, sản phẩm, kênh phân phối, thời gian

Hình 2 1: Ví dụ về lược đồ hình sao

Trang 25

Hình 2.1 là một ví dụ về lược đồ hình sao và mục tiêu của lược đồ hình sao là truy vấn dữ liệu được nhanh nhất; chấp nhận dư thừa dữ liệu ở các bảng danh mục

- Snowflake Schema (lược đồ hình bông tuyết): là CSDL hình sao nhưng được chuẩn hóa theo một dạng chuẩn khác: mỗi bảng danh mục được tách thành các bảng danh mục phân cấp (nếu có) để đảm bảo không dư thừa dữ liệu Trong ví dụ dưới đây, nhánh bảng khách hàng đã được tách thành các bảng phân cấp

Hình 2 2: Ví dụ về lược đồ hình bông tuyết

Hình 2.2 là ví dụ về lược đồ bông tuyết và mục tiêu của mô hình bông tuyết là kế thừa

việc truy vấn nhanh của mô hình sao; không để dưa thừa dữ liệu

b Mô hình dữ liệu đa chiều

Bản chất đa chiều của các câu hỏi trong nghiệp vụ được phản ánh trong thực tế chẳng hạn như những người quản lí thị trường không được thoả mãn với câu hỏi theo một chiều đơn giản, thay vào đó là những câu hỏi phức tạp Một cách để quan sát một mô hình dữ liệu nhiều chiều là nhìn nó như một hình khối Hình 2.3 thể hiện câu truy vấn theo bốn chiều: khách hàng, dịch vụ, thời gian

Trang 26

Hình 2 3: Mô hình dữ liệu đa chiều

Thời gian trả lời một truy vấn nhiều chiều phụ thuộc vào số lượng các ô được thêm vào trong quá trình thực hiện Khi số lượng chiều tăng thì số ô của khối này tăng theo cấp số mũ Bên cạnh đó, những truy vấn đa chiều đều liên quan tới những dữ liệu ở cao

và dữ liệu tổng Vì vậy, giải pháp để xây dựng một cơ sở dữ liệu đa chiều có hiệu quả là phải kết hợp từ trước tất cả các tổng con logic và các tổng theo tất cả các chiều Sự kết hợp trước này đặc biệt có giá trị khi các chiều mang tính phân cấp

Sự phân cấp về kích thước, quản lí dữ liệu thưa hơn và sự kết hợp trước là quan trọng

vì chúng làm giảm đáng kể kích cỡ của cơ sở dữ liệu và những yêu cầu tính toán các giá trị Một thiết kế như vậy loại bỏ việc phải kết hợp nhiều bảng và cung cấp sự truy nhập trực tiếp và nhanh tới các câu trả lời vì vậy cải thiện đáng kể tốc độ trong việc thực hiện các truy vấn đa chiều

Các thành phần chính

Các dữ kiện (Facts)

- Miêu tả các vùng kinh doanh

- Không thay đổi khi nó đã được sinh ra

- Được lưu tại một cấp thô nào đó

Các chiều (Dimensions)

- Thông tin tham chiếu qua đó các dữ kiện có thể được cấu trúc cho việc phân Tích

- Định nghĩa các phân cấp

Và các khối đa chiều (Cubes)

- Một khối có thể có nhiều chiều

Trang 27

- Một khối bao gồm nhiều ô dữ liệu

c Bảng sự kiện

Bảng sự kiện điển hình có hai kiểu cột, chúng chứa đựng những sự kiện số (thường gọi là thước đo), và chứa khóa của các bảng dimension Bảng sự kiện chứa đựng những

sự kiện mức chi tiết hoặc những sự kiện mà đã được tổng hợp lại Bảng sự kiện mà chứa

sự kiện tổng hợp thường được gọi là những bảng tóm tắt Bảng sự kiện thông thường chứa đựng những sự kiện với cùng mức của sự tổng hợp Tuy nhiên hầu hết những sự kiện liên kết tất cả các chiều, nó có thể liên kết với 1 số chiều hoặc không liên kêt Bảng sự kiện là bảng chứa dữ liệu chi tiết nên có số lượng bản ghi rất lớn và còn thường xuyên được cập nhật, bổ sung dữ liệu, trong khi đó các bảng dimension thường

cố định nói đúng hơn là có sự thay đổi không đáng kể theo thời gian Bảng theo chiều chứa đựng các thuộc tính có thể được sử dụng như các tiêu chí tìm kiếm và thường có kích thước nhỏ hơn rất nhiều, rất quen thuộc với người sử dụng từ trước

d Bảng chiều dữ liệu

Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu số trong khối được phân chia để phân tích Khi xác định một chiều, chọn một hoặc nhiều cột của một trong các bảng liên kết (bảng chiều) Nếu ta chọn các cột phức tạp thì tất cả cần có quan hệ với nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống phân cấp đơn

Để xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể nhất Ví dụ: một chiều thời gian được tạo ra từ các cột năm, qúy, tháng, ngày

Mỗi cột trong chiều góp phần vào một cấp độ cho chiều Các cấp độ được sắp đặt theo nét riêng biệt và được tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợp logic cho việc đào sâu (drill_down) Ví dụ: chiều thời gian được miêu tả ở trên cho phép người dùng khối đào sâu từ năm tới qúy, từ qúy tới tháng và từ tháng tới ngày

2.2 KIẾN TRÚC DATA WAREHOUSE

DW và kiến trúc của nó tùy thuộc vào vị trí của từng tổ chức Có 3 kiến trúc phổ biến

của DW:

- Kiến trúc DW cơ bản: Đây là kiến trức đơn giản cho DW

Trang 28

Hình 2 4: Kiến trúc DW cơ bản

( https://docs.oracle.com/cd/E11882_01/server.112/e25554/concept.htm#DWHSG8071 )

- Hình 2.4 mô tả kiến trúc data warehouse dạng cơ bản Trong kiến trúc này bao gồm các thành phần sau: data source, data warehouse, user

- Hình 2.5 mô tả kiến trúc DW với staging area: thêm thành phần làm sạch và xử

lý dữ liệu trước khi đưa vào data warehouse

Trang 29

Hình 2 5: Kiến trúc DW với DSA

(https://docs.oracle.com/cd/E11882_01/server.112/e25554/concept.htm#DWHSG8071)

- Hình 2.6 Kiến trúc DW với Staging Area và Data Mart: So với kiến trúc trên có thêm data mart, dữ liệu được chuyển đổi và biểu diễn theo yêu cầu bởi một nhóm các người dùng đặc biệt

Trang 30

Hình 2 6: Kiến trúc DW với DSA, DM

(https://docs.oracle.com/cd/E11882_01/server.112/e25554/concept.htm#DWHSG8071)

2.2.2 Thành phần trong Datawarehouse

 Data Source – Dữ liệu nguồn

Dữ liệu nguồn là đầu vào của toàn bộ hệ thống DW, bao gồm một danh sách nguồn dữ liệu được lựa chọn để đưa vào hệ thống

Dữ liệu nguồn điển hình của DW là các CSDL tác nghiệp bên trong tổ chức, cung cấp số liệu chi tiết về các giao dịch phát sinh hàng ngày; các CSDL này có thể được xây dựng trên các công nghệ khác nhau (Oracle, Microsoft SQL Server, DB2,…)

Ngoài ra, dữ liệu nguồn cho DW cũng có thể ở dạng file – tập tin (text, xml, excel,…); hoặc có thể là dữ liệu nguồn bên ngoài tổ chức (CSDL của các tổ chức liên kết, các cơ quan nhà nước,…)

 Staging Area

Data Staging Area (DSA) là một tập các CSDL đóng vai trò trung chuyển dữ liệu giữa các nguồn dữ liệu với EM DSA là môi trường dữ liệu trung gian, lưu trữ tạm thời dữ liệu để xử lý, làm sạch và tích hợp trước khi đưa vào EM

Đặc điểm dữ liệu tại DSA:

- Chỉ lưu trữ tạm thời của một phiên, khi xử lý xong thì xóa đi để chuẩn bị xử lý cho phiên tiếp theo

- Có hai loại DSA:

+ DSA đích:

 Là CSDL có cấu trúc tương đương với EM (CSDL hình bông tuyết), là nơi chứa dữliệu kết quảcuối cùng của giai đoạn xửlý, làm sạch và tích hợp trước khi đưa vào EM

 Chỉ có một DSA đích

+ DSA nguồn:

 Là CSDL có cấu trúc tương đương với dữ liệu nguồn (mô hình CSDL quan

hệ thông thường) và chứa dữ liệu nguyên bản của nguồn (sau đó mới xử

lý, làm sạch)

 Có nhiều DSA nguồn: ứng với mỗi dữ liệu nguồn cần một DSA nguồn Các bước thực hiện thiết kế DSA-Thiết kế DSA đích (dựa trên bản thiết kế

EM đã có):

Trang 31

 Siêu dữ liệu (Meta Data)

Metadata là lớp dữ liệu lưu trữ các thông tin mô tả về chính các thành phần của DW Thực chất việc thiết kế metadata cho DW là thiết kế một CSDL quan hệ để lưu trữ các

loại dữ liệu sau:

- Cấu trúc và ý nghĩa của từng CSDL trong DW (dữ liệu nguồn, DSA, EM, DM):

mô tả về các bảng, các trường, ý nghĩa ngiệp vụ

- Quan hệ tham chiếu giữa các trường, bảng của các CSDL khác nhau

- Dữ liệu nghiệp vụ của người dùng: các measure, các dimension, các thuộc tính đi kèm (attribute), các phân cấp (hieararchy)

- Dữ liệu quản lý tiến trình ETL: dữ liệu về từng công đoạn chuyển đổi, các phiên thực hiện,…

- Dữ liệu về tầng khai thác và phân tích thông tin: cấu trúc và ý nghĩa các đơn vị của lớp dữ liệu tham chiếu; danh mục các kết quả đầu ra (báo cáo, phân tích), danh sách user và quyền truy cập

Vai trò của metadata:

- Lưu trữ hình ảnh về toàn bộ thiết kế của hệ thống DW và BI, phục vụ việc tra cứu thông tin về hệ thống, bảo trì và mở rộng hệ thống

- Cung cấp các dữ liệu cơ sở (thông tin đầu vào) cho giai đoạn thiết kế vật lý: thiết

kế vật lý các CSDL, tiến trình ETL, các công cụ quản trị và vận hành

 Cơ sở dữ liệu chủ đề Data Mart (DM)

Kho dữ liệu chủ đề (Data Mart - DM) là DW có những đặc điểm giống với DW nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành Các DM có thể được hình thành từ một tập con dữ liệu của kho dữ liệu hoặc cũng có thể được xây dựng độc lập và sau khi xây dựng xong, các DM có thể được kết nối tích hợp lại với nhau tạo thành kho dữ liệu Vì vậy có thể xây dựng kho dữ liệu bắt đầu bằng việc xây dựng các DM hay ngược lại xây dựng kho dữ liệu trước sau đó tạo

ra các DM

DM là một DW thứ cấp các dữ liệu tích hợp của kho dữ liệu DM được hướng tới một phần của dữ liệu thường được gọi là một vùng chủ đề (Subject Area-SA) được tạo ra dành cho một nhóm người sử dụng Dữ liệu trong DM cho thông tin về một chủ đề xác định, không phải về toàn bộ các hoạt động nghiệp vụ đang diễn ra trong một tổ chức Thể hiện thường xuyên nhất của DM là một kho dữ liệu riêng rẽ

Trang 32

trên phương diện vật lý và thường được lưu trữ trên một server riêng, trên một mạng cục bộ phục vụ cho một nhóm người nhất định

Hình 2.7 dưới đây là một ví dụ một Data Mart, trong đó có bảng sự kiện DOANH_SO với 2 measure là số lượng, doanh số và 4 bảng chiều dữ liệu là thời gian, cửa hàng, khách hàng, sản phẩm

Hình 2 7: Ví dụ CSDL chủ đề Data Mart DOANH SỐ

2.2.2 Thu thập, làm sạch và tích hợp dữ liệu (Extraction -Transformation -Loading -ETL)

ETL là tiến trình thu thập, làm sạch và tích hợp dữ liệu với mục đích đưa được các dữ liệu nguồn cần thiết vào DW theo đúng yêu cầu nghiệp vụ

ETL vừa thực hiện việc xử lý dữ liệu vừa tạo ra dòng chảy của dữ liệu từ nguồn qua các thành phần khác nhau và đến đích (các DM), giúp cho dữ liệu của hệ thống DW được cập nhật định kỳ

Trên thực tế, các tình huống chuyển đổi dữ liệu từ nguồn đến kho tập trung là rất đa dạng, phức tạp, và vì thế ETL cũng có thể rất đa dạng và phức tạp Dưới đây chỉ là một cách chia tách các công đoạn xử lý bên trong một tiến trình ETL, theo đó coi cả hệ thống

DW chỉ có một tiến trình ETL, và nó bao gồm các công đoạn xử lý sau:

- Thu thập dữ liệu (Extraction): là công đoạn khai thác và đưa dữ liệu từ các nguồn vào CSDL trung chuyển (các DSA nguồn), chưa xử lý gì đối với dữ liệu

- Làm sạch và tích hợp (Transformation): là cộng đoạn phức tạp nhất, xử lý dữ liệu tại CSDL trung chuyển, các xử lý bao gồm:

Trang 33

+ Làm sạch: chuẩn hóa hoặc loại bỏ các dữ liệu không hợp lệ, không toàn vẹn + Tích hợp: tích hợp dữ liệu từ nhiều DSA nguồn về một DSA đích, tích hợp các bảng dữ liệu tương đương nhau thành một bảng

- Loading (load dữ liệu): là công đoạn load dữ liệu đã được xử lý

2.2.3 CSDL đa chiều với OLAP

Nhìn chung, mục đích hướng đến của việc thiết kế DW là ra được các DM Về mặt logic, các DM được thiết kế theo ý tưởng đa chiều với các bảng danh mục (các chiều) xoay quanh bảng dữ liệu chi tiết về các giao dịch phát sinh; kiểu thiết kế này giúp đáp ứng nhanh và linh hoạt các nhu cầu thông tin đa dạng, đa chiều của người dùng Nhưng

về bản chất lưu trữ dữ liệu, DM vẫn là một tập các bảng dữ liệu quan hệ (các bảng với 2 chiều dòng và cột), để đưa ra được các báo cáo đa chiều, cần thực hiện các câu lệnh truy

vấn (SQL) để join các bảng với nhau

Để tạo sự thuận tiện và chủ động cho người dùng cuối, đồng thời tăng tốc độ đáp ứng các nhu cầu thông tin, cần tạo thêm một lớp dữ liệu nữa ở dạng tính toán sẵn và gần gũi

hơn với nhu cầu thông tin của người dùng, lớp dữ liệu đó chính là OLAP

OLAP là tầng dữ liệu phía trên các DM, có cấu trúc lưu trữ đặc biệt (không sử dụng các bảng quan hệ thông thường) để lưu trữ các dữ liệu đa chiều ở dạng tính toán sẵn, các

dữ liệu này rất gần với nhu cầu thông tin của người dùng

Với OLAP, người dùng chỉ cần chọn và lấy ra các thông tin mình cần (các dimension, các measure) để thực hiện việc báo cáo và phân tích vì các thông tin này đã được tính

toán sẵn trong OLAP

OLAP được tổ chức thành các OLAP cube (Khối dữ liệu đa chiều), mỗi OLAP cube phục vụ một nhóm nhu cầu thông tin của người dùng Tương ứng với một chủ đề thông tin (DM), có thể tạo ra nhiều OLAP cube Ngoài ra, tùy thuộc nhu cầu phân tích thông tin, cũng có thể tạo ra một OLAP cube từ các DM khác nhau

2.2.4 Các công cụ truy vấn, tạo báo cáo, phân tích dữ liệu

- Công cụ tạo báo cáo và câu hỏi truy vấn (Report):

Dễ sử dụng, các câu hỏi được xây dựng trước hoặc được người dùng tự tạo ra

dưới dạng SQL dựa trên mô hình quan hệ Kết quả tạo ra dưới dạng báo cáo

- Công cụ phân tích trực tuyến (OLAP):

Tương đối khó sử dụng Người dùng thao tác với dữ liệu dưới dạng mô hình nhiều chiều (thường có chiều thời gian) Công cụ này cho phép phân tích dữliệu nhanh chóng, liên tục, lặp đi lặp lại, theo quá trình mịn dần

Trang 34

Dựa trên các nghiên cứu lĩnh vực trí tuệ nhân tạo Chúng giúp phát hiện những sự kiện, hình mẫu, phụ thuộc dữ liệu trước kia chưa biết hoặc giúp chúng xây dựng những mô hình dự báo

2.3 CÁC NGHIÊN CỨU LIÊN QUAN

Trong quá trình làm luận văn, Tác giả có đọc một số các nghiên cứu liên quan đến đề tài của mình, để phục vụ công việc làm luận văn này Dười đây là một số các nghiên cứu liên quan:

2.3.1 Nghiên cứu thứ nhất:

- Tên đề tài: Data Warehouse và ứng dụng trong bài toán quản lý của hàng bán lẻ xăng dầu

- Tóm tắt về nghiên cứu này:

Phần 1: Trình bày lý thuyết chung về kho dữ liệu, phương pháp xây dựng thiết kế kho

dữ liệu

Phần 2: Trình bày các công cụ xây dựng kho dũ liệu

- Hệ quản trị cơ sở dữ liệu Microsoft SQL Server 2008

- SQL Server Integration Services (SSIS)

- SQL Server Analysis Services (SSAS)

- Ngôn ngữ truy vấn MDX

- SQL Server Reporting Service (SSRS)

Phần 3: Giới thiệu bài toán quản lý cửa hàng bán lẻ xăng dầu

- Đơn vị áp dụng: Tập đoàn xăng dầu Việt Nam (Petrolimex)

- Giới thiệu mô hình tổng thể của hệ thống CNTT tại tập đoàn

- Phân tách chức năng và dữ liệu giữa hệ thống trung tâm và các cửa hàng

Phần 4: Xây dựng Data Warehouse phục vụ cho công tác báo cáo

- Xây dựng 2 kho dữ liệu chủ đề: Kho dữ liệu hàng hóa, kho dữ liệu kế toán

- Sử dụng các công cụ để xây dựng CSDL và báo cáo

2.3.1 Nghiên cứu thứ 2

- Tên đề tài: Design of Data Warehouse and Business Intelligence System, A case study of a Retail Industry

Chương 1: Giới thiệu đề tài

Chương 2: Cơ sơ lý thuyết

- Đánh giá tài liệu

- Định nghĩa

Trang 35

- Khái niệm về kho dữ liệu

- Phát triển kho dữ liệu

- Khái niệm về BI

- ONLINE TRANSACTIONAL PROCESSING (OLTP)

- Kiến trúc cấp cao của Data Warehouse và BI

- Khái niệm thiết kế Data Warehouse

Trang 36

CHƯƠNG 3: THỰC TRẠNG CƠ SỞ HẠ TẦNG CNTT VÀ QUY

TRÌNH NGHIỆP VỤ BÁN HÀNG CỦA CÔNG TY

Chương này tác giả trình bày về thực trạng cơ sở hạ tầng công nghệ thông tin và quy trình nghiệp vụ bán hàng của công ty Về hạ tầng công nghệ thông tin tác giả trình bày hạ tâng phần cứng và hệ thống phần mềm ứng dụng trong công việc sản xuất kinh doanh của công ty

Về quy trình nghiệp vụ bán hàng tác giả trình bày quy trình bán hàng theo đơn hàng số lượng lớn và quy trình bán hàng lẻ

Cuối cùng để hiểu rõ hơn và chi tiết trong chương này, xin mời xem các nội dung bên dưới

Trang 37

Mẹ HCM

Công ty con A Long An

Trụ sở con B

Củ Chi

Trụ sở con C Bắc ninh

Hệ thống Data Center được đặt tại Long An, nên toàn bộ máy chủ chạy các dịch vụ

chính thức đặt tại Long An bao gồm các máy chủ sau:

- Máy chủ quản lý FILE: Lưu trữ các file dữ liệu công việc thường ngày như

Trang 38

- Máy chủ quản lý Email: Lưu trức các file Email

- Máy chủ quản lý Web:

- Máy chủ quản lý hệ thống AD, DNS, DHCP

- Các máy chủ cài đặt các phần mềm quản lý của công ty

- Máy chủ quản lý hệ thống BACKUP

Trong đó Data Center tại Long An gồm 4 máy chủ vật lý cùng các máy chủ ảo hóa nằm ở trong các máy chủ vật lý này

 Hệ thống máy chủ tại Công Ty Mẹ TPHCM và Công Ty Con A Củ Chi quản lý

hệ thống Child Domain

3.1.2 Thiết bị lưu trữ NAS

 Hệ thống lưu trữ NAS tại Long An phục vụ lưu trữ các dữ liệu của công ty như (File, Database, Configure …)

 Hệ thống lưu trữ NAS tại Công Ty Mẹ TPHCM và Công Ty Con A tại Củ Chi phục vụ công tác lưu trữ dữ liệu backup tại DataCenter tại Long An

3.2 HỆ THỐNG PHẦN MỀM ỨNG DỤNG TRONG CÔNG VIỆC SẢN XUẤT KINH DOANH CỦA CÔNG TY

Nhằm phục vụ công việc sản xuất kinh doanh của tổng công ty, đến nay tổng công ty

đã triển khai một số phần mềm ứng dựng để đáp ứng công việc thường ngày như: Quản

lý sản xuất, kinh doanh, kế toán, kho bãi …

Một điểm cần lưu ý trong các phần mềm ứng dụng này là chúng hoạt động độc lập với nhau, mỗi phần mềm có một cơ sở dũ liệu riêng biệt

Bảng 3.2 dưới đây là danh sách các hệ thống quản lý công ty đang sử dụng

TRỤ SỞ CÔNG TY Công Ty

mẹ HCM

Công ty con A Long

Trang 39

+ Bảo trì bảo dưỡng

- Hệ thống không có phân hệ quản lý Nhân Sư Tiền Lương

3.2.3 Phần mềm quản ly nhân sự tiền lương – nhà ăn

- Phần mềm được triển khai cho toàn bộ từ công ty mẹ cho đến công ty con, trụ sở của công ty mẹ

- Phần mềm quản lý nhân sự, chấm công, tiền lương và quản lý phần ăn cho khoảng

Trang 40

STT Danh Mục Công Nghệ Sử Dụng

1 Hệ điều hành máy chủ Windows Server 2016

2 Hệ điều hành máy trạm Windows 10 pro

3 Hệ quản trị cơ sở dũ liệu Microsoft SQL Server 2014 Standard

Oracle 11g

4 Công cụ lập trình Microsoft Visual Studio 2015

5 Công nghệ giao tiếp Web Service, Net Remoting, Oracle

Bảng 3 3: Thực trạng công nghệ phần mềm quản lý

3.3 HỆ THỐNG BÁO CÁO CỦA CÔNG TY

Các báo cáo tổng hợp là những báo cáo được xây dựng ở cấp Tổng Công Ty cung cấp các thông tin có tính chất phân tích, hỗ trợ quản lý điều hành Đối tượng người dùng của các báo cáo này là: Lãnh đạo Tổng công ty, các ban của Tổng công ty, lãnh đạo các công

ty thành viên.Về cơ bản, các báo cáo tổng hợp hiện nay đang được xây dựng theo cách thủ công, những bước thực hiện chính bao gồm:

- Tập hợp số liệu báo cáo từ các đơn vị thành viên lấy từ các phần mềm Kế Toán

AL, ERP-SAP, Phần Mềm Nhân Sự

- Sau khi nhận đủ số liệu nguồn, cán bộ phụ trách thực hiện lập báo cáo bằng tay trên Excel, tính toán thủ công các chỉ tiêu thống kê, báo cáo Khi có số liệu mớicác cán bộ phụ trách thực hiện lập báo cáo sẽ phải tính toán và lập lại báo cáo từ đầu

Ngày đăng: 25/01/2021, 23:30

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w