1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Luận văn thạc sĩ) xây dựng hệ thống data warehouse và ứng dụng công nghệ olap để phân tích dữ liệu kinh doanh của doanh nghiệp

86 316 6
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 3,62 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung của chương 2 trình bày về kiến trúc dòng dữ liệu cũng như một số mô hình dữ liệu của Data Warehouse; các kiến trúc của tiến trình trích xuất, biến đổi và chuyển nạp dữ liệu; các

Trang 1

-

NGUYỄN KHÁNH DUY

XÂY DỰNG HỆ THỐNG DATA

WAREHOUSE VÀ ỨNG DỤNG CÔNG NGHỆ OLAP ĐỂ PHÂN TÍCH DỮ LIỆU KINH DOANH CỦA DOANH NGHIỆP

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

TP HỒ CHÍ MINH - 2019

Trang 2

-

NGUYỄN KHÁNH DUY

XÂY DỰNG HỆ THỐNG DATA

WAREHOUSE VÀ ỨNG DỤNG CÔNG NGHỆ OLAP ĐỂ PHÂN TÍCH DỮ LIỆU KINH DOANH CỦA DOANH NGHIỆP

Chuyên ngành : Khoa học máy tính

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan rằng luận văn “XÂY DỰNG HỆ THỐNG DATA WAREHOUSE VÀ ỨNG DỤNG CÔNG NGHỆ OLAP ĐỂ PHÂN TÍCH DỮ LIỆU KINH DOANH CỦA DOANH NGHIỆP” là bài nghiên cứu của chính tôi

Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi cam đoan rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được công bố hoặc được sử dụng để nhận bằng cấp ở những nơi khác

Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận văn này

mà không được trích dẫn theo đúng quy định

Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các trường đại học hoặc cơ sở đào tạo khác

TP Hồ Chí Minh, tháng 11 năm 2019

Nguyễn Khánh Duy

Trang 4

LỜI CẢM ƠN

Sau thời gian học tập và nghiên cứu tại Trường Đại học Mở Thành phố Hồ Chí Minh, bằng sự biết ơn và kính trọng, tôi xin gửi lời cảm ơn chân thành đến Ban giám hiệu nhà trường, khoa Công nghệ thông tin cùng các giảng viên đã nhiệt tình giảng dạy và tạo điều kiện tốt nhất cho tôi hoàn thành đề tài nghiên cứu khoa học này Đặc biệt tôi xin gửi lời cảm ơn sâu sắc đến thầy PGS.TS Đỗ Phúc, người đã trực tiếp hướng dẫn tôi bằng tất cả sự nhiệt huyết của mình và luôn đồng hành cùng tôi trong suốt quá trình thực hiện đề tài

Tôi cũng xin chân thành cảm ơn các đồng nghiệp trong công ty đã tạo điều kiện

và giúp đỡ để tôi có thể hoàn thành đề tài nghiên cứu này

Mặc dù đã rất cố gắng, nhưng do hạn chế về thời gian và một số điều kiện khách quan nên luận văn không thể tránh khỏi những thiếu sót Kính mong nhận được sự đóng góp ý kiến của Quý thầy cô, bạn bè và các đồng nghiệp để đề tài được hoàn thiện hơn nữa

Trang 5

TÓM TẮT

Trong thời đại hiện nay, dữ liệu đang trở thành nguồn tài nguyên vô tận để các

cá nhân, tổ chức khai thác ở mọi lĩnh vực Nguồn tài nguyên này ngày càng trở nên quan trọng đối với ngành bán lẻ, việc khai thác tốt dữ liệu sẽ giúp các nhà quản trị đưa ra những quyết định mang tính chiến lược, đột phá nhằm mở rộng quy mô và nâng cao lợi nhuận trong kinh doanh Hệ thống Data Warehouse là một trong những giải pháp hiệu quả nhất để quản lý lượng dữ liệu khổng lồ của doanh nghiệp Chính

vì vậy mà tác giả lựa chọn thực hiện đề tài “Xây dựng hệ thống Data Warehouse và ứng dụng công nghệ OLAP khai thác dữ liệu kinh doanh của doanh nghiệp” để giải quyết 3 vấn đề chính:

− Xây dựng hệ thống Data Warehouse là nơi tập trung dữ liệu để Chuỗi cửa hàng Retailer khai thác cho nhu cầu tạo báo cáo

− Rút ngắn tối đa thời gian tạo báo cáo, ứng dụng kỹ thuật OLAP để phân tích các dữ liệu mà hệ thống Data Warehouse cung cấp

− Ứng dụng hệ thống Data Warehouse đã xây dựng vào thực tiễn vận hành của Chuỗi cửa hàng Retailer

Nội dung của chương 2 trình bày về kiến trúc dòng dữ liệu cũng như một số mô hình dữ liệu của Data Warehouse; các kiến trúc của tiến trình trích xuất, biến đổi và chuyển nạp dữ liệu; các thao tác OLAP thực thi phân tích dữ liệu đa chiều Chương này cũng đã nêu rõ ưu – khuyết điểm của từng kiến trúc để làm cơ sở cho giai đoạn thiết kế Data Warehouse

Chương 3 thực hiện khảo sát hiện trạng hệ thống, các yêu cầu tạo và phân tích báo cáo làm căn cứ cho việc thiết kế kiến trúc của hệ thống Data Warehouse Sau khi hoàn tất khảo sát, tiến hành giai đoạn thiết kế kiến trúc dòng dữ liệu và lựa chọn mô hình tổ chức dữ liệu phù hợp; xây dựng tiến trình trích xuất, biến đổi, chuyển nạp dữ liệu; triển khai khối dữ liệu đa chiều thông qua các công cụ SSIS và SSAS của Microsoft Khối dữ liệu đa chiều này là đối tượng chính để các thao tác OLAP khai thác dữ liệu

Trang 6

Chương 4 tiến hành sử dụng thao tác Drill down, Roll up, Slice, Dice nhằm tổng hợp dữ liệu thành thông tin giúp nhà quản trị có căn cứ đưa ra những quyết định quan trọng Kỹ thuật OLAP tạo ra những báo cáo có khung nhìn linh động, thời gian thực thi được rút ngắn đáng kể từ đó giải quyết được các mục tiêu ban đầu Bên cạnh đó, các hạn chế cũng được chỉ ra và đề xuất hướng giải quyết để dần hoàn thiện hệ thống Data Warehouse

Trang 7

ABSTRACT

Nowadays, data become an endless resource for individuals and organization to exploit for their purpose This resource has an especially important role in retail industry Data mining will support business managers making strategic and breakthrough decisions to expand the organization scale and improve profits Data Warehouse system is one of the most effective solutions to manage huge data volume

of enterprises Therefore, the author decided to choose the project “Builidng Data Warehouse System And Organization Adoption Of OLAP Technology To Exploid Data” This project aim to solve 3 main objectives:

− Building Data Warehouse system that store all data of Retailer Convenience Store Chain for reporting purpose

− Increasing performance of creating reports, apply OLAP techniques to analyze data provided by Data Warehouse system

− Implementing Data Warehouse system to support operations of Retailer Convenience Store Chain

Chapter 2 covers data flow architectures and data models of Data Warehouse system; the architectures of extraction, transformation and loading process (ETL); the OLAP operations that analyze data using multidimensional database This chapter highlights advantages and disadvantages of each architecture for Data Warehouse designing phase

Chapter 3 carries out a system status survey, the requirements for creating and analyzing reports The author design data flow architecture and selecting the appropriate data model base on result of survey; building extraction, transformation and loading process; deploy OLAP cube by using SSIS and SSAS tools This OLAP cube is the main object for OLAP operations to exploit data

Finally, chapter 4 applies OLAP operations Drill down, Roll up, Slice, Dice to organize and present data in a given context so that making data become useful

Trang 8

information OLAP operations create reports with flexible views, shortening execution time, supporting business managers making decisions In addition, limitions of this research were also pointed out and proposed solutions to improve the Data Warehouse system

Trang 9

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

TÓM TẮT iii

ABSTRACT v

DANH MỤC CHỮ VIẾT TẮT ix

DANH MỤC CÁC BẢNG x

DANH MỤC HÌNH ẢNH xi

CHƯƠNG 1: TỔNG QUAN 1

1.1 Giới thiệu 1

1.2 Mục tiêu của luận văn 2

1.2.1 Giới thiệu về Chuỗi cửa hàng Retailer 2

1.2.2 Mục tiêu nghiên cứu của luận văn 3

1.3 Phạm vi, đối tượng và nội dung nghiên cứu 3

1.3.1 Phạm vi 3

1.3.2 Đối tượng 3

1.3.3 Nội dung 4

1.4 Ý nghĩa của luận văn 4

1.5 Bố cục luận văn 4

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT DATA WAREHOUSE 6

2.1 Lý thuyết về Data Warehouse 6

2.1.1 Khái niệm 6

2.1.2 Kiến trúc Data Warehouse 7

2.1.3 Mô hình dữ liệu đa chiều 11

2.2 Lý thuyết về ETL 12

2.2.1 Khái niệm 12

2.2.2 Kiến trúc ETL 15

2.3 Lý thuyết về OLAP 16

2.3.1 Khái niệm 16

2.3.2 Phân loại OLAP 17

2.3.3 Các thao tác của OLAP 20

CHƯƠNG 3: KHẢO SÁT HIỆN TRẠNG VÀ THIẾT KẾ HỆ THỐNG DATA WAREHOUSE 24

Trang 10

3.1 Khảo sát và phân tích yêu cầu 24

3.1.1 Hiện trạng hệ thống thông tin của doanh nghiệp 24

3.1.2 Khảo sát dữ liệu 26

3.1.3 Khảo sát báo cáo 28

3.2 Thiết kế kiến trúc Data Warehouse và mô hình hóa dữ liệu 30

3.2.1 Thiết kế Stage 31

3.2.2 Thiết kế DDS 33

3.2.3 Ánh xạ dữ liệu 40

3.3 Xây dựng tiến trình ETL 42

3.3.1 Trích xuất dữ liệu của ODS 43

3.3.2 Biến đổi và chuyển dữ liệu vào DDS 45

3.4 Triển khai cơ sở dữ liệu đa chiều 54

CHƯƠNG 4: ỨNG DỤNG OLAP VÀ ĐÁNH GIÁ HỆ THỐNG 57

4.1 Báo cáo số lượng sản phẩm bán ra 58

4.2 Báo cáo doanh số 62

4.2.1 Báo cáo doanh số theo nhà cung cấp 62

4.2.2 Báo cáo doanh số theo KHTT 63

4.3 Phát hiện bất thường dữ liệu 65

4.4 Đánh giá hệ thống 67

4.4.1 Kết quả đạt được 67

4.4.2 Hạn chế của hệ thống Data Warehouse 69

4.4.3 Hướng phát triển tiếp theo 69

KẾT LUẬN 70

TÀI LIỆU THAM KHẢO 71

Trang 11

DANH MỤC CHỮ VIẾT TẮT

Trang 12

DANH MỤC CÁC BẢNG

Bảng 2 2 Mô tả một số đặc tính của hai loại hệ thống OLTP và OLAP 17

Bảng 3 1 Bảng Fact doanh số 35

Bảng 3 2 Bảng chiều thời gian 36

Bảng 3 3 Bảng chiều sản phẩm 37

Bảng 3 4 Bảng chiều khách hàng 37

Bảng 3 5 Bảng chiều cửa hàng 38

Bảng 3 6 Bảng chiều nhà cung cấp 38

Bảng 3 7 Ánh xạ dữ liệu nguồn vào bảng Fact doanh số 40

Bảng 3 8 Ánh xạ dữ liệu nguồn vào bảng DimProduct 41

Bảng 3 9 Ánh xạ dữ liệu nguồn vào bảng DimStore 41

Bảng 3 10 Ánh xạ dữ liệu nguồn vào bảng DimCustomer 42

Bảng 3 11 Ánh xạ dữ liệu nguồn vào bảng DimVendor 42

Bảng 4 1 So sánh kết quả sau khi triển khai hệ thống OLAP 68

Trang 13

DANH MỤC HÌNH ẢNH

Hình 1 1 Mô hình hệ hỗ trợ ra quyết định 2

Hình 2 1 Hệ thống Data Warehouse 6

Hình 2 2 Kiến trúc Single DDS 9

Hình 2 3 Kiến trúc NDS + DDS 9

Hình 2 4 Kiến trúc ODS + DDS 10

Hình 2 5 Lược đồ sao 11

Hình 2 6 Lược đồ bông tuyết 12

Hình 2 7 Lược đồ chòm sao 12

Hình 2 8 Thực thi ETL trên đĩa và trên bộ nhớ [7, p.174] 15

Hình 2 9 Kiến trúc tiến trình ETL và ELT [7, p.175] 16

Hình 2 10 Kiến trúc MOLAP 18

Hình 2 11 Kiến trúc ROLAP 19

Hình 2 12 Kiến trúc HOLAP 20

Hình 2 13 Minh họa thao tác Roll up 21

Hình 2 14 Minh họa thao tác Drill down 21

Hình 2 15 Minh họa thao tác Slice 22

Hình 2 16 Minh họa thao tác Dice 22

Hình 2 17 Minh họa thao tác Pivot 23

Hình 3 1 Mô hình kết nối POS với Server 26

Hình 3 2 Báo cáo số lượng sản phẩm bán trong năm 2018 28

Hình 3 3 Báo cáo doanh số theo nhà cung cấp qua các năm 29

Hình 3 4 Báo cáo doanh số KHTT năm 2018 30

Hình 3 5 Kiến trúc dòng dữ liệu của Data Warehouse 30

Hình 3 6 Lược đồ sao bảng Fact và các Dimension 34

Hình 3 7 Lược đồ hình sao chủ đề doanh số 39

Hình 3 8 Kiến trúc tiến trình ETL 42

Hình 3 9 Data Flow quá trình trích xuất dữ liệu từ ODS 44

Trang 14

Hình 3 10 Control Flow tiến trình trích xuất dữ liệu từ ODS 44

Hình 3 11 Minh họa bảng DataFlowDDS 46

Hình 3 12 Data Flow của quá trình cập nhật dữ liệu DimStore 47

Hình 3 13 Control Flow của tiến trình đưa dữ liệu vào DimStore 47

Hình 3 14 Data Flow của quá trình cập nhật dữ liệu DimCustomer 48

Hình 3 15 Control Flow của tiến trình đưa dữ liệu vào DimCustomer 49

Hình 3 16 Data Flow của quá trình cập nhật dữ liệu DimProduct 50

Hình 3 17 Control Flow của tiến trình đưa dữ liệu vào DimProduct 50

Hình 3 18 Data Flow của quá trình cập nhật dữ liệu DimVendor 51

Hình 3 19 Control Flow của tiến trình đưa dữ liệu vào DimVendor 52

Hình 3 20 Control Flow của tiến trình đưa dữ liệu vào FactSales 54

Hình 3 21 Phân cấp chiều thời gian 55

Hình 3 22 Phân cấp chiều sản phẩm 55

Hình 3 23 Khối dữ liệu đa chiều đã được triển khai 56

Hình 4 1 Sơ đồ hệ thống Data Warehouse đã xây dựng 57

Hình 4 2 Báo cáo số lượng sản phẩm theo danh mục qua các năm 58

Hình 4 3 Minh họa báo cáo chi tiết số lượng sản phẩm bán ra năm 2018 58

Hình 4 4 Báo cáo số lượng sản phẩm bán ra theo khu vực năm 2018 59

Hình 4 5 Minh họa báo cáo sản phẩm bán ra theo khu vực quận 1 năm 2018 60

Hình 4 6 Dashboard thể hiện số lượng sản phẩm bán ra 61

Hình 4 7 Minh họa báo cáo top 10 nhà cung cấp có doanh số cao 62

Hình 4 8 Biểu đồ báo cáo doanh số nhà cung cấp qua các năm 63

Hình 4 9 Minh họa báo cáo doanh số KHTT năm 2017 và 2018 64

Hình 4 10 Biểu đồ doanh số KHTT theo khu vực năm 2018 65

Hình 4 11 Minh họa báo cáo số lượng sản phẩm bán ra 66

Hình 4 12 Minh họa lỗ hổng của hệ thống 67

Trang 15

CHƯƠNG 1: TỔNG QUAN 1.1 Giới thiệu

Sau khi gia nhập Tổ chức Thương mại thế giới (WTO), Việt Nam trở thành một

trong những thị trường bán lẻ hấp dẫn nhất thế giới Nhận thấy tiềm năng này, một

số doanh nghiệp bán lẻ lớn như: Lotte, Aeon, Emart, 7-Eleven, … ồ ạt đổ bộ vào thị trường Việt Nam để tham gia vào cuộc đua tranh giành thị phần với các doanh nghiệp trong nước Các doanh nghiệp này đã và đang triển khai hàng ngàn cửa hàng trên khắp các tỉnh thành của cả nước

Trong môi trường cạnh tranh khốc liệt, việc tìm ra những hướng đi mới nhằm cải tiến và tăng trưởng lợi nhuận kinh doanh là ưu tiên hàng đầu của các chủ doanh nghiệp Họ phải quản lý hệ thống các cửa hàng được phân bố khắp nơi, hàng ngày mỗi cửa hàng sẽ phát sinh lượng lớn các dữ liệu giao dịch bán lẻ gồm các thông tin

cơ bản như: sản phẩm, cửa hàng, khách hàng, ngày, giờ, số lượng, giá bán, … Một doanh nghiệp sẽ chiếm ưu thế nếu biết quản lý và khai thác dữ liệu một cách hiệu quả, hiển nhiên người nắm giữ thông tin sẽ dẫn đầu thị trường, càng nắm giữ nhiều thông tin doanh nghiệp càng có nhiều khả năng thành công Ví dụ điển hình là Amazon, công ty công nghệ đa quốc gia này đang rất thành công nhờ việc phân tích

dữ liệu của người dùng Amazon thu thập dữ liệu của người dùng khi họ sử dụng trang web như: những món hàng mà khách hàng đã mua, những món hàng mà khách hàng đã tìm kiếm, địa chỉ giao hàng của khách hàng, các đánh giá hoặc phản hồi, …

Từ những dữ liệu này, Amazon sẽ phân tích và đoán chính xác sở thích, mức thu nhập dựa trên nơi khách hàng sinh sống, từ đó gợi ý những sản phẩm tương đồng với nhu cầu mà khách hàng đang tìm kiếm

Vì những lí do trên, hiện nay nhiều doanh nghiệp đang triển khai các giải pháp Business Intelligence sử dụng Data Warehouse để quản lý và khai thác dữ liệu Data Warehouse là nơi tập trung toàn bộ dữ liệu của doanh nghiệp, dữ liệu được lưu trữ tách biệt nên khi tạo những báo cáo phức tạp sẽ không làm giảm hiệu suất của hệ thống nguồn Với cấu trúc tổ chức dữ liệu đặc thù để truy vấn dữ liệu lớn và kỹ thuật Online Analytical Processing (OLAP) của Data Warehouse thì việc khai thác dữ liệu

Trang 16

trở nên đơn giản, nhanh chóng và hiệu quả Các kỹ thuật OLAP cho phép tổng hợp, chi tiết hóa và xoay chiều giúp phân tích dữ liệu dưới nhiều góc độ khác nhau từ đó

hỗ trợ tích cực cho nhà quản trị ra các quyết định chiến lược kinh doanh

1.2 Mục tiêu của luận văn

1.2.1 Giới thiệu về Chuỗi cửa hàng Retailer

Chuỗi cửa hàng Retailer có hơn 200 cửa hàng phân bố khắp địa bàn thành phố

Hồ Chí Minh và đang tiếp tục mở rộng Retailer cung cấp các mặt hàng chính bao gồm: rau củ quả, thực phẩm tươi sống và đông lạnh, hóa mỹ phẩm, hàng gia dụng,

… Nhiệm vụ của Retailer là: bình ổn giá thị trường; cung cấp thực phẩm sạch, chất lượng đến người tiêu dùng; cung cấp hàng hóa đa dạng về sản phẩm và phong phú về chủng loại

Hiện tại do Chuỗi cửa hàng Retailer vẫn chưa được triển khai giải pháp BI nên các báo cáo hiện nay chủ yếu dựa vào truy vấn SQL trên các cơ sở dữ liệu OLTP và được hiển thị trên file excel khá đơn giản Do dữ liệu quá lớn nên việc tạo các báo

Strategy

Data Analysis

OLAP Data Mining

Data Warehouse E-T-L

Data Sources

Hình 1 1 Mô hình hệ hỗ trợ ra quyết định

Trang 17

cáo mất khá nhiều thời gian, khung nhìn của báo cáo chưa được linh động, chưa đáp ứng được nhu cầu của người quản trị doanh nghiệp Từ những khó khăn này, các nhà quản trị nhận thấy cần thiết triển khai hệ thống Data Warehouse để lưu trữ và tổng hợp dữ liệu thành các thông tin có giá trị, hỗ trợ cho hoạt động của doanh nghiệp

1.2.2 Mục tiêu nghiên cứu của luận văn

− Xây dựng hệ thống Data Warehouse lưu trữ và phân tích dữ liệu của Chuỗi

cửa hàng Retailer

− Rút ngắn thời gian thực thi truy vấn dữ liệu, tạo các báo cáo có khung nhìn linh động giúp nhà quản trị có cái nhìn đa góc độ về tình hình bán lẻ của Chuỗi

cửa hàng

− Áp dụng thực nghiệm đề tài vào hoạt động bán lẻ của Chuỗi cửa hàng Retailer

1.3 Phạm vi, đối tượng và nội dung nghiên cứu

1.3.1 Phạm vi

Luận văn tập trung vào việc nghiên cứu và xây dựng hệ thống Data Warehouse

có chủ đề doanh số thông qua các giai đoạn:

− Khảo sát hiện trạng hệ thống, các vấn đề đang gặp phải và nhu cầu khai thác

dữ liệu của Chuỗi cửa hàng Retailer

− Thiết kế và triển khai hệ thống Data Warehouse lưu trữ dữ liệu phát sinh hàng năm

− Sử dụng kỹ thuật OLAP trên khối dữ liệu đa chiều (OLAP Cube) để tạo các

báo cáo và phân tích dữ liệu từ hệ thống Data Warehouse đã xây dựng

1.3.2 Đối tượng

Đối tượng nghiên cứu của luận văn:

− Dữ liệu của Chuỗi cửa hàng Retailer

− Hệ thống Data Warehouse và kỹ thuật OLAP để lưu trữ và phân tích dữ

liệu

− Các báo cáo được tạo ra bằng kỹ thuật OLAP

Trang 18

− Mối quan hệ giữa việc phân tích báo cáo và ra quyết định chiến lược kinh

doanh dựa trên các dữ liệu đã thu thập

− Các công cụ hỗ trợ cho việc xây dựng Data Warehouse của Microsoft 1.3.3 Nội dung

Nội dung nghiên cứu của luận văn:

− Khảo sát hiện trạng hệ thống thông tin của Chuỗi cửa hàng, các vấn đề gặp

phải và nhu cầu phân tích dữ liệu của các nhà quản trị

− Phân tích và thiết kế Data Warehouse căn cứ vào kết quả khảo sát

− Triển khai hệ thống Data Warehouse vào hoạt động của Chuỗi cửa hàng

− Đánh giá hiệu quả của hệ thống Data Warehouse sau khi ứng dụng vào hoạt

động của Chuỗi cửa hàng

− Viết tài liệu về quá trình nghiên cứu, thực nghiệm và kết quả đạt được

1.4 Ý nghĩa của luận văn

− Tìm hiểu về hệ thống Data Warehouse để ứng dụng cho Chuỗi cửa hàng

Retailer

− Xây dựng và triển khai hệ thống Data Warehouse để lưu trữ tập trung dữ

liệu và phục vụ việc tạo báo cáo của Chuỗi

− Nghiên cứu và áp dụng kỹ thuật OLAP cho phân tích dữ liệu lớn

− Rút ngắn thời gian truy vấn dữ liệu, tạo ra các báo cáo có khung nhìn linh

động hỗ trợ nhà quản trị xem xét hoạt động bán lẻ ở nhiều góc độ

1.5 Bố cục luận văn

Luận văn bao gồm 4 chương:

Chương 1: Tổng quan

Chương 2: Cơ sở lý thuyết Data Warehoue

Chương 3: Khảo sát hiện trạng và thiết kế hệ thống Data Warehoue

Chương 4: Ứng dụng OLAP và đánh giá hệ thống

Trang 19

Chương 1 đã giới thiệu tổng quan về những lợi ích mà hệ thống Data Warehouse đem đến cho doanh nghiệp bằng việc tổng hợp dữ liệu thành những thông tin hữu ích

để hỗ trợ cho việc ra các quyết định phát triển kinh doanh Chương này cũng đã giới thiệu tóm lược quy mô và những tồn tại mà Chuỗi cửa hàng Retailer đang gặp phải trong quá trình hoạt động, đặt ra các mục tiêu và hướng giải quyết cụ thể nhằm hạn chế những khó khăn của Chuỗi cửa hàng do chưa có hệ thống hỗ trợ cho việc phân tích dữ liệu

Trang 20

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT DATA WAREHOUSE

2.1 Lý thuyết về Data Warehouse

2.1.1 Khái niệm

Data Warehouse: là một hệ thống có nhiệm vụ truy xuất và tổng hợp dữ liệu

định kỳ từ các hệ thống nguồn vào nơi lưu dữ liệu theo chiều hoặc theo dạng chuẩn hóa Hệ thống này lưu dữ liệu lịch sử của nhiều năm và được truy vấn cho mục đích Business Intelligence (BI) hoặc các hoạt động phân tích khác Hệ thống này thông thường sẽ cập nhật dữ liệu theo đợt chứ không cập nhật từng giao dịch như các hệ thống nguồn [7][9]

Hình 2 1 Hệ thống Data Warehouse Trong hình 2.1:

− Data Source (hệ thống nguồn): nơi phát sinh dữ liệu

− ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu từ hệ thống nguồn vào Data Warehouse

− Data Warehouse: nơi lữu trữ toàn bộ dữ liệu được trích xuất từ các hệ thống nguồn, dữ liệu này được tổng hợp theo các chủ đề (Data Mart) về doanh số (Sales), tồn kho (Inventory), nguồn hàng (Purchasing) Mỗi chủ đề tạo thành một khối dữ liệu đa chiều để người dùng truy vấn và khai thác dữ liệu

Trang 21

Data Warehouse có các đặc tính sau:

− Hướng đối tượng: hệ thống Data Warehouse chỉ lưu trữ những dữ liệu cần

thiết cho việc phân tích trực tuyến, dữ liệu sẽ được tổ chức theo những đối tượng xác định mà người dùng quan tâm như: khách hàng, sản phẩm, nhà cung cấp, …

− Tính tích hợp: hệ thống Data Warehouse là nơi tập hợp dữ liệu từ nhiều hệ

thống khác nhau như: các cơ sở dữ liệu quan hệ, các tập tin excel, text, các bản ghi dữ liệu giao dịch, …

− Tính lịch sử: hệ thống Data Warehouse lưu dữ liệu để cung cấp thông tin

trong khoảng thời gian rất dài (5-10 năm), mỗi sự kiện trong hệ thống Data Warehouse đều gắn liền với yếu tố thời gian

− Tính bất biến: hệ thống Data Warehouse chỉ có hai thao tác chính là chuyển

dữ liệu vào và truy xuất dữ liệu mà không có thao tác xóa hay chỉnh sửa, vì vậy dữ liệu sẽ không bị thay đổi [2]

2.1.2 Kiến trúc Data Warehouse

Một hệ thống Data Warehouse bao gồm hai kiến trúc chính: kiến trúc dòng dữ liệu và kiến trúc hệ thống Kiến trúc dòng dữ liệu cho biết các nơi lưu dữ liệu được sắp xếp trong Data Warehouse như thế nào và việc dữ liệu di chuyển từ hệ thống nguồn qua nơi lưu dữ liệu đến người dùng ra sao Kiến trúc hệ thống là cấu hình vật

lý của server, hạ tầng mạng, phần mềm và người dùng

Một data store là một hoặc nhiều cơ sở dữ liệu hoặc các file chứa dữ liệu của Data Warehouse, được bố trí theo định dạng riêng biệt và liên quan đến các tiến trình của Data Warehouse

Dựa vào mục đích sử dụng, data store được phân thành 3 loại:

− User-facing data store: cho phép người dùng, các phần mềm truy cập và truy vấn dữ liệu

Trang 22

− Internal data store: chỉ được sử dụng bởi các thành phần của Data Warehouse và không dùng cho việc truy vấn của người dùng hoặc các phần mềm

− Hybird data store: được sử dụng bởi các thành phần của Data Warehouse, cho phép người dùng và các phần mềm truy cập để truy vấn dữ liệu

Dựa vào định dạng dữ liệu, data store được phân thành 4 loại:

− Stage: là một internal data store dùng để biến đổi và lưu trữ tạm thời những

dữ liệu từ các hệ thống nguồn trước khi nạp vào các data store khác trong

hệ thống Data Warehouse

− Normalized data store (NDS): là một internal data store chứa tất cả dữ liệu

của hệ thống Data Warehouse có định dạng là cơ sở dữ liệu quan hệ đã được chuẩn hóa với mục đích tích hợp dữ liệu từ nhiều nguồn đã được lưu tạm

thời ở Stage trước khi nạp vào user-facing data store

− Operational data store (ODS): là một hybrid data store ở định dạng cơ

sở dữ liệu quan hệ đã được chuẩn hóa, chứa các dữ liệu giao dịch cho mục

đích hỗ trợ các ứng dụng nghiệp vụ

− Dimensional data store (DDS): là một user-facing data store ở định dạng

cơ sở dữ liệu quan hệ, là nơi dữ liệu được bố trí theo định dạng chiều cho

mục đích hỗ trợ truy vấn và phân tích

Kiến trúc dòng dữ liệu là sự sắp xếp của các data store trong một hệ thống Data Warehouse, cùng với sự bố trí việc dữ liệu di chuyển như thế nào từ hệ thống nguồn qua các data store để đến ứng dụng của người dùng Các kiến trúc dòng dữ liệu chính: Single DDS, NDS + DDS và ODS + DDS

Trang 23

Single DDS

Hình 2 2 Kiến trúc Single DDS

Trong hình 2.2:

Stage ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào Stage

Stage: nơi lưu dữ liệu tạm thời

DDS ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào DDS

DDS: nơi lưu dữ liệu theo cấu trúc chiều

Cube: khối dữ liệu đa chiều

Application: ứng dụng của người dùng

− Ưu điểm: đơn giản vì dữ liệu từ Stage được nạp trực tiếp và DDS mà không phải thông qua các data store nào khác

− Khuyết điểm: DDS là nơi chứa toàn bộ dữ liệu của hệ thống Data Warehouse nên khi tạo DDS thứ 2 không thể sử dụng lại tiến trình ETL hiện có mà phải tạo mới tiến trình ETL để trích xuất dữ liệu từ DDS chính

NDS + DDS

Hình 2 3 Kiến trúc NDS + DDS

Trang 24

Trong hình 2.3:

NDS ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào NDS

NDS: nơi lưu dữ liệu đã chuẩn hóa

− Ưu điểm: dễ dàng xây dựng DDS thứ 2 vì có thể tái sử dụng tiến trình ETL; dễ

dàng bảo trì vì dữ liệu trong NDS đã được chuẩn khóa

− Khuyết điểm: phức tạp hơn kiến trúc Single DDS vì phải xây dựng thêm tiến trình

NDS ETL và NDS

ODS + DDS

Hình 2 4 Kiến trúc ODS + DDS Trong hình 2.4:

ODS ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào ODS

ODS: nơi lưu dữ liệu tác nghiệp

− Ưu điểm: hiệu suất khi thực thi ODS ETL và DDS ETL tốt hơn so với kiến trúc NDS + DDS vì ODS chỉ lưu dữ liệu hiện tại nên dữ liệu tương đối ít; dễ dàng bảo trì

vì ODS đã được chuẩn hóa; người dùng được quyền cập nhật trên ODS nên hỗ trợ được cho các ứng dụng nghiệp vụ

− Khuyết điểm: khó khăn trong việc tạo mới DDS thứ 2 vì không thể sử dụng tiến trình ETL hiện có mà phải tạo mới

Trang 25

2.1.3 Mô hình dữ liệu đa chiều

Các cơ sở dữ liệu quan hệ được thiết kế theo mô hình dữ liệu thực thể - mối kết hợp, lược đồ của mô hình này chứa tập những thực thể và mối liên hệ giữa chúng với nhau phù hợp cho các xử lý giao dịch trực tuyến Tuy nhiên hệ thống Data Warehouse yêu cầu một lược đồ hướng chủ đề đơn giản, thuận tiện cho việc phân tích dữ liệu trực tuyến Mô hình đa chiều là mô hình dữ liệu phổ biến nhất của Data Warehouse, gồm các lược đồ: lược đồ sao, lược đồ bông tuyết và lược đồ chòm sao

− Lược đồ sao: là mô hình trong đó Data Warehouse chứa một bảng trung

tâm lớn (Fact table) và một tập hợp các bảng nhỏ hơn tham gia vào (Dimension tables), mỗi bảng đại diện cho một chiều xác định Lược đồ này

có hình dạng giống như một ngôi sao với các bảng chiều được biểu diễn xung quanh bảng trung tâm lớn

− Lược đồ bông tuyết: là một biến thể của mô hình lược đồ sao với các bảng

chiều được chuẩn hóa vì vậy dữ liệu sẽ được tách ra các bảng bổ sung Kết quả là lược đồ này có hình dạng giống như một bông tuyết

Hình 2 5 Lược đồ sao

Trang 26

− Lược đồ chòm sao: được cấu thành từ nhiều lược đồ sao với nhiều bảng sự

kiện sử dụng chung các bảng chiều Hạn chế của lược đồ chòm sao là có thiết kế khá phức tạp và các bảng chiều có kích thước lớn

2.2 Lý thuyết về ETL

2.2.1 Khái niệm

Extraction, Transformation, Loading (ETL): là một tiến trình của hệ thống

Data Warehouse nhằm đưa dữ liệu từ các hệ thống nguồn vào Data Warehouse Dữ

Time

Sales Fact

Customer Dimension

Store

Dimension

Category Dimension

Location Dimension

Hình 2 6 Lược đồ bông tuyết

Time Dimension

Product Dimension

Sales Fact

Customer

Dimension

Purchasing Fact

Vendor Dimension Store

Dimension

Hình 2 7 Lược đồ chòm sao

Trang 27

liệu từ các nguồn được trích xuất, biến đổi phù hợp với thiết kế của Data Warehouse

và nạp vào cơ sở dữ liệu của Data Warehouse

Extraction: là quá trình trích xuất dữ liệu từ hệ thống nguồn Quá trình trích

xuất dữ liệu hiệu quả là chìa khóa thành công cho hệ thống Data Warehouse Vì vậy cần chú ý đến các vấn đề và xây dựng chiến lược trích xuất dữ liệu, bao gồm:

− Xác định nguồn dữ liệu: xác định dữ liệu cần cho Data Warehouse đang ở ứng dụng nguồn nào và cấu trúc nguồn ra sao để lựa chọn và trích xuất

− Cách thức trích xuất - quá trình trích xuất được chia thành 2 pha:

• Trích xuất toàn bộ: sẽ được thực thi ở lần đầu tiên khi đưa dữ liệu vào

Data Warehouse

• Trích xuất tăng dần: sẽ được thực thi ở những lần trích xuất tiếp theo

Trích xuất tăng dần sử dụng các kỹ thuật như sử dụng log, sử dụng trigger hoặc thuộc tính thời gian để phát hiện những dữ liệu được tạo mới hoặc chỉnh sửa

− Tần suất trích xuất: với mỗi nguồn dữ liệu cần xác định tần suất trích xuất (hàng tháng, hàng tuần, hàng ngày)

− Xử lý ngoại lệ: xác định công việc cần làm nếu dữ liệu trích xuất thất bại

− Khối lượng dữ liệu trích xuất là rất lớn (hàng chục hoặc hàng trăm Gigabyte) trong khi một số hệ thống nguồn chỉ được thiết kế để truy vấn với lượng nhỏ

vì vậy việc trích xuất phải ưu tiên không làm chậm các hệ thống nguồn

− Không làm thay đổi dữ liệu của hệ thống nguồn

− Thời gian trích xuất ngắn, dữ liệu sau khi trích xuất không quá lớn

Transformation: dữ liệu sau khi được trích xuất cần phải làm sạch, biến đổi

phù hợp với cấu trúc và định dạng của Data Warehouse Quá trình biến đổi có thể thực hiện trên bộ nhớ hoặc trên nơi lưu trữ trung gian (Stage) Quá trình này gồm 2 mục tiêu chính:

− Làm sạch dữ liệu: bằng cách xác định và sửa chữa (hoặc loại bỏ) các vấn

đề về dữ liệu và chuẩn bị dữ liệu cho quá trình nạp Dữ liệu được trích xuất

Trang 28

từ hệ thống nguồn được kiểm tra cả về mặt cú pháp lẫn ngữ nghĩa để đảm bảo tính chính xác dựa trên các ràng buộc nguồn Bảng 2.2 ví dụ về việc xác thực chất lượng dữ liệu được áp dụng để làm sạch dữ liệu cho bảng KHTT

Bảng 2 1 Ví dụ về xác thực chất lượng dữ liệu

Giá trị sai Ngày sinh = “2000” không đúng định dạng ngày

Tính duy nhất Có 2 khách hàng trùng số CMND “024391881”

Thiếu giá trị Thuộc tính Phone của một số khách hàng không có giá trị

Tham chiếu sai Tham chiếu đến Store = 1300 không tồn tại

− Biến đổi định dạng: làm cho dữ liệu phù hợp với cấu trúc của hệ thống Data Warehouse thông qua một số luật biến đổi được mô tả trong tài liệu ánh

xạ dữ liệu nguồn được cung cấp bởi người thiết kế hệ thống Data Warehouse

Loading: là quá trình nạp dữ liệu đã trích xuất và biến đổi từ Stage vào Data

Warehouse Quá trình nạp dữ liệu là khác nhau tùy vào cách tổ chức của từng hệ thống Một số hệ thống Data Warehouse sẽ xóa dữ liệu cũ để cập nhật dữ liệu mới, trong khi các hệ thống khác sẽ lưu trữ dữ liệu lịch sử bằng cách thêm những dữ liệu mới vào Data Warehouse Quá trình nạp dữ liệu thường được thực thi bởi các thao tác:

− Nạp lần đầu: nạp toàn bộ dữ liệu vào tất cả các bảng của Data Warehouse

ở lần đầu tiên

− Nạp tăng dần: cập nhật chỉ những dữ liệu mới một cách định kỳ

− Làm mới toàn bộ: xóa toàn bộ dữ liệu của 1 hoặc nhiều bảng và nạp lại dữ liệu mới [14]

Việc nạp dữ liệu vào Data Warehouse có thời gian khá thất thường Trong thời gian nạp dữ liệu, người dùng không thể sử dụng hệ thống Data Warehouse vì vậy việc nạp dữ liệu cần phải được lên lịch một cách hợp lý để

Trang 29

tránh ảnh hưởng đến người dùng Trong quá trình nạp dữ liệu có khả năng xảy ra lỗi khi các khóa của dữ liệu nguồn không tương ứng với các khóa trong bảng Dimension của Data Warehouse nên cần cung cấp một cơ chế xử lý các

dữ liệu chưa được nạp vào hệ thống Do đó việc nạp dữ liệu vào Data Warehouse phải đảm bảo 2 nguyên tắc:

− Không làm mất dữ liệu khi nạp vào Data Warehouse

− Quá trình nạp dữ liệu phải có khả năng khôi phục trong trường hợp thực thi thất bại hoặc xảy ra trường hợp nạp thiếu dữ liệu

2.2.2 Kiến trúc ETL

Có nhiều cách triển khai tiến trình ETL, một trong những cách truyền thống

đó là trích xuất dữ liệu từ hệ thống nguồn, đặt vào Stage sau đó biến đổi và nạp vào Data Warehouse Một số hệ thống sẽ thực thi tiến trình ETL bằng bộ nhớ của server

mà không ghi dữ liệu vào Stage sau đó nạp dữ liệu trực tiếp vào Data Warehouse Stage là cơ sở dữ liệu vật lý hoặc file, nạp dữ liệu vào Stage đồng nghĩa với việc ghi

dữ liệu vào database hoặc file Việc biến đổi dữ liệu trên bộ nhớ sẽ nhanh hơn so với ghi dữ liệu vào ổ đĩa trước rồi thực hiện biến đổi Điều này chỉ thực hiện được khi lượng dữ liệu không quá lớn hoặc dung lượng bộ nhớ của ETL server đủ lớn

Hình 2 8 Thực thi ETL trên đĩa và trên bộ nhớ [7, p.174]

Trang 30

Kiến trúc ETL thứ hai là Extraction, Loading, Transformation (ELT) Ở kiến trúc này, dữ liệu trích xuất từ hệ thống nguồn được nạp vào Data Warehouse trước sau đó tiến hành biến đổi dữ liệu tại Data Warehouse Kiến trúc này được dùng khi

hệ thống Data Warehouse có nhiều server, việc biến đổi dữ liệu sẽ được các server này thực thi song song cùng lúc nên làm tăng đáng kể hiệu suất của tiến trình ETL

Hình 2 9 Kiến trúc tiến trình ETL và ELT [7, p.175]

2.3 Lý thuyết về OLAP

2.3.1 Khái niệm

Online Analytical Processing (OLAP): là hoạt động phân tích tương tác với

các dữ liệu được lưu trong hệ thống Data Warehouse nhằm định hướng và đưa ra chiến lược kinh doanh OLAP là một công nghệ cho phép người phân tích trích xuất

và xem dữ liệu kinh doanh dưới các góc độ khác nhau trong thời gian ngắn nhất [10] Thông thường, những người thực hiện OLAP là người quản lý kinh doanh, người phân tích dữ liệu và người điều hành doanh nghiệp Một ví dụ của OLAP đó là phân tích hiệu quả của một chương trình khuyến mãi bằng cách xem xét sự tăng trưởng doanh số trong thời gian diễn ra sự kiện OLAP có 2 tính chất:

− Tính tương tác: người dùng yêu cầu truy vấn và hệ thống phản hồi theo yêu cầu của người dùng

− Các truy vấn phải được thực thi trên hệ thống Data Warehouse

Trang 31

OLAP Cube: cốt lõi của OLAP là khối dữ liệu đa chiều (Multidimensional

Database) là một dạng cơ sở dữ liệu mà dữ liệu được lưu trữ trong các ô Vị trí các ô này xác định bởi giá trị của mỗi chiều, giá trị của các chiều cho biết sự kiện đó phát sinh khi nào, ở đâu Các thao tác của OLAP chủ yếu làm việc trên khối dữ liệu đa chiều này

Bảng 2 2 Mô tả một số đặc tính của hai loại hệ thống OLTP và OLAP

2.3.2 Phân loại OLAP

Dựa vào cơ sở dữ liệu được sử dụng, OLAP được phân loại: MOLAP, ROLAP, HOLAP

MOLAP (Multidimensional Online Analytical Processing): OLAP sử dụng

khối dữ liệu đa chiều gọi là MOLAP MOLAP tính toán trước các giá trị trong khối

dữ liệu đa chiều và lưu trữ kết quả đã được tổng hợp trong cấu trúc đa chiều này [1][4]

Chức năng Hệ thống quản lý cập nhật dữ

Cách thức Sử dụng cơ sở dữ liệu quan

hệ truyền thống

Sử dụng Data Warehouse

Lệnh truy vấn Sử dụng lệnh Update, Insert,

Delete để cập nhật dữ liệu Sử dụng lệnh Select để tổng hợp dữ liệu Bảng Các bảng đã được chuẩn hóa Các bảng không được chuẩn hóa

Dữ liệu nguồn Dữ liệu của OLTP và các

giao dịch của nó Dữ liệu của các OLTP Thời gian phản

hồi

Công dụng Kiểm soát, thực thi các thao

tác nghiệp vụ Lên kế hoạch, giải quyết vấn đề, hỗ trợ ra quyết định Thao tác Cho phép đọc và ghi Chỉ cho đọc và hạn chế ghi

Loại truy vấn Truy vấn đơn giản Truy vấn tổng hợp phức tạp Thiết kế Database thiết kế theo định

hướng ứng dụng Database thiết kế theo định hướng đối tượng

Số người dùng Nhiều (hàng nghìn) Ít (hàng chục)

Trang 32

ROLAP (Relational Online Analytical Processing): OLAP sử dụng cơ sở

dữ liệu quan hệ được gọi là ROLAP ROLAP dựa vào câu truy vấn SQL để tính toán

dữ liệu, kết quả được lưu trữ trong các bảng tổng hợp Khi nhận được yêu cầu truy vấn, ROLAP sẽ chọn ra những bảng phù hợp nhất và gửi lại kết quả cho yêu cầu nhận được [1][4]

Trang 33

Hình 2 11 Kiến trúc ROLAP

Ưu điểm:

− Dữ liệu không bị hạn chế như MOLAP

− Có thể sử dụng tất cả các chức năng của cơ sở dữ liệu quan hệ

Nhược điểm:

− Hiệu suất truy vấn thấp vì thực thi truy vấn trên cơ sở dữ liệu quan hệ vốn

không được thiết kế tối ưu cho việc xử lý phân tích

− Bị giới hạn bởi các chức năng SQL vì ROLAP chủ yếu dựa vào câu lệnh SQL để truy vấn trên cơ sở dữ liệu quan hệ, các câu lệnh này không phù hợp

với tất cả nhu cầu của các truy vấn phức tạp

HOLAP (Hybrid Online Analytical Processing): OLAP sử dụng khối dữ

liệu đa chiều kết hợp với cơ sở dữ liệu quan hệ được gọi là HOLAP HOLAP kết hợp điểm mạnh của ROLAP và MOLAP, cơ sở dữ liệu quan hệ được sử dụng để chứa các

dữ liệu chi tiết trong khi khối dữ liệu đa chiều chứa các kết quả đã được tổng hợp [1][4]

Trang 34

Hình 2 12 Kiến trúc HOLAP

Ưu điểm:

− Hiệu suất truy vấn cao khi thực thi các truy vấn tổng hợp phức tạp

− Có khả năng mở rộng cao vì dữ liệu chi tiết được lưu trữ trong cơ sở dữ

liệu quan hệ

Khuyết điểm:

− Kiến trúc rất phức tạp

− Chi phí triển khai và bảo trì cao hơn so với MOLAP và ROLAP

2.3.3 Các thao tác của OLAP

Roll up

Thao tác Roll up là thao tác tổng hợp nhằm tạo báo cáo ở mức cao của cấu trúc phân cấp [6][10]

Trang 35

Hình 2 13 Minh họa thao tác Roll up

Trang 37

Pivot

Thao tác pivot là thao tác quay các trục dữ liệu trong khung nhìn nhằm cung cấp một dạng biểu diễn khác của dữ liệu [6][10]

Hình 2 17 Minh họa thao tác Pivot

Chương 2 đã trình bày các khái niệm cơ bản về kiến trúc dòng dữ liệu, các mô hình dữ liệu và các kiến trúc của tiến trình ETL một trong những thành phần rất quan trọng ảnh hưởng trực tiếp đến hiệu suất và độ tin cậy của hệ thống Data Warehouse

sẽ xây dựng Dựa trên cơ sở lý thuyết này và kết quả phân tích hiện trạng hệ thống doanh nghiệp, luận văn sẽ lựa chọn ra kiến trúc cũng như mô hình dữ liệu phù hợp nhất để tiến hành xây dựng và triển khai hệ thống Data Warehouse Chương này cũng điểm qua một số thao tác chính của OLAP: Roll up, Drill down, Slice, Dice, Pivot sử dụng cho việc phân tích dữ liệu của Data Warehouse

Trang 38

CHƯƠNG 3: KHẢO SÁT HIỆN TRẠNG VÀ THIẾT KẾ HỆ THỐNG DATA

WAREHOUSE 3.1 Khảo sát và phân tích yêu cầu

Hiện nay, Chuỗi cửa hàng Retailer đang đối mặt với nhiều thách thức: duy trì

tỷ suất lợi nhuận, tăng cường mở rộng quy mô để chiếm lĩnh thị trường, giảm thiểu chi phí vận hành Những mục tiêu khó khăn này là lý do chính để các nhà quản trị quyết định xây dựng và triển khai hệ thống Data Warehouse vào hoạt động kinh doanh nhằm tận dụng tối đa lợi ích mà nó đem lại Hệ thống Data Warehouse sử dụng dữ liệu đã thu thập được, áp dụng các kỹ thuật khai thác và phân tích dữ liệu, hỗ trợ việc xác định lỗ hổng quy trình, mở rộng kinh doanh và các chiến lược cho hoạt động của doanh nghiệp

3.1.1 Hiện trạng hệ thống thông tin của doanh nghiệp

Hiện tại Chuỗi cửa hàng Retailer đã được triển khai Microsoft Dynamic AX, là một giải pháp hoạch định nguồn lực doanh nghiệp (ERP) được thiết kế cho các doanh nghiệp có quy mô lớn, nhiều chức năng phong phú và khả năng mở rộng cao Phần mềm Microsoft Dynamic AX của Chuỗi cửa hàng Retailer hiện đang được tích hợp các phân hệ chính: phân hệ kế toán, phân hệ cung vận và phân hệ bán hàng

− Phân hệ kế toán được thiết kế theo quy trình làm việc của bộ phận kế toán, giúp đơn giản hóa các thao tác nhập liệu và đảm bảo các số liệu kế toán luôn được chính xác Gồm các module:

• Quản lý kế hoạch tài chính

Trang 39

• Quản lý mua hàng

• Quản lý bán hàng

• Quản lý nhà cung cấp

• Quản lý kho

• Quản lý thông tin sản phẩm

− Phân hệ bán lẻ quản lý các thao tác về giao dịch, ghi nhận số lượng và giá trị các sản phẩm, in hóa đơn bán lẻ, hóa đơn VAT Thiết lập giá sản phẩm, tạo chương trình khuyến mãi, quản lý thông tin khách hàng thân thiết Phân hệ bán

lẻ gồm các module:

• Ban hành giá bán lẻ

• Chính sách khuyến mãi

• Khách hàng thân thiết

• Ghi nhận giao dịch tại các POS (Point of Sale)

Luận văn này sẽ tập trung nghiên cứu và xây dựng hệ thống Data Warehouse

sử dụng dữ liệu của Chuỗi cửa hàng Retailer trong các năm 2016, 2017 và 2018 của phân hệ bán lẻ Dữ liệu được phát sinh tại gần 200 điểm giao dịch của Chuỗi, lượng

dữ liệu ghi nhận trung bình là 60.000 records/ngày Định kỳ vào cuối ngày, sau khi các cửa hàng kết thúc hoạt động kinh doanh, dữ liệu từ các máy POS sẽ được chuyển

về và lưu trữ tại máy chủ của doanh nghiệp (Hình 3.1)

Trang 40

Hình 3 1 Mô hình kết nối POS với Server

Ngày đăng: 19/09/2020, 10:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w