1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG HỆ THỐNG PHÂN TÍCH KINH DOANH TRONG QUẢN LÍ ĐƠN HÀNG

71 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 4,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sử dụng mô hình OLAP trong phân tích dữ liệu

Trang 1

XÂY DỰNG HỆ THỐNG PHÂN TÍCH KINH DOANH TRONG QUẢN LÍ ĐƠN HÀNG

Trang 2

PHẠM THỊ THU HƯƠNG - 20185367 1

NHẬN XÉT CỦA GiẢNG VIÊN HƯỚNG DẪN

1 Mục đích và nội dung đồ án:

- Học được kĩ năng tiền xử lí dữ liệu

- Thực hiện thành thạo các công cụ truy vấn trong cơ sở dữ liệu

- Học được hoàn thiện công cụ trực quan hóa dữ liệu

- Chuyển được một cơ sở dữ liệu từ mô hình OLTP sang mô hình OLAP

- Áp dụng cho bài toán quản lí đơn hàng

2 Kêt quả đạt được:

- Xây dựng được Hệ thống phân tích kinh doanh trong quản lí đơn hàng

- Xây dựng một số dashboard phân tích cơ bản

3 Ý thức làm việc của sinh viên:

………

………

………

………

………

Hà Nội, ngày 1 tháng 7 năm 2021 Giảng viên hướng dẫn

(Ký và ghi rõ họ tên)

Trang 3

Trong hoạt động kinh doanh của hầu hết doanh nghiệp thì việc quản lý đơn đặt hàng một cách hiệu quả là hết sức cần thiết vì nó ảnh hưởng trực tiếp đến mức độ hài lòng cả khách hàng với doanh nghiệp Người tiêu dùng mong đợi toàn bộ quy trình quản lý đơn hàng sẽ hoạt động trơn tru, từ lúc họ kiểm tra đến lúc một gói hàng đến trước cửa nhà họ

Quản lý đơn hàng là một trong những chức năng kinh doanh bị ảnh hưởng rất nhiều bởi kinh doanh thông minh Cụ thể, kinh doanh thông minh có thể tăng cường quản lí đơn đặt hàng:

+ Phân tích dữ liệu và cung cấp thông tin về khả năng sinh lời của sản phẩm

+ Đưa ra các dự báo để hoạt động tốt hơn

+ Giao tiếp với nhà cung cấp tốt hơn

+ Hiệu quả của chuỗi cung ứng tốt hơn

+ Xác định cách bán hàng có lợi nhất

Vì thế em lựa chọn Quá trình kinh doanh thông minh (BI) với bài toán về “Quản

lí đơn đơn hàng” là mục đích tìm hiểu, nghiên cứu, thực hành

Bài báo cáo gồm 4 chương:

• Chương 1: Cơ sở lý thuyết

• Chương 2: Khảo sát bài toán

• Chương 3: Phân tích và thiết kế hệ thống quản lí đơn hàng

• Chương 4: Xây dựng hệ thống OLAP quản lí đơn hàng

Qua đây, em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Danh Tú đã hướng dẫn, chỉ bảo tận tình em trong suốt quá trình học Thầy đã định hướng và truyền đạt cho em những kiến thức, kĩ năng cơ bản và cốt lõi để em có thể hoàn thành môn học một cách hiệu quả nhất Em xin chân thành cảm ơn!

Sinh viên thực hiện

Ký và ghi rõ họ tên

Trang 4

PHẠM THỊ THU HƯƠNG - 20185367 3

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 9

1.1 Tổng quan về Kinh doanh thông minh 9

Kinh doanh thông minh là gì? 9

Sự khác biệt chính giữa Kinh doanh thông minh và Phân tích dữ liệu 9

Hệ thống Kinh doanh thông minh 10

Các hoạt động chính của Kinh doanh thông minh 12

Đối tượng được hưởng lợi từ Kinh doanh thông minh 12

Tại sao Kinh doanh thông minh lại quan trọng đối với doanh nghiệp 12 1.2 Tìm hiểu về Kho dữ liệu 12

Kho dữ liệu là gì? 12

Vai trò của Kho dữ liệu trong hệ thống Kinh doanh thông minh 13

Khác biệt giữa Hệ cơ sở dữ liệu hoạt động và Kho dữ liệu 14

Tại sao cần có Kho dữ liệu riêng biệt? 16

CHƯƠNG 2 KHẢO SÁT BÀI TOÁN 18

2.1 Mô tả bài toán 18

Mô tả tập dữ liệu 18

Yêu cầu bài toán 20

2.2 Khảo sát nghiệp vụ 20

Nghiệp vụ quản lí đơn hàng 20

Khảo sát nghiệp vụ Kinh doanh thông minh 21

CHƯƠNG 3 PHÂN TÍCH & THIẾT KẾ HỆ THỐNG

QUẢN LÍ ĐƠN HÀNG 26

3.1 Phân tích hệ thống OLTP 26

Sơ đồ quan hệ thực thể 26

Mô tả cấu trúc bảng trong cơ sở dữ liệu 26

Hạn chế của hệ thống OLTP 30

3.2 Phân tích và Thiết kế hệ thống OLAP 31

Phân tích chủ điểm phân tích (Facts) 31

Phân tích các chiều (Dimentions) 31

Kiến trúc của hệ thống OLAP 37

Thiết kế mô hình OLAP 39

CHƯƠNG 4 XÂY DỰNG HỆ THỐNG OLAP 40

Trang 5

PHẠM THỊ THU HƯƠNG - 20185367 4

Power query 40

Microsoft SQL Server 40

Microsoft Power BI 41

4.2 Tiền xử lí dữ liệu 42

Trích xuất dữ liệu 42

Chuyển đổi dữ liệu 43

Tải dữ liệu vào kho dữ liệu 48

4.3 Xây dựng báo cáo, Dashboard 52

KẾT LUẬN 69

TÀI LIỆU THAM KHẢO 70

Trang 6

PHẠM THỊ THU HƯƠNG - 20185367 5

Hình 1.1 Kinh doanh thông minh là gì? 9

Hình 1.2 Tiến trình kinh doanh thông minh 11

Hình 1.3 Các thành phần của hệ thống BI 11

Hình 1.4 Kiến trúc mức cao của hệ thống BI 14

Hình 1.5 OLTP – OLAP 15

Hình 2.1 Công ty DataCo Global 18

Hình 2.2 Mô tả các trường dữ liệu 19

Hình 2.3 ETL 22

Hình 2.4 Trực quan hóa dữ liệu 23

Hình 2.5 Data Visualization hỗ trợ doanh nghiệp trong việc ra quyết định kinh doanh 24

Hình 3.1 Sơ đồ quan hệ thực thể 26

Hình 3.2 Dữ liệu chiều về thời gian 35

Hình 3.3 Dữ liệu chiều về giao dịch 35

Hình 3.4 Dữ liệu chiều về sản phẩm 36

Hình 3.5.Dữ liệu chiều về vận chuyển 36

Hình 3.6 Dữ liệu chiều vê khách hàng 37

Hình 3.7 Kiến trúc hệ thống OLAP quản lí đơn hàng 37

Hình 3.8 Mô hình logic của hệ thống OLAP 39

Hình 3.9 Mô hình quan hệ của hệ thống OLAP 39

Hình 4.1 SQL Server 40

Hình 4.2.Power BI 42

Hình 4.3 Trích xuất dữ liệu 43

Hình 4.4 Xóa bỏ trường giá trị bị bỏ trống 43

Hình 4.5.Xóa bỏ trường giá trị không cần thiết 44

Hình 4.6 Định dạng kiểu dữ liệu 46

Hình 4.7 Các nhóm dữ liệu 47

Hình 4.8 Lưu dữ liệu vào cơ sở dữ liệu 48

Hình 4.9 Tải dữ liệu vào kho dữ liệu 48

Hình 4.10 Tải dữ liệu vào kho dữ liệu 52

Hình 4.11 Index Dashboard 52

Hình 4.12 Product Overview Dashboard 53

Hình 4.13 Analysis by Product Dashboard 55

Hình 4.14 Shop Overview Dashboard 57

Trang 7

PHẠM THỊ THU HƯƠNG - 20185367 6

Hình 4.16 Analysis Transaction Dashboard 61

Hình 4.17 Analysis Delivery 63

Hình 4.18 Customer Overview Dashboard 65

Hình 4.19 Analysis Customer Dashboard 67

Trang 8

PHẠM THỊ THU HƯƠNG - 20185367 7

Bảng 1.1 So sánh BI và DA 10

Bảng 1.2 So sánh giữa OLTP và OLAP 16

Bảng 2.1 Báo cáo chi tiết 20

Bảng 3.1 OLTP - Detail Order 26

Bảng 3.2.OLTP - Order 27

Bảng 3.3 OLTP - Delivery 28

Bảng 3.4 OLTP - Product 28

Bảng 3.5 OLTP - Category 29

Bảng 3.6 OLTP - Department 29

Bảng 3.7 OLTP - Shop 29

Bảng 3.8 OLTP - Customer 30

Bảng 3.9 OLTP - Dist_Customer 30

Bảng 3.10 OLAP – Fact_OrderItem 31

Bảng 3.11 OLAP - Dim_Date 32

Bảng 3.12.OLAP - Dim_Transaction 32

Bảng 3.13 OLAP - Dim_ Shop 32

Bảng 3.14 OLAP - Dim_Product 33

Bảng 3.15 OLAP - Dim_Category 33

Bảng 3.16 OLAP - Dim_Delivery 33

Bảng 3.17 OLAP- Dim_Customer 34

Bảng 3.18 OLAP - Dim_DistCustomer 34

Bảng 4.1 Các trường dữ liệu còn lại sau làm sạch 44

Bảng 4.2 Tạo thủ tục đổ dữ liệu vào kho dữ liệu 49

Trang 9

PHẠM THỊ THU HƯƠNG - 20185367 8

5 Hệ thống xử lí giao dịch trực tuyến OLTP 14

Trang 10

PHẠM THỊ THU HƯƠNG - 20185367 9

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 1.1 Tổng quan về Kinh doanh thông minh

Kinh doanh thông minh là gì?

Kinh doanh thông minh hay Trí tuệ doanh nghiệp (Business Intelligence - BI) kết hợp phân tích kinh doanh, khai thác dữ liệu, trực quan hóa dữ liệu, công cụ và cơ sở

hạ tầng dữ liệu cũng như các phương pháp hay nhất để giúp các tổ chức đưa ra quyết định dựa trên dữ liệu nhiều hơn:

+ BI đề cập đến các kĩ năng, qui trình, công nghệ, ứng dụng được sử dụng

để hỗ trợ ra quyết định

+ BI là tập hợp các công nghệ và công cụ để chuyển đổi những dữ liệu thô thành những thông tin có nghĩa và có mục đích phân tích kinh doanh + BI là các ứng dụng và công nghệ để chuyển dữ liệu doanh nghiệp thành hành động

Hình 1.1 Kinh doanh thông minh là gì?

Trên thực tế, khi kinh doanh thông minh thì sẽ có cái nhìn toàn diện về dữ liệu của tổ chức mình và sử dụng dữ liệu đó để thúc đẩy sự thay đổi, loại bỏ sự kém hiệu quả và nhanh chóng thích ứng với những thay đổi của thị trường hoặc nguồn cung

Sự khác biệt chính giữa Kinh doanh thông minh và Phân tích dữ liệu

Nhiều người sẽ nhầm tưởng Kinh doanh thông minh (BI) cũng giống Phân tích

số liệu (Data Analytics – DA) cũng bởi cả 2 đều là biến dữ liệu thô thành thông tin có

ý nghĩa Câu hỏi đặt ra là: BI thật sự khác biệt với DA ở điềm nào? Tại sao doanh nghiệp cần BI và doanh nghiệp như thế nào sẽ phù hợp triển khai BI Trước hết, chúng

ta cần phân biệt được BI và DA

Trang 11

Là việc điều chỉnh dữ liệu thô trở thành các hình thức mà người dùng có thể hiểu được

Chức năng Mục đích chính là hỗ trợ doanh

nghiệp trong việc đưa ra các quyết định Từ đó, giúp phát triển tổ chức kinh doanh

Mục đích chính là mô hình hóa, làm sạch, dự đoán và chuyển đổi dữ liệu tùy theo nhu cầu của doanh nghiệp

Ứng dụng Có thế được ứng dụng bằng

cách sử dụng các công cụ BI trên thị trường BI chỉ sử dụng những dữ liệu trong quá khứ được lưu trữ trong kho dữ liệu

Có thể được ứng dụng để sử dụng bằng nhiều công cụ lưu trữ dữ liệu khác nhau trên thị trường Việc phân tích dữ liệu cũng có thể được thực hiện trên các công cụ BI, nhưng nó còn phụ thuộc vào cách tiếp cận, chiến lược riêng của mỗi

tổ chức Đối với cơ

cấu tổ chức

BI không ảnh hưởng đến mô hình doanh nghiệp hiện tại mà mục đích chính là giúp doanh nghiệp đạt được mục đích đề

ra, giúp người dùng có thể xác định được lỗ hổng trong việc quản lý dữ liệu và đưa ra các hướng giải quyết hiệu quả nhất

DA giúp doanh nghiệp thay đổi mô hình của bản thân, bằng cách phân tích dữ liệu trong quá khứ, dữ liệu hiện tại

và dự đoán các xu hướng trong tương lai

Hiện nay, các công cụ BI hiện đại đều được trang bị với các lựa chọn để phân tích dữ liệu và nó còn tùy thuộc vào các doanh nghiệp để đưa ra lựa chọn đúng đắn nhất dựa trên tình trạng của chính doanh nghiệp đó

Hệ thống Kinh doanh thông minh

Hình minh họa dưới đây mô tả một "Tiến trình kinh doanh thông minh"

Trang 12

PHẠM THỊ THU HƯƠNG - 20185367 11

Hình 1.2 Tiến trình kinh doanh thông minh

Vấn đề cốt lõi trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai phá dữ liệu (Data Mining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều định dạng, phân tán và có tính lịch sử) đó là đặc trưng của kho dữ liệu Đồng thời việc phân tích dữ liệu trong BI không phải là những phân tích đơn giản (Query, Filtering)

mà là những kỹ thuật trong khai phá dữ liệu (Data Mining) dùng để phân loại (classification) phân cụm (Clustering), hay dự đoán (Prediction) Vì vậy BI có mối

quan hệ rất chặt chẽ với Data Warehouse và Data Mining

Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính như sau:

Hình 1.3 Các thành phần của hệ thống BI

+ Data Warehouse (Kho dữ liệu): Chứa tổng hợp dữ liệu của doanh

nghiệp

+ Data Mining (Khai phá dữ liệu): Các kỹ thuật sử dụng để khai phá dữ

liệu và phát hiện tri thức như phân loại (Classification), phân nhóm (Clustering), phát hiện luật (Association Rule), Dự đoán (Predcition),…

Trang 13

PHẠM THỊ THU HƯƠNG - 20185367 12

+ Business Analyst (Phân tích kinh Doanh): Các nhà lãnh đạo Doanh

nghiệp đưa ra những quyết định chiến lược đối với hoạt động kinh doanh doanh nghiệp của doanh nghiệp

Các hoạt động chính của Kinh doanh thông minh + Hỗ trợ quyết định (Decision support)

+ Truy vấn và báo cáo (Query and reporting)

+ Phân tích xử lý trực tuyến (Online analytical processing (OLAP))

+ Phân tích thống kê (Statistical analysis)

+ Dự đoán (Forecasting)

+ Khai phá dữ liệu (Data mining)

Đối tượng được hưởng lợi từ Kinh doanh thông minh + Ban quản trị (Executives)

+ Người ra quyết định kinh doanh (Business Decision Makers)

+ Khách hàng (Customers)

+ Phân tích viên (Analysts)

Tại sao Kinh doanh thông minh lại quan trọng đối với doanh nghiệp

Kinh doanh thông minh có thể giúp các công ty đưa ra quyết định tốt hơn bằng cách hiển thị dữ liệu hiện tại và lịch sử trong bối cảnh kinh doanh của họ Các nhà phân tích có thể tận dụng BI để cung cấp các điểm chuẩn về hiệu suất và đối thủ cạnh tranh để giúp tổ chức hoạt động trơn tru và hiệu quả hơn Các nhà phân tích cũng có thể dễ dàng phát hiện xu hướng thị trường để tăng doanh số bán hàng hoặc doanh thu Được sử dụng hiệu quả, dữ liệu phù hợp có thể giúp ích cho mọi việc, từ việc tuân thủ đến nỗ lực tuyển dụng

Một số cách mà trí tuệ kinh doanh có thể giúp các công ty đưa ra quyết định thông minh hơn, dựa trên dữ liệu:

+ Xác định các cách để tăng lợi nhuận

+ Phân tích hành vi của khách hàng

+ So sánh dữ liệu với đối thủ cạnh tranh

+ Theo dõi hiệu suất

+ Tối ưu hóa hoạt động

Trang 14

Theo Inmon toWilliam H., một chuyên gia hàng đầu trong việc xây dựng hệ thống kho dữ liệu, "Một kho dữ liệu là một tập hợp dữ liệu hướng chủ đề, tích hợp, biến thể thời gian, ít biến động hỗ trợ cho quá trình đưa ra quyết định của doanh nghiệp" Tóm lại, Bốn từ khóa: hướng chủ đề, tích hợp, biến thể thời gian, ít biến động

là bốn đặc điểm phân biệt kho dữ liệu với các hệ thống dữ liệu khác

Hướng chủ đề: Một kho dữ liệu được tổ chức xung quanh các chủ đề chính,

chẳng hạn như khách hàng, nhà cung cấp, sản phẩm, và bán hàng Vượt ra khỏi sự tập trung vào hoạt động hàng ngày và xử lý giao dịch của một tổ chức, một kho dữ liệu tập trung vào mô hình hóa và phân tích các dữ liệu giúp cho việc đưa ra quyết định

Do đó, kho dữ liệu thông thường cung cấp một cái nhìn đơn giản và ngắn gọn về các chủ đề cụ thể bằng cách loại trừ dữ liệu thừa đối với quá trình đưa ra quyết định

Tích hợp: Một kho dữ liệu thường được xây dựng bởi việc tích hợp nhiều nguồn

dữ liệu khác nhau chẳng hạn như cơ sở dữ liệu quan hệ, các tập tin, và hồ sơ giao dịch trực tuyến Làm sạch dữ liệu và kỹ thuật tích hợp dữ liệu được áp dụng để đảm bảo tính nhất quán trong việc ước đặt tên, mã hóa cấu trúc, đo đạt các thuộc tính,…

Biến thể - thời gian: Dữ liệu được lưu trữ để cung cấp thông tin mang tính lịch

sử (ví dụ: trong 50-10 năm qua) Tất cả các cấu trúc quan trọng trong kho dữ liệu chứa, hoặc ngầm chứa một phần tử của thời gian

Ít biến đổi: Một kho dữ liệu luôn luôn là kho riêng biệt về mặt vật lý đối với dữ

liệu trong xử lý giao tác hàng ngày Do việc tách biệt này, một kho dữ liệu không yêu cầu xử lý giao dịch, phụ c hồi, và cơ chế kiểm soát xử lý đồng thời Nó thường đòi hỏi chỉ có hai hoạt động trên dữ liệu là tải dữ liệu và làm mới dữ liệu

Tóm lại, một kho dữ liệu là một kho dữ liệu đồng nhất về ngữ nghĩa phục vụ cho việc đưa ra quyết định, cung cấp và lưu trữ các thông tin mà doanh nghiệp cần để đưa

ra quyết định chiến lược Một kho dữ liệu cũng thường được xem như là một kiến trúc được xây dựng bằng cách tích hợp từ nhiều nguồn dữ liệu không đồng nhất

Vai trò của Kho dữ liệu trong hệ thống Kinh doanh thông minh

Data warehouse là cốt lõi của hệ thống BI được xây dựng để phân tích và báo cáo dữ liệu

Trang 15

PHẠM THỊ THU HƯƠNG - 20185367 14

Hình 1.4 Kiến trúc mức cao của hệ thống BI

Vị trí của Kho dữ liệu được minh họa ở trên hình Phía bên phải (hình oval bên phải) là đối tượng thụ hưởng của hệ thống – những người sẽ phân tích thông tin để đưa ra các kế hoạch dài hạn hay điều hành ngắn hạn Để có thể đưa ra được các thông tin có tính hệ thống, phù hợp với nghiệp vụ kinh doanh của doanh nghiệp thì cần có đội ngũ nghiệp vụ (hình oval ở giữa), chịu trách nhiệm xây dựng các báo cáo quản trị

từ Kho dữ liệu Cuối cùng để có thể lấy được dữ liệu và đưa vào Kho dữ liệu theo nhu cầu nghiệp vụ thì cần có đội ngũ kỹ thuật (hình oval bên trái) Ngoài ra có thể có các

hệ thống thông minh (hình vuông góc dưới bên trái) có thể khai thác dữ liệu từ Kho dữ liệu nhằm hỗ trợ quản lý ra quyết định

Khác biệt giữa Hệ cơ sở dữ liệu hoạt động và Kho dữ liệu

Bởi vì hầu hết mọi người đều quen thuộc với các hệ thống cơ sở dữ liệu quan hệ thương mại nên để hiểu kho dữ liệu dễ dàng ta sẽ so sánh hai loại hệ thống Nhiệm vụ chính của hệ thống cơ sở dữ liệu hoạt động là để thực hiện giao dịch trực tuyến và truy vấn Các hệ thống này được gọi là hệ thống xử lý hoạt động trực tuyến (Online transaction processing - OLTP) Chúng bao gồm hầu hết các hoạt động hàng ngày của một tổ chức, chẳng hạn như thu mua, tồn kho, sản xuất, ngân hàng, đăng ký, và kế toán

Ngược lại, hệ thống Kho dữ liệu phục vụ người sử dụng hay công nhân tri thức trong vai trò phân tích dữ liệu và ra quyết định Hệ thống như vậy có thể tổ chức và thể hiện dữ liệu trong nhiều định dạng, để thích ứng với nhu cầu đa dạng của người sử dụng khác nhau Những hệ thống này được biết là hệ thống phân tích trực tuyến (Online analytical processing - OLAP)

Trang 16

PHẠM THỊ THU HƯƠNG - 20185367 15

Hình 1.5 OLTP – OLAP

Điểm khác biệt chủ yếu giữ OLTP và OLAP được tóm gọn như sau:

+ Người sử dụng và định hướng của hệ thống: Một hệ thống OLTP là

định hướng khách hàng được sử dụng cho giao dịch và xử lý truy vấn bởi thư ký, khách hàng, và các chuyên gia công nghệ thông tin Một hệ thống OLAP là định hướng thị trường và được sử dụng cho phân tích dữ liệu bởi công nhân tri thức, bao gồm cả quản lý, điều hành, và các nhà phân tích

+ Nội dung dữ liệu: hệ thống OLTP quản lý dữ liệu mang tính update

thông thường quá chi tiết để dễ dàng sử dụng cho việc ra quyết định Một

hệ thống OLAP quản lý số lượng lớn dữ liệu quá khứ, cung cấp các tiện ích cho tổng kết và tập hợp, và lưu trữ, quản lý thông tin ở các cấp độ khác Những tính năng này làm cho các dữ liệu dễ dàng sử dụng hơn trong việc ra quyết định

+ Thiết kế dữ liệu: một hệ thống OLTP thường sử dụng mô hình thực thể

quan hệ và một thiết kế hướng ứng dụng Một hệ thống OLAP thường sử dụng mô hình sao hoặc bông tuyết và thiết kế dữ liệu hướng chủ đề

+ Khung nhìn: Một hệ thống OLTP thường tập trung chủ yếu vào dữ liệu

hiện tại của tập đoàn hoặc của phòng ban, không chú ý tới dữ liệu lịch sử hay dữ liệu ở các tổ chức khác nhau Ngược lại, hệ thống OLAP thường

mở rộng các phiên bản của lược đồ dữ liệu do quá trình phát triển của tổ chức Hệ thống OLAP thường làm việc với thông tin từ nhiều tổ chức khác nhau, tổng hợp từ nhiều nguồn dữ liệu khác nhau

+ Mô hình truy xuất: mô hình truy xuất của hệ thống OLTP bao gồm các

giao dịch Hệ thống như vậy yêu cầu có sự kiểm soát xử lý đồng thời và

cơ chế hồi phục Tuy nhiên, truy xuất hệ thống OLAP chủ yếu là quá trình đọc Bởi vì hầu hết các kho dữ liệu lưu trữ dữ liệu lịch sư hơn là dữ liệu mang tính cập nhật, mặc dù có rất nhiều truy vấn phức tạp

Trang 17

PHẠM THỊ THU HƯƠNG - 20185367 16

Bảng 1.2 So sánh giữa OLTP và OLAP

Tính chất Xử lý giao dịch Xử lý thông tin

Định hướng Giao dịch Phân tích

Người dùng Thư ký, DBA, chuyên

gia cơ sở dữ liệu

Công nhân trí thức

Chức năng Hoạt động hàng ngày Yêu cầu thông tin lâu

dài, hỗ trợ đưa ra quyết định

Dữ liệu Đảm bào cập nhật Mang tính lịch sử,

Tổng hợp Thô sơ, chi tiết Tổng hợp tốt, nhiều

chiềuĐơn vị công việc Ngắn, giao dịch đơn

giản Truy vấn phức tạpTruy xuất Đọc/ghi Hầu hết là đọc

Trọng tâm Dữ liệu vào Thông tin ra

Hoạt động Chỉ mục/Băm trên khóa

Độ linh hoạt cao

Độ đo Độ thông suốt giao dịch Độ thông suốt truy vấn

và thời gian đáp ứng

Tại sao cần có Kho dữ liệu riêng biệt?

Bởi vì cơ sở dữ liệu hoạt động lưu trữ một lượng lớn dữ liệu, bạn có thể tự hỏi,

"Tại sao không thực hiện trực tuyến quá trình phân tích trực tiếp trên cơ sở dữ liệu đó thay vì bỏ thêm thời gian và nguồn lực để xây dựng một kho dữ liệu riêng biệt?" Lý

do cho việc tách này là giúp thúc đẩy hiệu suất của cả hệ thống Một cơ sở dữ liệu hoạt động được thiết kế và điều chỉnh để thực hiện những công việc như tạo chỉ mục

Trang 18

PHẠM THỊ THU HƯƠNG - 20185367 17

và băm dùng khóa chính, tìm kiếm record, tối ưu truy vấn Trong khi đó, câu truy vấn trên kho dữ liệu thường phức tạp Chúng liên quan đến việc tính toán trên nhóm lớn của dữ liệu ở mức tổng hợp, và có thể yêu cầu việc sử dụng của việc tổ chức dữ liệu, truy xuất, và phương pháp cài đặt dựa trên cái nhìn đa chiều Xử lý truy vấn OLAP trong cơ sở dữ liệu giao dịch có thể làm chậm quá trình làm việc của các xử lý giao dịch

Hơn nữa, một cơ sở dữ liệu giao dịch hỗ trợ việc xử lý đồng thời của nhiều giao dịch Đồng thời cần phải kiểm soát xử lý đồng thời và các cơ chế phục hồi, chẳng hạn như khóa và ghi nhật trí xử lý, để bảo đảm tính nhất quán và an toàn cho giao dịch Một truy vấn OLAP thường chỉ đọc dữ liệu để tổng kết và tập hợp Nếu áp dụng các

cơ chế trên cho các hoạt động của OLAP, có thể gây nguy hiểm cho việc thực hiện các giao dịch đồng thời và do đó giảm đáng kể thông lượng của một hệ thống OLTP Sau cùng, việc tách kho dữ liệu với cơ sở dữ liệu giao dịch được dựa trên các cấu trúc khác nhau, nội dung, và sử dụng các dữ liệu trong hai hệ thống Việc hỗ trợ đưa ra quyết định yêu cầu dữ liệu có tính lịch sử, trong khi cơ sở dữ liệu giao dịch không thường duy trì dữ liệu lịch sử Trong bối cảnh đó, các dữ liệu giao dịch mặc dù dồi dào nhưng thường xa với việc đưa ra quyết định Việc hỗ trợ quyết định đòi hỏi tính hợp nhất (chẳng hạn như tập hợp và tổng kết) của dữ liệu từ các nguồn không đồng nhất, kết quả trong dữ liệu có chất lượng cao, sạch, và tích hợp Ngược lại, cơ sở dữ liệu giao dịch chỉ chứa dữ liệu chi tiết chưa xử lý, chẳng hạn như giao dịch, và cần phải được củng cố trước khi phân tích Bởi vì hai hệ thống cung cấp chức năng khá khác nhau và đòi hỏi khác nhau về các loại dữ liệu, nên rất cần thiết duy trì 2 loại cơ sở dữ liệu này riêng biệt Tuy nhiên, nhiều nhà cung cấp hệ thống quản lý cơ sở dữ liệu giao dịch đang bắt đầu tối ưu hóa hệ thống để hỗ trợ truy vấn OLAP Nếu xu hướng này tiếp tục phát triển, sự tách biệt giữa các hệ thống OLTP và OLAP có thể sẽ giảm đi

Trang 19

Hình 2.1 Công ty DataCo Global

Tập dữ liệu gồm 108519 chi tiết về các đơn hàng được đặt hàng trong ba năm

2015, 2016, 2017 và tháng 1 năm 2018 Cụ thể mỗi chi tiết gồm các trường dữ liệu sau:

Trang 20

PHẠM THỊ THU HƯƠNG - 20185367 19

Hình 2.2 Mô tả các trường dữ liệu

Trang 21

2.1.2.2 Báo cáo chi tiết

Bảng 2.1 Báo cáo chi tiết

• Thời gian: Month → Quarter → Year

• Market → Region → Country → State → City

• Giá trị đơn hàng trung bình 1 lần mua

• Doanh thu, lợi nhuận thu được

➢ Phân tích Các hình thức đặt hàng, thanh toán

➢ Phân tích về chế độ vận chuyển, thời gian vận chuyển

Trang 22

PHẠM THỊ THU HƯƠNG - 20185367 21

2.2.1.2 Quản lí chi tiết đối với mỗi đơn hàng

a Cửa hàng cung cấp đơn hàng

• Đơn hàng được đặt tại cửa hàng ở Thành phố? Tiểu bang? Quốc gia? Khu vực? Thị trường nào?

b Chi tiết sản phẩm của đơn hàng

• Sản phẩm thuộc Chủng loại? Bộ phận? Nhóm bộ phận nào?

• Đơn giá của sản phẩm là bao nhiêu?

• Số lượng của mỗi sản phẩm được đặt là?

c Các thông tin về giá trị, quy mô đơn hàng

• Giá thành tiền của đơn hàng

• Phần trăm giảm giá của đơn hàng

• Tổng hóa đơn sau giảm giá

• Lợi nhuận thu được trên đơn hàng

• Quy mô đơn hàng: Lớn? Trung bình? Nhỏ?

d Các thông tin về quá trình đặt hàng và vận chuyển đơn hàng

• Loại giao dịch của đơn hàng

Tiền xử lí dữ liệu hay ETL dữ liệu là một phần thiết yếu của các quy trình

và hệ thống Business Intelligence (BI) ngày nay Đó là quá trình mà thông qua đó, dữ liệu từ các nguồn khác nhau có thể được đưa vào một vị trí để phân tích và khám phá thông tin chi tiết về doanh nghiệp

ETL là từ viết tắt của Extract – Transform – Load với nghĩa là trích xuất – biến đổi – tải

Trang 23

PHẠM THỊ THU HƯƠNG - 20185367 22

Hình 2.3 ETL

a Extract (Trích xuất): Là quá trình nhận dữ liệu từ một hoặc nhiều nguồn Các nguồn có thể có các định dạng và cấu trúc khác nhau, chẳng hạn như tài liệu Excel, tệp CSV, CRM, các hệ quản trị cơ sở dữ liệu có cấu trúc như Oracle, MySQL, SQL Server và hệ quản trị cơ sở dữ liệu phi cấu trúc như MongoDB…Có 3 loại trích xuất chính:

• Trích xuất toàn bộ (Full Extraction): Trích xuất tất cả dữ liệu vào khu vực dàn dựng mà không cần áp dụng điều kiện

• Trích xuất một phần (Với thông báo cập nhật): Trích xuất dữ liệu với thông báo cập nhật do nguồn gửi, nếu một số dữ liệu đã trích xuất có sửa đổi, chỉ trích xuất dữ liệu đã sửa đổi vào khu vực tổ chức

• Trích xuất một phần (Không có thông báo cập nhật): Trích xuất

dữ liệu đang có điều kiện tải, chẳng hạn như trong một số bộ lập lịch hàng ngày chỉ trích xuất dữ liệu hàng ngày đó Phần còn lại của dữ liệu mới được thêm vào sẽ được trích xuất trong ngày tương ứng

b Transform (Chuyển đổi): Dữ liệu được trích xuất vào một vùng / bảng dàn dựng là dữ liệu thô và nó không thể được sử dụng để phân tích và nó cần được Làm sạch, Lập bản đồ và Chuyển đổi Trong một số dự án, thông thường những dự

án có lượng dữ liệu nhỏ thì không cần sử dụng vùng dàn dựng này, nhưng hầu hết các

dự án đều sử dụng nó

Có một số nhiệm vụ sẽ thực hiện trong quá trình Transform:

• Selection (Lựa chọn): tiêu chí để lựa chọn dữ liệu trích xuất Việc lựa chọn có thể được thực hiện trong giai đoạn chiết xuất, trong giai đoạn biến đổi hoặc trong cả hai giai đoạn

• Integration (Tích hợp): sự kết hợp của dữ liệu từ giai đoạn trích xuất đến khu vực dàn dựng Sự kết hợp này có nghĩa là thêm, xóa và cập nhật dữ liệu trong khu vực tổ chức dựa trên dữ liệu được trích xuất

• Join (Tham gia): được sử dụng để nối dữ liệu được trích xuất, tương tự như phép nối SQL (phép nối bên trong, phép nối bên trái, phép nối phải, phép nối đầy đủ, v.v.)

Trang 24

PHẠM THỊ THU HƯƠNG - 20185367 23

• Cleansing (Làm sạch dữ liệu): loại bỏ dữ liệu không nhất quán hoặc không hợp lệ hoặc dữ liệu có lỗi để cải thiện chất lượng dữ liệu

• Summarizations (Tóm tắt): tóm tắt bộ dữ liệu để sử dụng sau

• Aggregations (Tổng hợp): dữ liệu được tổng hợp và tóm tắt theo nhóm

• Consolidations (Tính toán): dữ liệu từ nhiều nguồn hoặc cấu trúc được hợp nhất trong một tập dữ liệu duy nhất

c Load (Tải dữ liệu): như bạn thấy ở hình trên, sau khi được chuyển đổi thì toàn bộ các dữ liệu này được đưa vào một nơi lưu trữ mới, mà người ta gọi là DataWarehouse (tạm dịch là kho dữ liệu) Và đến đây là kết thúc giai đoạn ETL dữ liệu, giai đoạn đầu tiên để bạn triển khai giải pháp Business Intelligence cho doanh nghiệp của bạn

• Tải làm mới: là quá trình cập nhật dữ liệu ở đích cuối cùng để phản ánh những thay đổi được thực hiện trong nguồn ban đầu Làm mới

có thể đầy đủ hoặc tăng dần

2.2.2.2 Trực quan hóa dữ liệu

a Trực quan hóa dữ liệu là gì?

Về cơ bản, trực quan hóa dữ liệu, hay data visualization là kỹ thuật trình bày số liệu và thông tin bằng hình ảnh, thông thường là qua các biểu đồ, đồ thị hoặc dưới dạng các báo cáo tổng quan - Dashboard, nhằm truyền đạt thông tin một cách hiệu quả đến mọi người thông qua các phương tiện đồ họa Minh họa bằng hình ảnh cung cấp cho người đọc báo cáo những thông tin quan trọng khó có thể nhận thấy ngay lập tức trong dữ liệu thô

Hình 2.4 Trực quan hóa dữ liệu

Trang 25

PHẠM THỊ THU HƯƠNG - 20185367 24

Trực quan hóa dữ liệu và phân tích thông tin là các bước sau cùng của quy trình khai thác dữ liệu, được thực hiện sau khi bạn đã thu thập, xử lý và tổ chức dữ liệu Do vậy, kết quả của việc trình bày dữ liệu phụ thuộc rất nhiều vào chất lượng của nguồn

dữ liệu cũng như mức độ chuẩn hóa của các thông tin đầu vào

b Tại sao cần trực quan hóa dữ liệu?

Chúng ta cần trực quan hóa dữ liệu vì bản tóm tắt thông tin trực quan giúp dễ dàng xác định các mẫu và xu hướng hơn là xem qua hàng nghìn hàng trên bảng tính

Đó là cách bộ não con người hoạt động

Vì mục đích của phân tích dữ liệu là để hiểu rõ hơn, dữ liệu có giá trị hơn nhiều khi nó được trực quan hóa Ngay cả khi một nhà phân tích dữ liệu có thể lấy thông tin chi tiết từ dữ liệu mà không cần trực quan, thì việc truyền đạt ý nghĩa mà không trực quan sẽ khó khăn hơn

Biểu đồ và đồ thị giúp truyền đạt kết quả dữ liệu dễ dàng hơn ngay cả khi bạn

có thể xác định các mẫu mà không có chúng

Nếu không có sự trình bày trực quan của những hiểu biết sâu sắc, người xem có thể khó nắm bắt được ý nghĩa thực sự của những phát hiện Ví dụ: việc trình bày các con số với sếp của bạn sẽ không cho họ biết lý do tại sao họ nên quan tâm đến dữ liệu, nhưng hiển thị cho họ biểu đồ về số tiền mà những thông tin chi tiết có thể tiết kiệm chắc chắn sẽ thu hút sự chú ý của họ

Quan trọng nhất, các kỹ thuật trực quan hóa dữ liệu – data visualization được xem là công cụ giúp các nhà quản lý – những người ra quyết định, có thể nhanh chóng phân tích các dữ liệu của công ty và ra các chiến lược phù hợp nhất Như vậy, họ có thể nắm rõ ràng và chi tiết các hoạt động khác nhau trong công ty Điều này, giúp làm tăng và làm nổi bật các ưu điểm của doanh nghiệp

Hình 2.5 Data Visualization hỗ trợ doanh nghiệp trong việc ra quyết định kinh doanh

Trang 26

PHẠM THỊ THU HƯƠNG - 20185367 25

Với data visualization, chúng ta có thể:

+ Dễ dàng phân tích các dữ liệu lớn của công ty

+ Xác định trước các xu hướng trong tương lai

+ Xác định các mối tương quan

+ Tăng khả năng truyền tải thông điệp tới những đối tượng khác

+ Đưa ra các quyết định dựa trên dữ liệu

+ Đánh giá bằng con số các kết quả của nỗ lực của bạn

Việc xác định các xu hướng là vô cùng khó khăn khi sử dụng các công cụ truyền thống và lỗi thời như bảng tính excel hay google sheet Data visualization sẽ giúp doanh nghiệp tìm ra các xu hướng sớm hơn Đối với các doanh nghiệp, họ có thể dựa vào những xu hướng này để xác định nhu cầu của thị trường so với từng loại sản phẩm hoặc dịch vụ Từ đó, phát triển trước các chiến lược phù hợp để đón đầu thị trường trước các đối thủ khác

Data visualization còn giúp xác định những sự tương quan giữa tập hợp các dữ liệu Các dữ liệu có thể giúp phát hiện ra những thông tin không ngờ đến về marketing

và sales, như là làm sao mà khách hàng phản ứng với các chiến dịch cụ thể Và sau đó, ứng dụng các insight này vào việc tối ưu các quy trình bán hàng và các nỗ lực marketing

Vậy thì ứng dụng trong việc truyền tải thông tin của data visualization là gì? Trên thực tế việc này còn có ích với việc trình bày với các nhà đầu tư, hội đồng công ty hay các nhà đầu tư tiềm năng Đây là phương pháp hiệu quả để trình bày về những thông tin đã tìm được trong việc phân tích dữ liệu

Trang 27

Tên thuộc tính Kiểu Ý nghĩa

1 PK Order Item Id int Mã Chi tiết đơn hàng

Trang 28

PHẠM THỊ THU HƯƠNG - 20185367 27

9 Total Sales money Tổng số tiền sau giảm

của chi tiết

10 Order Item

Profit Ratio

float Tỉ lệ lợi nhuận

11 Profit per Order

Tên thuộc tính Kiểu Ý nghĩa

2 FK Order Shop Id int Mã cửa hàng bán

nvarchar(255) Loại giao dịch

6 Order Status nvarchar(255) Trạng thái đơn hàng

7 Sales per Order money Giá tiền đơn hàng

money Số tiền được giảm

10 Order Total money Giá đơn hàng sau

Trang 29

Tên thuộc tính Kiểu Ý nghĩa

2 Shipping Mode nvarchar(255) Chế độ vận

chuyển

4 Shipping Date datetime Ngày giao hàng

5 Days for shipment

7 Late_delivery_risk nvarchar(255) Đơn hàng bị

muộn hay không

8 Delivery Status nvarchar(255) Trạng thái vận

2 FK Category Id int Mã thể loại sản phẩm

4 Product Name nvarchar(255) Tên sản phẩm

Trang 30

PHẠM THỊ THU HƯƠNG - 20185367 29

Bảng 3.5 OLTP - Category

STT Ràng

buộc

Tên thuộc tính Kiểu Ý nghĩa

1 PK Category Id int Mã thể loại sản

2 Shop City nvarchar(255) Thành phố của cửa

hàng

3 Shop State nvarchar(255) Bang của cửa hàng

4 Shop Country nvarchar(255) Quốc gia của cửa

Trang 31

5 FK Dist Customer Id int Mã vùng của

Tên thuộc tính Kiểu Ý nghĩa

1 PK Dist Customer Id int Mã vùng khách

+ Mô hình truy xuất của hệ thống OLTP bao gồm các giao dịch Hệ thống như vậy yêu cầu có sự kiểm soát xử lý đồng thời và cơ chế hồi phục

+ Hệ thống OLTP là định hướng khách hàng được sử dụng cho giao dịch và xử lý truy vấn bởi thư ký, khách hàng, và các chuyên gia công nghệ

Trang 32

PHẠM THỊ THU HƯƠNG - 20185367 31

công nhân tri thức, bao gồm cả quản lý, điều hành, và các nhà phân tích

+ Hệ thống OLTP quản lý dữ liệu mang tính update thông thường quá chi tiết để sử dụng cho việc ra quyết định

➢ Cần xây dựng hệ thống OLAP để khắc phục những hạn chế trên

3.2 Phân tích và Thiết kế hệ thống OLAP

Phân tích chủ điểm phân tích (Facts)

Chủ điểm phân tích của hệ thống được mô tả trong bảng “Fact_OrderItem”

Bảng 3.10 OLAP – Fact_OrderItem

STT Thuộc

tính

Tên thuộc tính Kiểu

8 Order Item Discount money

10 Fact Order Item Profit Ratio float

11 Fact Profit per Order Item money

Phân tích các chiều (Dimentions)

3.2.2.1 Các chiều phân tích

a Chiều về thời gian

Chiều về phân tích về thời gian của chủ điểm được mô tả trong bảng

“Dim_Date” gồm thời gian đặt hàng, vận chuyển:

Trang 33

3 Shipping Date datetime

b Chiều về giao dịch

Chiều phân tích về giao dịch được phân cấp thành 2 bảng:

“Dim_Transaction” về quy mô giao giao dịch của đơn hàng, Loại giao dịch, Trạng thái giao dịch; “Dim_Shop” về địa điểm đặt hàng:

2 FK Order Shop Id int

3 Type of transaction nvarchar(255)

4 Shop Country nvarchar(255)

Trang 34

PHẠM THỊ THU HƯƠNG - 20185367 33

c Chiều về sản phẩm

Chiều phân tích về sản phẩm được phân cấp thành 2 bảng:

“Dim_Product” gồm thông tin về tên sản phẩm và đơn giá của sản phẩm; “Dim_Category” cho biết thông tin về chủng loại sản phẩm và

4 Product Name nvarchar(255)

2 Category Name nvarchar(255)

d Chiều về vận chuyển

Chiều phân tích về vận chuyển được mô tả trong bảng

“Dim_Delivery” gồm thông tin về chế độ vận chuyển, trạng thái vận chuyển, số ngày vận chuyển (trên kế hoạch, thực tế):

Trang 35

Chiều phân tích về khách hàng được phân cấp thành 2 bảng:

“Dim_Customer” gồm thông tin về tên khách hàng, phân khúc khách hàng; “Dim_DistCustomer” gồm thông tin về địa chỉ khách hàng:

2 Customer Fname nvarchar(255)

3 Customer Lname nvarchar(255)

4 Customer Zipcode int

5 FK Dist Customer Id int

6 Customer Segment nvarchar(255)

Bảng 3.18 OLAP - Dim_DistCustomer

STT Ràng

buộc

Tên thuộc tính Kiểu

1 PK Dist Customer Id int

2 Customer City nvarchar(255)

3 Customer State nvarchar(255)

4 Customer Country nvarchar(255)

Ngày đăng: 07/04/2022, 14:38

🧩 Sản phẩm bạn có thể quan tâm

w