1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích dữ liệu khách hàng tại công ty tnhh thương mại và dịch vụ logistic minh quân

56 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Dữ Liệu Khách Hàng Tại Công Ty TNHH Thương Mại Và Dịch Vụ Logistic Minh Quân
Người hướng dẫn TS. Phan Đình Vấn
Trường học Trường Đại Học Kinh Tế Đà Nẵng
Chuyên ngành Hệ Thống Thông Tin Quản Lý
Thể loại Báo Cáo Thực Tập
Thành phố Đà Nẵng
Định dạng
Số trang 56
Dung lượng 2,42 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Kết quả của nghiên cứu có thể mang lại những phân tích sâu sắc về khách hàng và có thể áp dụng cho các công ty khác trong cùng ngành, góp phần vào việc tối ưu hóa quản lý khách hàng và p

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ – ĐẠI HỌC ĐÀ NẴNG

KHOA THỐNG KÊ - TIN HỌC

- -

BÁO CÁO THỰC TẬP NGHỀ NGHIỆP NGÀNH HỆ THỐNG THÔNG TIN QUẢN LÝ CHUYÊN NGÀNH QUẢN TRỊ HỆ THỐNG THÔNG TIN PHÂN TÍCH DỮ LIỆU KHÁCH HÀNG TẠI CÔNG TY TNHH THƯƠNG MẠI VÀ DỊCH VỤ LOGISTIC MINH QUÂN

Đơn vị thực tập : Công ty TNHH Thương mại và Dịch vụ

Logistic Minh Quân

Giảng viên hướng dẫn : TS.Phan Đình Vấn

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến Công ty TNHH Thương mại và Dịch vụ Logistic Minh Quân đã trao cho chúng em cơ hội thực tập tại đây Qua thời gian làm việc tại công ty, chúng em đã được trải nghiệm và học hỏi rất nhiều về công việc, cách thức làm việc và tương tác với các đồng nghiệp

Đồng thời, chúng em xin chân thành cảm ơn sự hỗ trợ, giúp đỡ và đào tạo của các anh/chị trong đội ngũ nhân viên tại công ty Các anh/chị luôn tận tình giúp đỡ và hướng dẫn chúng em trong quá trình làm việc, giúp chúng em tiếp cận với nhiều kỹ năng mới và cải thiện khả năng làm việc của mình

Cuối cùng, để hoàn thành báo cáo thực tập chúng em cũng xin gửi lời cảm ơn chân thành đến thầy Phan Đình Vấn, giảng viên Khoa Thống Kê - Tin Học – Trường ĐH Kinh

tế Đà Nẵng người đã tận tình hướng dẫn, chỉ bảo chúng em trong suốt quá trình làm báo cáo

Vì kiến thức và kinh nghiệm còn nhiều hạn chế nên trong quá trình thực tập tại Công ty cũng như trong thời gian viết báo cáo sẽ khó tránh khỏi những sai sót, chúng em rất mong các anh chị và thầy cô bỏ qua Bên cạnh đó, chúng em cũng mong sẽ nhận được những đóng góp từ các anh chị tại Công ty và thầy cô để bản thân em có thêm nhiều kinh nghiệm và ngày một hoàn thiện hơn

Chúng em xin chân thành cảm ơn!

Trang 3

LỜI CAM ĐOAN

Chúng em xin cam đoan rằng đây là đề tài nghiên cứu của chúng em, có sự hỗ trợ

từ Giáo viên hướng dẫn TS Phan Đình Vấn và chị Nguyễn Thanh Hằng – Công ty

TNHH Thương mai và Dịch vụ Logistic Minh Quân Các nội dung nghiên cứu và kết quả trong đề tài này là hoàn toàn trung thực và chưa từng được ai công bố trong bất cứ công trình nghirn cứu nào trước đây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính chúng em thu thập từ các nguồn khác nhau ( có ghi trong phần tài liệu tham khảo)

Nếu phát hiện có bất kỳ sự gian lận nào chúng em xin hoàn toàn chịu trách nhiệm trước Hội đồng cũng như kết quả bài báo cáo của mình

Trang 4

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN ii

MỤC LỤC iii

DANH MỤC HÌNH ẢNH v

CHƯƠNG 1: MỞ ĐẦU 1

1.1 Lý do chọn đề tài 1

1.2 Mục tiêu nghiên cứu 2

1.3 Đối tượng nghiên cứu 2

1.4 Phạm vi nghiên cứu 3

1.5 Cấu trúc bài báo cáo 3

CHƯƠNG 2 TỔNG QUAN VỀ ĐƠN VỊ THỰC TẬP 4

2.1 Thông tin về đơn vị thực tập 4

2.2 Sơ lược về sự hình thành và phát triển 5

2.3 Tổ chức và các lĩnh vực hoạt động 5

2.3.1 Mục tiêu hoạt động của Minh Quân Logistic 5

2.3.2 Lĩnh vực hoạt động và ngành nghề kinh doanh của Minh Quân Logistic 5

2.4 Tầm nhìn và Sứ mệnh 6

2.4.1 Tầm nhìn 6

2.4.2 Sứ mệnh 6

2.5 Thông tin về vị trí sinh viên tham gia thực tập 7

CHƯƠNG 3 TỔNG QUAN DATA ANALYST VÀ DATA WAREHOUSE 8

3.1 Giới thiệu về công việc Data Analyst 8

3.1.1 Khái niệm 8

3.1.2 Công việc của Data Analyst trong doanh nghiệp 8

3.2 Công cụ xử lý dữ liệu Visual Studio 2019 9

3.2.1 Khái niệm Visual Studio 9

3.2.2 Đặc điểm nổi bật của Visual Studio 9

3.3 Công cụ trực quan hóa dữ liệu Tableau 10

Trang 5

3.3.2 Các tính năng nổi bật của Tableau 10

3.3.3 Các loại biểu đồ thường dùng trong Tableau 11

3.4 Lý thuyết về xây dựng kho dữ liệu 14

3.4.1 Các khái niệm cơ bản về kho dữ liệu 14

3.4.1.1 Kho dữ liệu - Data Warehouse 14

3.4.1.2 Đặc tính của kho dữ liệu 14

3.4.1.3 Các yêu cầu chức năng của kho dữ liệu 15

3.4.1.4 Kho dữ liệu cục bộ - Data Mart 16

3.4.2 Các loại dữ liệu trong Data Warehouse 17

3.4.2.1 Dữ liệu nghiệp vụ 17

3.4.2.2 Siêu dữ liệu (Metadata) 17

3.4.3 Thiết kế kho dữ liệu 18

3.4.3.1 Các giai đoạn thiết kế kho dữ liệu 18

3.4.3.2 Mô hình dữ liệu 18

CHƯƠNG 4 TRIỂN KHAI KHO DỮ LIỆU 23

4.1 Thực trạng hiện nay của doanh nghiệp 23

4.1.1 Vấn đề thực tiễn 23

4.1.2 Các hệ thống hiện tại được Công ty sử dụng 24

4.1.3 Quy trình hoạt động 24

4.2 Phân tích bài toán 25

4.2.1 Mô hình hóa các yêu cầu của bài toán 25

4.2.2 Thiết kế Data Warehouse ứng dụng cho lĩnh vực logistic của doanh 29

nghiệp viễn thông 29

4.2.2.1 Chuẩn hóa dữ liệu 29

4.2.2.2 Thiết kế các bảng biểu trong data warehouse 30

4.2.3 Thiết kế một số tính năng phân tích dữ liệu 35

4.2.4 Thiết kế các Cube trong OLAP 38

CHƯƠNG 5: PHÂN TÍCH DỮ LIỆU VÀ XÂY DỰNG MÔ HÌNH KHÁCH HÀNG39 5.1 Phân tích dữ liệu 39

5.2 Data visualization 40

Trang 6

TÀI LIỆU THAM KHẢO 48 CHECK LIST CỦA BÁO CÁO 49

Trang 7

Hình ảnh 1 Văn phòng làm việc của Công ty TNHH Minh Quân Logistic 4

Hình ảnh 2 Logo Công ty TNHH Thương mại và Dịch vụ Logistic Minh Quân 4

Hình ảnh 3 Quy trình làm việc của Data Analyst 8

Hình ảnh 4 Phần mềm Visual Studio 9

Hình ảnh 5 Hình ảnh phần mềm Tableau 10

Hình ảnh 6 Minh họa biểu đồ dạng thanh (Bar Chart) 11

Hình ảnh 7 Minh họa biểu đồ đường (Line Chart) 11

Hình ảnh 8 Minh họa biểu đồ hình tròn (Pie Chart) 12

Hình ảnh 9 Minh họa biểu đồ Pareto 12

Hình ảnh 10 Minh họa biểu đồ Donut Chart 13

Hình ảnh 11 Minh họa biểu đồ Dumbbell Chart 13

Hình ảnh 12 Minh họa biểu đồ Gantt Chart 13

Hình ảnh 13 Mô phỏng sơ đồ hình sao (Star Schema) 19

Hình ảnh 14 Mô phỏng sơ đồ tuyết rơi Snowflake Schema 21

Hình ảnh 15 Mô phỏng mô hình đa chiều (Multiple Dimension) 22

Hình ảnh 16 Tổng quan về quy trình lấy và phân tích dữ liệu khách hàng 24

Hình ảnh 17 Tổng quan luồng dữ liệu của hệ thống 24

Hình ảnh 18 Tổng quan luồng dữ liệu của hệ thống 29

Hình ảnh 19 Mô hình OLAP CUBE 38

Hình ảnh 20 Thống kê tổng trị giá hóa đơn và thuế của từng loại phương thức vận chuyển theo từng vùng cơ quan hải quan của doanh nghiệp trong tháng 1 năm 2023 40

Hình ảnh 21 Thống kê tổng doanh thu của từng loại phương thức vận chuyển theo từng vùng vị trí của khách hàng xuất khẩu của doanh nghiệp trong tháng 1 năm 2023 41

Hình ảnh 22 Tổng doanh thu của từng phương thức vận chuyển theo khu vực trong tháng 1 năm 2023 42

Hình ảnh 23 Số lượng hàng hóa và chi phí vận chuyển của từng loại phương thức giao hàng theo khu vực 42

Hình ảnh 24 Đo lường mức độ trung thành của khách hàng xuất khẩu đối với doanh nghiệp 43

Hình ảnh 25 Đo lường mức độ trung thành của khách hàng nhập khẩu đối với doanh nghiệp 43

Hình ảnh 26 Đo lường mức độ trung thành của khách hàng nhập khẩu đối với doanh nghiệp 44

Hình ảnh 27 Thống kê phương tiện vận chuyển theo loại hàng hóa vận chuyển và phương thức vận chuyển theo khu vực 44

Trang 8

CHƯƠNG 1: MỞ ĐẦU 1.1 Lý do chọn đề tài

Trước hết, công ty TNHH Thương mại và Dịch vụ Logistic Minh Quân hoạt động trong lĩnh vực giao thông vận tải, và hệ thống khách hàng của công ty chứa đựng một lượng lớn dữ liệu về khách hàng Dữ liệu này bao gồm thông tin cá nhân, hành vi tiêu dùng, lịch sử mua hàng và phản hồi khách hàng Qua việc phân tích dữ liệu này, chúng ta

có thể nhận thấy giá trị và quan trọng của việc hiểu rõ hơn về đặc điểm và xu hướng của khách hàng Điều này có thể giúp chúng ta xác định các nhóm khách hàng, sở thích, nhu cầu và hành vi tiêu dùng của họ, từ đó tạo ra những phản hồi và chiến lược kinh doanh phù hợp

Một lợi ích quan trọng khác của việc phân tích dữ liệu hệ thống khách hàng là khả năng tối ưu hóa quản lý khách hàng Bằng cách hiểu rõ hơn về nhóm khách hàng và các yếu tố ảnh hưởng đến hài lòng của khách hàng, chúng ta có thể tăng cường sự tương tác

và xây dựng mối quan hệ lâu dài với khách hàng Việc cải thiện dịch vụ và tương tác khách hàng không chỉ giúp tăng cường sự hài lòng của khách hàng, mà còn đóng góp vào

sự phát triển bền vững và tăng trưởng lâu dài của công ty

Ngoài ra, phân tích dữ liệu hệ thống khách hàng cũng giúp chúng ta tối ưu hóa chiến lược kinh doanh Bằng cách đánh giá hiệu suất kinh doanh hiện tại và định hướng phát triển tương lai, chúng ta có thể xác định các khuynh hướng mua hàng, tiềm năng thị trường và đánh giá sự thành công của các chiến dịch tiếp thị và quảng cáo Việc hiểu rõ

về khách hàng và thị trường giúp chúng ta điều chỉnh chiến lược kinh doanh, tối ưu hóa nguồn lực và đạt được hiệu quả cao hơn trong hoạt động kinh doanh

Đề tài này cũng đóng góp vào nghiên cứu và phát triển trong lĩnh vực quản lý khách hàng Kết quả của nghiên cứu có thể mang lại những phân tích sâu sắc về khách hàng và có thể áp dụng cho các công ty khác trong cùng ngành, góp phần vào việc tối ưu hóa quản lý khách hàng và phát triển kinh doanh

Tổng kết lại, đề tài "Phân tích dữ liệu về hệ thống khách hàng tại Công ty TNHH Thương mại và Dịch vụ Logistic Minh Quân " đáng được nghiên cứu vì tiềm năng mang lại những phân tích sâu sắc về khách hàng và đóng góp vào sự phát triển của công ty cũng như lĩnh vực quản lý khách hàng Việc nghiên cứu đề tài này sẽ giúp chúng ta hiểu

rõ hơn về khách hàng, tối ưu hóa quản lý khách hàng và đạt được hiệu quả cao hơn trong

Trang 9

1.2 Mục tiêu nghiên cứu

Mục đích của việc nghiên cứu đề tài "Phân tích dữ liệu về hệ thống khách hàng tại Công ty TNHH Thương mại và Dịch vụ Losgictic Minh Quân" là tìm hiểu, phân tích và rút ra những thông tin quan trọng từ dữ liệu về hệ thống khách hàng của công ty Điều này nhằm mục đích cung cấp cái nhìn sâu sắc và hiểu rõ hơn về các khía cạnh khách hàng, từ đó đưa ra các quyết định chiến lược và cải thiện hiệu suất kinh doanh

Một trong những lợi ích chính của việc phân tích dữ liệu về hệ thống khách hàng

là khám phá những đặc điểm và hành vi của khách hàng Bằng cách xem xét các thông tin như độ tuổi, giới tính, địa điểm, lịch sử giao dịch và mô hình tiêu dùng, chúng ta có thể xác định các nhóm khách hàng tiềm năng, nhận diện xu hướng và tìm ra các cơ hội mới Điều này sẽ giúp công ty tối ưu hóa các chiến dịch tiếp thị, đưa ra sản phẩm và dịch

vụ phù hợp với nhu cầu của khách hàng và tăng cường độ hài lòng khách hàng

Ngoài ra, việc phân tích dữ liệu khách hàng cũng giúp công ty đánh giá hiệu quả của các chiến dịch tiếp thị và chăm sóc khách hàng Bằng cách theo dõi các chỉ số khách hàng như tỷ lệ chuyển đổi, lợi nhuận từ khách hàng, độ trung thành và đánh giá phản hồi khách hàng, chúng ta có thể đánh giá được hiệu quả của các hoạt động và điều chỉnh chiến lược kinh doanh để nâng cao hiệu suất

Nghiên cứu này cũng nhằm đảm bảo rằng công ty có sự hiểu biết chính xác về khách hàng và giữ được sự cạnh tranh trong môi trường kinh doanh ngày càng cạnh tranh Bằng cách sử dụng dữ liệu khách hàng, công ty có thể đáp ứng nhu cầu ngày càng đa dạng của khách hàng, tạo ra trải nghiệm tốt hơn và xây dựng mối quan hệ lâu dài với khách hàng

Tổng kết lại, mục đích của việc nghiên cứu "Phân tích dữ liệu về hệ thống khách hàng tại Công ty TNHH Thương mại và Dịch vụ Losgictic Minh Quân " là khám phá, hiểu và tận dụng thông tin từ dữ liệu khách hàng để cải thiện hiệu suất kinh doanh, tối ưu hóa chiến dịch tiếp thị và tạo ra giá trị cho khách hàng Qua đó, công ty có thể duy trì và phát triển mối quan hệ bền vững với khách hàng trong một thị trường kinh doanh ngày tháng càng cạnh tranh

1.3 Đối tượng nghiên cứu

Để tiến hành phân tóc dữ liệu về hệ thống khách hàng, xây dựng mô hình dự đoán lượng khách hàng sẽ rời bỏ dựa trên các chỉ số và yếu tố quan trọng để thực hiện đánh giá

và cải thiện trải nghiệm khách hàng thông qua phân tích hành vi và phản hồi khách hàng

Trang 10

của Công ty TNHH Thương mại và Dịch vụ Losgictic Minh Quân Đối tượng nghiên cứu chính là bộ dữ liệu cơ sở khách hàng

Ngoài ra, tìm hiểu về việc xác định tiềm năng khách hàng mới cho công ty bằng cách tạo ra các mô hình dự đoán dựa trên dữ liệu hiện có và thông tin liên quan, họ có thể ước tính tiềm năng của các khách hàng tiềm năng, đóng góp cho công ty trong việc xây dựng chiến lược tiếp thị và phát triển kinh doanh

Cuối cùng, thực hiện tối ưu hóa chiến dịch tiếp thị của công ty bằng cách đánh giá hiệu quả của các chiến dịch tiếp thị hiện tại và phân tích dữ liệu khách hàng, thực tập sinh

có thể đưa ra các khuyến nghị và cải tiến để tăng cường tương tác và tạo ra doanh số bán hàng tốt hơn

Phạm vi thời gian nghiên cứu: Kỳ hè năm học 2022 - 2023 từ ngày 19 tháng 06 năm 2023 đến ngày 19 tháng 08 nam 2023

1.5 Cấu trúc bài báo cáo

Chương 1: Mở đầu

Chương 2: Giới thiệu chung về công ty thực tập

Chương 3: Cơ sở lý thuyết

Chương 4: Triển khai kho dữ liệu

Chương 5: Phân tích dữ liệu và xây dựng mô hình khách hàng

Chương 6: Kết luận và hướng phát triển đề tài

Trang 11

CHƯƠNG 2 TỔNG QUAN VỀ ĐƠN VỊ THỰC TẬP 2.1 Thông tin về đơn vị thực tập

- Tên công ty: Công ty TNHH Thương Mại và Dịch Vụ Logistic Minh Quân

- Tên quốc tế: Minh Quan Logistic Trading and Services Company Limited

- Tên viết tắt: MINH QUAN LOGISTICS CO., LTD

- Quản lý bởi: Chi cục Thuế khu vực Ngô Quyền - Hải An

- Loại hình DN: Công ty trách nhiệm hữu hạn 2 thành viên trở lên ngoài NN

- Tình trạng: Đang hoạt động (đã được cấp GCN ĐKT)

Hình ảnh 1 Văn phòng làm việc của Công ty TNHH Minh Quân Logistic

Trang 12

2.2 Sơ lược về sự hình thành và phát triển

Thành lập Minh Quan Logistic Co.,LTD vào ngày 31 tháng 08 năm 2022 Công ty TNHH thương mại và dịch vụ logistic Minh Quân là chuyên gia hàng đầu Việt Nam về quản lý chuỗi cung ứng và là nhà cung cấp dịch vụ hầu cần hàng đầu Việt Nam trong lĩnh vực hậu cần ô tô, hậu cần hàng dễ hư hỏng, xuyên biên giới và dịch vụ kho bãi Minh Quân Logistic cung cấp các dịch vụ tích hợp đầy đủ và trọn gói Minh Quân Logistic thiết kế các giải pháp hậu cần thông minh và khả thi cho từng yêu cầu của khách hàng

2.3 Tổ chức và các lĩnh vực hoạt động

2.3.1 Mục tiêu hoạt động của Minh Quân Logistic

Trở thành một trong những công ty hậu cần hàng đầu Việt Nam bằng cách cung cấp cho khách hàng các dịch vụ giá trị gia tăng cao nhằm tạo ra lợi ích bền vứng cho khách hàng, nhân viên và cổ đông

Đồng thời, cố gắng duy trì tốc độ cao và sự linh hoạt để thích ứng với những thay đổi trong môi trường kinh doanh

2.3.2 Lĩnh vực hoạt động và ngành nghề kinh doanh của Minh Quân Logistic

- Bán buôn ô tô và xe có động cơ khác

- Đại lý, môi giới, đấu giá

- Bán buôn nông , lâm sản , nguyên liệu ( trừ gỗ, tre, nứa) và động vật sống

- Bán buôn thực phẩm

- Bán buôn vải, hàng may sẵn, giày dép

- Bán buôn đồ dùng khác cho gia đình

- Bán lẻ hàng hóa khác mới trong các cửa hàng chuyên doanh

- Vận tải hàng hóa đường sắt ( trừ hóa lỏng khí để vận chuyển )

- Vận tải hàng hóa bằng đường bộ (trừ hóa lỏng khí để vận chuyển)

- Kho bãi và lưu giữ hàng hóa

- Bốc xếp hàng hóa ( trừ bốc xếp hàng hóa cảng hàng không)

- Hoạt động dịch vụ hỗ trợ trực tiếp cho vận tải đường bộ (trừ hóa lỏng khí để vận chuyển)

- Hoạt động dịch vụ khác liên quan đến vận tải

- Lập trình máy tính ( sản xuất phần mềm )

- Quảng cáo

- …

Trang 13

2.4 Tầm nhìn và Sứ mệnh

2.4.1 Tầm nhìn

Trở thành một trong những công ty logistics hàng đầu tròn lĩnh vực vận chuyển hàng hóa và logistics Công ty hướng đến việc cung cấp các dịch vụ vượt trội và tạo ra giá trị bền vững cho cả khách hàng và đối tác

Xây dựng mạng lưới toàn cầu, có khả năng phục vụ khách hàng trên mọi quy mô

và ngành nghề Công ty muốn trở thành đối tác đáng tin cậy trong việc giải quyết những yêu cầu phức tạp của khách hàng

Tiếp tục đổi mới và áp dụng công nghệ tiên tiến để nâng cao hiệu quả và tối ưu hóa quá trình chuyển giao công trình Duy trì và phát triển một môi trường làm việc sáng tạo và đội ngũ nhân viên tài năng

Tạo một môi trường đối tác lâu dài và tin tưởng với khách hàng, đối tác và nhà cung cấp

2.4.2 Sứ mệnh

Cung cấp dịch vụ chất lượng: Chúng tôi cam kết mang đến cho khách hàng các dịch vụ vận chuyển hàng hóa và hậu cần chất lượng cao, đảm bảo an toàn và đáp ứng các yêu cầu đặc thù của từng ngành và khu vực Chúng tôi luôn nỗ lực để cải thiện quy trình thiện chí, đào tạo nhân viên và áp dụng công nghệ tiên tiến mang lại sự hài lòng và tin tưởng của khách hàng

Đổi mới và sáng tạo: Chúng tôi tận dụng khả năng triển vọng của công nghệ và đổi mới để cung cấp giải pháp chuyển đổi khí hậu và hậu cần tiên tiến, hiệu quả và bền vững Chúng tôi đang tìm kiếm cách thức mới để tối ưu hóa hoạt động, áp dụng công nghệ thông minh và phát triển các dịch vụ tiên tiến để giúp khách hàng nâng cao hiệu quả

và cạnh tranh trong thị trường

Tạo điều kiện cho tăng trưởng và phát triển bền vững: Sứ mệnh của chúng tôi là không chỉ cung cấp dịch vụ vận chuyển và hậu cần tốt nhất, mà còn tạo điều kiện cho khách hàng và đối tác phát triển bền vững Chúng tôi hỗ trợ khách hàng trong tối đa hóa giá trị kinh doanh, tăng độ tin cậy và giảm thiểu rủi ro

Bảo vệ môi trường: Chúng tôi cam kết hành động có trách nhiệm với môi trường

Sứ mệnh của chúng tôi là giảm thiểu tác động tiêu cực lên môi trường thông qua việc áp dụng các giải pháp xanh, sử dụng phương tiện tiện lợi chuyển đổi bền vững và kết thúc

mô hình hoạt động có trách nhiệm

Trang 14

2.5 Thông tin về vị trí sinh viên tham gia thực tập

- Vị trí thực tập: Data Analyst tại Công ty TNHH thương mại và dịch vụ logistic Minh Quân

- Đặc điểm: Xây dựng biểu đồ báo cáo doanh nghiệp

- Yêu cầu:

+ Có kiến thức cơ bản về Excel, SQL, Python, Data Visualization

+ Có kiến thức thống kê, kỹ năng viết và giao tiếp

+ Kiến thức cơ bản về Machine Learning, Deep learning

Trang 15

CHƯƠNG 3 TỔNG QUAN DATA ANALYST VÀ DATA WAREHOUSE 3.1 Giới thiệu về công việc Data Analyst

3.1.1 Khái niệm

Data Analyst ( Chuyên viên phân tích dữ liệu ) là người sẽ chịu trách nhiệm thu thập, phân tích và đưa ra các thông tin và hiểu biết quan trọng từ dữ liệu Công việc của một Nhà phân tích dữ liệu là tìm hiểu và hiểu biết về dữ liệu từ nhiều nguồn khác nhau,

sử dụng các công cụ và kỹ thuật phân tích dữ liệu, và tạo ra các báo cáo và đề xuất dựa trên kết quả phân tích để phân tích Hỗ trợ quyết định kinh doanh Nhà phân tích dữ liệu thường làm việc trong các lĩnh vực như tiếp thị, tài chính, y tế, giáo dục và nhiều lĩnh vực khác, nơi dữ liệu được coi là một phần quan trọng trong hoạt động kinh doanh và quản lý

3.1.2 Công việc của Data Analyst trong doanh nghiệp

Công việc của Data Analyst đòi hỏi kiến thức về lĩnh vực phân tích dữ liệu, hiểu biết về các công cụ và phương pháp phân tích dữ liệu, và khả năng làm việc với ngôn ngữ lập trình và phần mềm phân tích dữ liệu Ngoài ra, Data Analyst cũng cần có khả năng giao tiếp tốt, tư duy logic và phân tích, cũng như khả năng đưa ra các giải pháp và các quyết định dựa trên thông tin từ dữ liệu

Hình ảnh 3 Quy trình làm việc của Data Analyst

Get Data (Thu thập dữ liệu) : Thu thập dữ liệu từ nhiều nguông khác nhau như cơ

sở dữ liệu, đám mây, tập tin Excel và các hệ thống thông tin khác

Analyze (Xử lý và chuẩn hóa dữ liệu) : Xử lý và chuẩn hóa dữ liệu để đảm báo tính nhất quán và chính xác Điều này bao gồm việc xóa dữ liệu trùng lặp, điền các giá trị bị thiếu và kiểm tra toàn vẹn của dữ liệu

Visualize ( Phân tích dữ liệu): Sử dụng các công cụ và phương pháp phân tích để tìm hiểu và khám phá mô hình, xu hướng và thông tin tiềm năng từ dữ liệu

Publish (Thông báo ra báo cáo và đề xuất) : Dựa trên kết quả phân tích dữ liệu để tạo ra báo cáo và đề xuất giúp các bộ phận quản lý và nhóm thực hiện công việc đưa ra

Trang 16

quyết định Báo cáo có thể được trình bày dưới dạng biểu đổ, đồ thị hoặc thông tin tài liệu

Consume (Theo dõi và đánh giá hiệu suất) : Theo dõi và đánh giá hiệu quả của các chiến dịch , sản phẩm hoặc dự án đã thu thập và thông tin phân tích Họ giúp xác định các chỉ số hiệu suất, đưa ra đề xuất để cải thiện và tối ưu hóa kết quả

3.2 Công cụ xử lý dữ liệu Visual Studio 2019

3.2.1 Khái niệm Visual Studio

Visual Studio là một hệ thống bao gồm tất cả những gì có liên quan đến phát triển ứng dụng như trình chỉnh sửa mã, thiết kế, gỡ lỗi, viết code hay chỉnh sửa thiết kế, ứng dụng dụng một cách dễ dàng và nhanh chóng Đây có thể là một phần mềm hỗ trợ đắc lực đối với dân lập trình trong việc lập trình website Visual Studio cho phép người dùng có khả năng thiết kế và trải nghiệm giao diện như khi phát triển ứng dụng

Visual Studio 2019 hỗ trợ sử dụng trên nhiều nền tảng khác nhau

Hình ảnh 4 Phần mềm Visual Studio

3.2.2 Đặc điểm nổi bật của Visual Studio

Visual Studio là một công cụ rất hữu ích cho các chuyên gia phân tích dữ liệu và các nhà quản lý dữ liệu trong việc chuẩn bị dữ liệu trước khi phân tích và trực quan hóa trong Tableau Sau đây là những đặc điểm nổi bật của Visual Studio:

+ Hỗ trợ nhiều ngôn ngữ lập trình : Tính năng này giúp phát hiện bất kỳ lỗi hoặc tham chiếu ngôn ngữ chéo (cross-language reference) nào một cách dễ dàng

+ Tiện ích mở rộng và Hỗ trợ: Các extension hay tiện ích mở rộng của Visual Studio giúp tăng tốc quá trình phát triển ứng dụng mà không ảnh hưởng đến hiệu suất của editor

Trang 17

+ Thiết kế đa dạng: Visual Studio cung cấp một số visual designer để trợ giúp trong việc phát triển các ứng dụng

+ Mapping Designer: Mapping Designer được LINQ to SQL sử dụng để thiết kế mapping giữa các lược đồ thông tin và từ đó các class sẽ đóng gói dữ liệu

+ Data Designer: Data Designer được sử dụng để chỉnh sửa các lược đồ thông tin, cũng như các bảng được viết, khóa chính và khóa ngoại và các ràng buộc (constraint)

3.3 Công cụ trực quan hóa dữ liệu Tableau

3.3.1 Khái niệm Tableau

Tableau là phần mềm hỗ trợ phân tích (Data Analyst) và trực quan hóa dữ liệu (Data Visualization), công cụ được dùng nhiều trong ngành BI (Business Intelligence) Tableau giúp tổng hợp các dữ liệu này từ các dãy số thành những hình ảnh, biểu đồ trực quan, xây dựng các dashboard và các phân tích (Self-services)

Hình ảnh 5 Hình ảnh phần mềm Tableau

3.3.2 Các tính năng nổi bật của Tableau

- Quản lý siêu dữ liệu

- Hỗ trợ phân tích dữ liệu với Big Data

- Dễ dàng xây dựng các Business Dashboard

- Khám phá dữ liệu hoạt động của doanh nghiệp

- Xây dựng các tài liệu về dữ liệu hoạt động (Data Stories)

- Tính năng mô phỏng dữ liệu (Data visualization)

- Phân tích dữ liệu của mạng xã hội

Trang 18

3.3.3 Các loại biểu đồ thường dùng trong Tableau

Bar chart (Biểu đồ dạng thanh): Biểu đồ bar chart là loại biểu đồ thông dụng và phổ biến nhất, được dùng để so sánh giá trị của nhiều mục khác nhau bằng sự chênh lệch

độ dài của các thanh bar Hoặc được dùng để theo dõi sự khác nhau hay sự phát triển của một danh mục theo thời gian

Hình ảnh 6 Minh họa biểu đồ dạng thanh (Bar Chart)

Line chart (Biểu đồ đường): Biểu đồ đường cũng cực kỳ phổ biến trong trực quan hóa dữ liệu Biểu đồ đường được dùng để trực quan hóa dữ liệu theo thời gian, khi số liệu của chúng ta nhiều hoặc liên tục

Trang 19

Pie chart (biểu đồ tròn/ biểu đồ bánh): Trông như miếng bánh pizza được chia nhỏ

ra vậy Biểu đồ này biểu thị dữ liệu dưới dạng từng phần của hình tròn với các kích thước, màu sắc khác nhau Các phần được gán nhãn và số liệu tương ứng với mỗi phần cũng có thể hiển thị trong biểu đồ như mình mong muốn

Hình ảnh 8 Minh họa biểu đồ hình tròn (Pie Chart)

Biểu đồ pareto: Pareto là một loại biểu đồ có bao gồm các cột và các đường thẳng trong đó các giá trị độc lập được biểu diễn bằng những hình cột có thứ tự thấp dần, còn các giá trị tổng tích lũy được biểu diễn bằng đường thẳng Mục đích của biểu đồ này là tìm ra trong một nhóm các nguyên nhân đâu là nguyên nhân quan trọng nhất

Hình ảnh 9 Minh họa biểu đồ Pareto

Donut chart: donut chart là một kiểu biến thể của pie chart chúng ta có thể dễ dàng tạo ra biểu đồ donut khi đã hoàn thành xong pie chart

Trang 20

Hình ảnh 10 Minh họa biểu đồ Donut Chart

Dumbbell chart: Dumbbell chart được xem như là DNA chart hoặc biểu đồ kết nối giữa các điểm là một lựa chọn để minh họa sự thay đổi giữa hai điểm dữ liệu

Hình ảnh 11 Minh họa biểu đồ Dumbbell Chart

Gantt chart: Gantt chart thường được sử dụng để biểu diễn một lịch trình của dự

án hoặc để hiển thị thời gian của các sự kiện, hoạt động theo thời gian

Trang 21

3.4 Lý thuyết về xây dựng kho dữ liệu

3.4.1 Các khái niệm cơ bản về kho dữ liệu

3.4.1.1 Kho dữ liệu - Data Warehouse

Kho dữ liệu (Data Warehouse - DW) là một bộ sưu tập các cơ sở dữ liệu tích hợp theo hướng chủ đề, được thiết kế để hỗ trợ chức năng hỗ trợ quyết định, trong đó mỗi đơn

vị dữ liệu liên quan đến một khoảng thời gian cụ thể

Công nghệ "Kho dữ liệu" (Data Warehouse Technology) bao gồm các phương pháp, kỹ thuật và công cụ có thể kết hợp và hỗ trợ lẫn nhau để cung cấp thông tin cho người sử dụng từ nhiều nguồn dữ liệu và môi trường khác nhau (theo John Ladley)

Công nghệ Kho dữ liệu được phát triển để đáp ứng các yêu cầu thông tin của người sử dụng và hỗ trợ nhân viên tổ chức thực hiện công việc một cách hiệu quả và hiệu quả, từ việc đưa ra quyết định hợp lý và nhanh chóng cho đến tăng doanh số bán hàng, tăng năng suất sản xuất, và tăng lợi nhuận Ngoài ra, Kho dữ liệu giúp tổ chức xác định, quản lý và điều hành dự án và nghiệp vụ một cách chính xác và hiệu quả Nó cũng tích hợp dữ liệu và siêu dữ liệu từ nhiều nguồn khác nhau

Kho dữ liệu thường có kích thước lớn, từ hàng trăm gigabyte đến thậm chí hàng terabyte Kho dữ liệu được xây dựng để thuận tiện cho việc truy cập từ nhiều nguồn và các loại dữ liệu khác nhau, nhằm kết hợp ứng dụng của các công nghệ hiện đại và kế thừa

từ các hệ thống có sẵn trước đó

3.4.1.2 Đặc tính của kho dữ liệu

Hướng chủ đề: Trong việc quản lý dữ liệu tập trung vào việc tổ chức, lưu trữ và xử

lý dữ liệu theo từng chủ đề cụ thể Điều này giúp dễ dàng xác định thông tin cần thiết cho từng hoạt động Dữ liệu của mỗi chủ đề trong tổ chức được kết nối với các khóa đại diện

và được lưu trữ tại cùng một vị trí

Khả năng tích hợp: Kho dữ liệu có khả năng tích hợp dữ liệu từ nhiều nguồn khác nhau như cơ sở dữ liệu quan hệ, hệ thống tập tin, ứng dụng bên ngoài, dữ liệu từ các hệ thống giao dịch, vv Điều này cho phép tổng hợp dữ liệu từ các nguồn khác nhau và tạo

ra một tập dữ liệu toàn diện

Chuẩn hóa dữ liệu: Kho dữ liệu thường áp dụng quy trình chuẩn hóa dữ liệu để đảm bảo tính nhất quán và đồng nhất của dữ liệu Quá trình chuẩn hóa bao gồm việc loại

bỏ dữ liệu trùng lặp, xử lý dữ liệu thiếu và điều chỉnh định dạng dữ liệu để đáp ứng các yêu cầu phân tích

Trang 22

Khả năng lưu trữ lớn: Kho dữ liệu được thiết kế để lưu trữ lượng lớn dữ liệu Thông thường, nó sử dụng các phương pháp lưu trữ tối ưu hóa để đảm bảo việc truy xuất

dữ liệu hiệu quả và tốc độ xử lý cao

Khả năng truy vấn phức tạp: Kho dữ liệu hỗ trợ các truy vấn phức tạp và phân tích

dữ liệu Nó cung cấp các công cụ và khả năng để thực hiện các truy vấn phức tạp như truy vấn OLAP (Online Analytical Processing) để phân tích dữ liệu theo nhiều góc độ khác nhau

Tính cập nhật thường xuyên: Kho dữ liệu thường được cập nhật thường xuyên từ các nguồn dữ liệu khác nhau Các quá trình ETL (Extract, Transform, Load) được sử dụng để trích xuất dữ liệu từ các nguồn, biến đổi và chuẩn hóa dữ liệu, sau đó tải vào kho

dữ liệu

Hỗ trợ phân tích quy mô lớn: Kho dữ liệu cung cấp khả năng để xử lý và phân tích quy mô lớn dữ liệu Nó hỗ trợ việc thực hiện các phân tích phức tạp như khai phá dữ liệu, phân tích đa chiều, dự đoán và khám phá tri thức

Bảo mật và quản lý dữ liệu: Kho dữ liệu có các chính sách bảo mật và quản lý dữ liệu để đảm bảo tính bảo mật, riêng tư và tuân thủ quy định Các biện pháp bảo mật như

mã hóa, kiểm soát truy cập và giám sát được thực hiện để bảo vệ dữ liệu trong kho dữ liệu

Tính thời gian cụ thể: của kho dữ liệu cho phép lưu trữ một khối lượng lớn dữ liệu lịch sử Dữ liệu được lưu trữ dưới dạng các bản sao, mỗi bản sao tương ứng với giá trị của dữ liệu tại một thời điểm nhất định, mang lại một cái nhìn về một chủ đề trong một giai đoạn cụ thể Do đó, kho dữ liệu cho phép khôi phục dữ liệu lịch sử và so sánh các giai đoạn khác nhau một cách chính xác Yếu tố thời gian đóng vai trò như một phần của khóa để đảm bảo tính duy nhất của mỗi bản ghi và cung cấp thông tin về thời gian cho dữ liệu Dữ liệu trong kho dữ liệu không cần phải chính xác tại thời điểm truy cập, mà chỉ cần có hiệu lực trong một khoảng thời gian nhất định, thường là từ 5 đến 10 năm hoặc lâu hơn Dữ liệu từ hệ thống quản lý cơ sở dữ liệu tác nghiệp thường trở thành dữ liệu lịch sử sau một thời gian nhất định và được chuyển vào kho dữ liệu Điều này đảm bảo sự lưu trữ hợp lý của dữ liệu theo các chủ đề cần thiết

3.4.1.3 Các yêu cầu chức năng của kho dữ liệu

Khả năng mở rộng: Kho dữ liệu có thể mở rộng để lưu trữ và quản lý một số lượng lớn giao dịch và dữ liệu tổng hợp Nó có thể linh hoạt mở rộng theo thời gian, thêm

Trang 23

dữ liệu mới hoặc giữ lại dữ liệu lịch sử trong một khoảng thời gian dài mà không gặp vấn

đề về tải trọng, và vẫn duy trì tính ổn định của hoạt động

Khả năng quản trị: Kho dữ liệu có khả năng quản trị để đưa ra các quyết định liên quan

Khả năng sẵn sàng: Kho dữ liệu luôn sẵn sàng sử dụng bất kể lúc nào cần thiết Khả năng mở rộng: Kho dữ liệu dễ dàng mở rộng khi thêm các loại dữ liệu mới,

3.4.1.4 Kho dữ liệu cục bộ - Data Mart

Kho dữ liệu cục bộ (Data Mart - DM) là một hình thức cơ sở dữ liệu có các đặc điểm tương tự như kho dữ liệu chung (Data Warehouse - DW), nhưng quy mô nhỏ hơn

và lưu trữ dữ liệu về một lĩnh vực hoặc một ngành nghề cụ thể Datamart được tập trung vào một chủ đề cụ thể Có thể tạo ra Datamart từ một phần dữ liệu trong kho dữ liệu hoặc xây dựng một Data Mart độc lập Sau khi xây dựng, các Datamart có thể được kết nối và tích hợp lại với nhau để tạo thành kho dữ liệu Do đó, có thể xây dựng một kho dữ liệu bằng cách xây dựng các Datamart hoặc ngược lại

Data Mart (DM) là một hình thức kho dữ liệu phụ cấp, tích hợp dữ liệu từ Data Warehouse Datamart tập trung vào một phần của dữ liệu được gọi là một vùng chủ đề (Subject Area - SA), được tạo ra và phục vụ cho một nhóm người sử dụng cụ thể Dữ liệu trong Data Mart cung cấp thông tin về một chủ đề cụ thể, không phải về toàn bộ hoạt động kinh doanh của tổ chức Thường thì Datamart được triển khai như là một kho dữ liệu riêng biệt về mặt vật lý, được lưu trữ trên một máy chủ riêng, trong một mạng cục bộ phục vụ cho một nhóm người dùng nhất định Đôi khi Datamart đơn giản bằng cách sử dụng công nghệ OLAP để tạo ra các cấu trúc dữ liệu đặc biệt dưới dạng sao hoặc siêu khối (hypercube) để phân tích dữ liệu cho một nhóm người có cùng quan tâm trên một

Trang 24

phạm vi dữ liệu cụ thể Datamart có thể chia thành hai loại: Data Mart độc lập và Data Mart phụ thuộc

Các cách tiếp cận để xây dựng Data Mart:

- Top-Down: Data mart được tạo từ data warehouse có trước

- Bottom-Up: Data marts được tạo đầu tiên, sau đó kết hợp chúng lại thành data warehouse

3.4.2 Các loại dữ liệu trong Data Warehouse

3.4.2.1 Dữ liệu nghiệp vụ

Dữ liệu nghiệp vụ (Business data - BD) là thông tin được sử dụng để điều hành và quản lý một doanh nghiệp hoặc tổ chức Nó phản ánh các hoạt động của doanh nghiệp và các yếu tố thực tế như khách hàng, địa điểm, sản phẩm, v.v Dữ liệu nghiệp vụ được tạo

ra và sử dụng bởi các hệ thống xử lý giao dịch và hệ thống hỗ trợ quyết định

3.4.2.2 Siêu dữ liệu (Metadata)

Siêu dữ liệu (Metadata) là thông tin về dữ liệu được sử dụng trong Hệ thống Data Warehouse (DW) Nó cung cấp câu trả lời cho các câu hỏi như ai, cái gì, khi nào, tại sao

và như thế nào về dữ liệu Siêu dữ liệu được sử dụng để xây dựng, duy trì, quản lý và sử dụng DW Siêu dữ liệu là một phần quan trọng của DW

Siêu dữ liệu nghiệp vụ (Business Metadata): Chứa thông tin giúp người sử dụng hiểu dễ dàng ngữ cảnh của thông tin được lưu trữ trong DW

Siêu dữ liệu kĩ thuật (Technical Metadata): Chứa thông tin về dữ liệu trong DW từ các nhà thiết kế và quản trị viên trong quá trình phát triển và quản lý

Siêu dữ liệu tác nghiệp (Operational Metadata): Siêu dữ liệu này hỗ trợ trực tiếp cho người sử dụng để họ có thể hiểu nội dung và tìm kiếm dữ liệu cần thiết Tuy nhiên, khả năng kết hợp dữ liệu trích xuất và siêu dữ liệu trong thực tế còn hạn chế, do đó cần phát triển giao diện sử dụng siêu dữ liệu cho người dùng

Siêu dữ liệu xác định nội dung và vị trí của dữ liệu trong DW, quan hệ giữa cơ sở

dữ liệu tác nghiệp và DW, và các khung nhìn dữ liệu của DW có thể truy cập được bởi công cụ của người dùng cuối Người dùng cuối cần sử dụng siêu dữ liệu khi cần thông tin

về định nghĩa dữ liệu hoặc các vùng chủ thể Tất cả các thành phần của DW đều phụ thuộc và có thể truy xuất dữ liệu từ siêu dữ liệu Siêu dữ liệu được lưu trữ trong khu vực

Trang 25

3.4.3 Thiết kế kho dữ liệu

3.4.3.1 Các giai đoạn thiết kế kho dữ liệu

Mô hình nghiệp vụ: Phân tích các định hướng chiến lược nhằm đề ra các quy trình nghiệp vụ cần thực hiện trong kho dữ liệu Các yêu cầu nghiệp vụ được phân tích, xác định và tài liệu hóa thành đơn vị đo và chiều nghiệp vụ (business measures và business dimensions) cho mỗi quy trình nghiệp vụ

Mô hình logic: Sử dụng kỹ thuật đồ họa để biểu diễn các định nghĩa, đặc điểm và mối quan hệ của dữ liệu trong nghiệp vụ hoặc khái niệm chuyên môn, nhằm mô tả hệ thống cho người sử dụng cuối Thông thường, phương pháp này tuân theo chuẩn 3NF

Mô hình nghiệp vụ được chuyển thành mô hình Dimensional, bằng cách liên kết các bảng và định nghĩa thuộc tính của chúng, xây dựng các lược đồ và xác định nguồn của kho dữ liệu

Mô hình Dimensional được chuyển thành mô hình vật lý, bao gồm khai báo định nghĩa kiểu dữ liệu của các thuộc tính, dự tính kích thước, chiến lược tạo chỉ mục (index)

và lưu trữ dữ liệu

3.4.3.2 Mô hình dữ liệu

Mô hình kho dữ liệu (DW) được tạo ra từ một mô hình dữ liệu tổng thể

(Enterprise Data Model - EDM) Một EDM là một tài liệu tổng quan mà các mô hình khác có thể dựa vào Nó được tổ chức thành các khu vực theo chủ đề, gọi là Subject Area (SA), là phần chính để phân chia và đáp ứng các yêu cầu của người sử dụng Nếu một tổ chức không có EDM phù hợp, có thể tiếp tục sử dụng và bổ sung SA từ EDM hiện có

Để bắt đầu thiết lập một mô hình, cần xem xét tầm nhìn hiện tại và trong tương lai Tầm nhìn hiện tại liên quan đến việc mô tả và hiểu các dữ liệu được lưu trữ trong các hệ thống hiện có (nguồn dữ liệu) Nếu các hệ thống nguồn đang không ổn định, công việc cần được tiếp tục để đảm bảo tính ổn định

Mô hình dữ liệu DW tập trung vào chủ đề, phụ thuộc vào các yêu cầu nghiệp vụ

và các vấn đề xuất hiện Mô hình dữ liệu DW có thể được thiết kế theo các phương pháp sau:

- Sơ đồ hình sao (Star Schema)

- Sơ đồ tuyết rơi (Snowflake)

- Mô hình đa chiều (Multiple Dimension)

Trang 26

➢ Sơ đồ hình sao (Star Schema)

Sơ đồ ngôi sao là mô hình đơn giản nhất được sử dụng trong DWH Bởi vì bảng fact là trung tâm của mô hình với các bảng dimension xung quanh nó, nó nhìn giống như một ngôi sao Điều này rất rõ ràng khi bảng fact được bao quanh bởi 5 bảng dimension Một biến thể của sơ đồ ngôi sao là sơ đồ con rết (centipede schema), nơi mà bảng fact được bao quanh bởi số lượng lớn các bảng dimension nhỏ Mô hình ngôi sao được sử dụng rộng rãi trong data marts Chúng ta có thể kết hợp chung trong mô hình top-down Chúng ta sẽ phân tích mô hình 2 ngôi sao và kết hợp chúng để tạo ra mô hình đơn giản

Các bảng dimension được sử dụng để mô tả dữ liệu mà chúng ta muốn lưu trữ Ví dụ: một nhà bán lẻ muốn lưu trữ thời gian, cửa hàng, và nhân viên tham gia vào một hoá đơn Mỗi một bảng dimension là một danh mục của chính nó (ngày tháng, nhân viên, cửa hàng) và có thể có một hoặc nhiều thuộc tính (attributes) Với mỗi một cửa hàng, chúng

ta lưu chúng các thông tin như vị trí trong thành phố, vùng miền, tỉnh thành và quốc gia Mỗi một ngày tháng chúng ta lưu năm, tháng, ngày trong tháng, ngày trong tuần…Điều này liên quan đến sự phân cấp của các thuộc tính trong bảng dimension

Bảng Fact chứa dữ liệu mà chúng ta muốn thêm vào reports, tổng hợp trên các giá trị trong các bảng dimension Một bảng fact chỉ có các cột lưu giá trị và các cột khóa ngoại tham chiếu đến bảng dimensions Kết hợp tất cả các khóa ngoại và khoá chính trong bảng fact Ví dụ, một bảng fact có thể lưu trữ một số lượng các hợp đồng và số lượng các nhân viên bán hàng từ các danh sách hợp đồng

Hình ảnh 13 Mô phỏng sơ đồ hình sao (Star Schema)

Điểm mạnh và yếu của mô hình ngôi sao: Có nhiều điểm mạnh của mô hình ngôi

Trang 27

giảm thời gian thực thi Chúng ta có thể tái hiện báo cáo trực tiếp từ hệ thống OLTP, nhúng câu lệnh sẽ phức tạp hơn và có thể ảnh hưởng đến hiệu năng chung của hệ thống

Điểm yếu nhất của mô hình ngôi sau là dư thừa Mỗi bảng dimension lưu trũ tách rời, và đây là nguyên nhân của không chuẩn hoá Trong ví dụ của chúng ta, thành phố thuộc về một vùng hoặc một tỉnh thành, chúng cũng thuộc về một đất nước; chúng ta không lưu trữ mối quan hệ như là một quy tắc của cơ sở dữ liệu, nhưng chúng ta cứ lặp lại nó Nghĩa là chúng ta sẽ tốn nhiều dung lượng ổ đĩa và có rủi ro về toàn vẹn dữ liệu

➢ Sơ đồ tuyết rơi (Snowflake)

Snowflake Schema là sự mở rộng của lược đồ sao trong đó mỗi điểm của ngôi sao bùng nổ thành nhiều điểm hơn Nó được gọi là giản đồ Snowflake vì biểu đồ của giản đồ Snowflake giống với một Snowflake Snowflaking là một phương pháp chuẩn hóa bảng dimension trong lược đồ STAR Khi chúng tôi chuẩn hóa hoàn toàn tất cả các bảng kích thước, cấu trúc kết quả giống như một Snowflake với bảng dữ kiện ở giữa

Snowflaking được sử dụng để phát triển hiệu suất của các truy vấn cụ thể Lược đồ được lập sơ đồ với mỗi dữ kiện được bao quanh bởi các dimension liên quan của nó và những dimension đó có liên quan đến các dimension khác, phân nhánh thành một mô hình Snowflake

Snowflake Schema bao gồm một bảng dữ kiện được liên kết với nhiều bảng

dimension, có thể được liên kết với các bảng dimension khác thông qua mối quan hệ nhiều đối một Các bảng trong Snowflake Schema thường được chuẩn hóa thành dạng chuẩn thứ ba Mỗi bảng dimension thực hiện chính xác một cấp trong hệ thống phân cấp

Một giản đồ hình sao lưu trữ tất cả các thuộc tính cho một dimension vào một bảng không chuẩn hóa Điều này cần nhiều dung lượng đĩa hơn so với một giản đồ

Snowflake chuẩn hóa hơn Snowflaking chuẩn hóa dimension bằng cách di chuyển các thuộc tính có số lượng thấp vào các bảng dimension riêng biệt có liên quan đến bảng dimension cốt lõi bằng cách sử dụng các khóa ngoại Không nên trượt tuyết với mục đích duy nhất là giảm thiểu dung lượng ổ đĩa, vì nó có thể tác động xấu đến hiệu suất truy vấn

Trang 28

Hình ảnh 14 Mô phỏng sơ đồ tuyết rơi Snowflake Schema

Ưu điểm chính của Snowflake Schema là sự phát triển về hiệu suất truy vấn do các yêu cầu lưu trữ đĩa được giảm thiểu và tham gia các bảng tra cứu nhỏ hơn Nó cung cấp khả năng mở rộng lớn hơn trong mối quan hệ qua lại giữa các mức dimension và các thành phần Không dư thừa nên dễ bảo trì hơn

Nhược điểm chính của Snowflake Schema là cần phải có thêm các nỗ lực bảo trì

do số lượng bảng tra cứu ngày càng tăng Nó còn được gọi là giản đồ sao đa sự thật Có nhiều truy vấn phức tạp hơn và do đó, khó hiểu Nhiều bảng hơn tham gia nên thời gian thực hiện truy vấn nhiều hơn

➢ Mô hình đa chiều (Multiple Dimension)

Mô hình đa chiều (Multiple Dimension Model) là một khái niệm được sử dụng trong nhiều lĩnh vực khác nhau như toán học, thống kê, khoa học dữ liệu và học máy Nó

ám chỉ đến một mô hình hoặc hệ thống mà có nhiều chiều dữ liệu đầu vào hoặc đầu ra

Trong ngữ cảnh của học máy, mô hình đa chiều thường đề cập đến mô hình có khả năng xử lý và phân tích dữ liệu có nhiều chiều Mỗi chiều tương ứng với một thuộc tính hoặc đặc trưng của dữ liệu Ví dụ, nếu ta có một bộ dữ liệu gồm thông tin về chiều cao, cân nặng và tuổi của một nhóm người, thì mô hình đa chiều sẽ có khả năng xử lý cả ba thuộc tính này

Mô hình đa chiều trong học máy thường được xây dựng dựa trên các thuật toán phân tích đa biến như phân tích thành phần chính (PCA), hồi quy đa biến, mạng nơ-ron nhiều lớp (MLP) và các mô hình học sâu khác Mục tiêu của mô hình đa chiều là hiểu được mối quan hệ giữa các chiều dữ liệu và tìm ra cấu trúc hoặc thông tin quan trọng trong dữ liệu đó

Ngày đăng: 12/12/2023, 19:45

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w