Kết quả của nghiên cứu có thể mang lại những phân tích sâu sắc về khách hàng và có thể áp dụng cho các công ty khác trong cùng ngành, góp phần vào việc tối ưu hóa quản lý khách hàng và p
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ – ĐẠI HỌC ĐÀ NẴNG
KHOA THỐNG KÊ - TIN HỌC
- -
BÁO CÁO THỰC TẬP NGHỀ NGHIỆP NGÀNH HỆ THỐNG THÔNG TIN QUẢN LÝ CHUYÊN NGÀNH QUẢN TRỊ HỆ THỐNG THÔNG TIN PHÂN TÍCH DỮ LIỆU KHÁCH HÀNG TẠI CÔNG TY TNHH THƯƠNG MẠI VÀ DỊCH VỤ LOGISTIC MINH QUÂN
Đơn vị thực tập : Công ty TNHH Thương mại và Dịch vụ
Logistic Minh Quân
Giảng viên hướng dẫn : TS.Phan Đình Vấn
Trang 2LỜI CẢM ƠN
Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến Công ty TNHH Thương mại và Dịch vụ Logistic Minh Quân đã trao cho chúng em cơ hội thực tập tại đây Qua thời gian làm việc tại công ty, chúng em đã được trải nghiệm và học hỏi rất nhiều về công việc, cách thức làm việc và tương tác với các đồng nghiệp
Đồng thời, chúng em xin chân thành cảm ơn sự hỗ trợ, giúp đỡ và đào tạo của các anh/chị trong đội ngũ nhân viên tại công ty Các anh/chị luôn tận tình giúp đỡ và hướng dẫn chúng em trong quá trình làm việc, giúp chúng em tiếp cận với nhiều kỹ năng mới và cải thiện khả năng làm việc của mình
Cuối cùng, để hoàn thành báo cáo thực tập chúng em cũng xin gửi lời cảm ơn chân thành đến thầy Phan Đình Vấn, giảng viên Khoa Thống Kê - Tin Học – Trường ĐH Kinh
tế Đà Nẵng người đã tận tình hướng dẫn, chỉ bảo chúng em trong suốt quá trình làm báo cáo
Vì kiến thức và kinh nghiệm còn nhiều hạn chế nên trong quá trình thực tập tại Công ty cũng như trong thời gian viết báo cáo sẽ khó tránh khỏi những sai sót, chúng em rất mong các anh chị và thầy cô bỏ qua Bên cạnh đó, chúng em cũng mong sẽ nhận được những đóng góp từ các anh chị tại Công ty và thầy cô để bản thân em có thêm nhiều kinh nghiệm và ngày một hoàn thiện hơn
Chúng em xin chân thành cảm ơn!
Trang 3LỜI CAM ĐOAN
Chúng em xin cam đoan rằng đây là đề tài nghiên cứu của chúng em, có sự hỗ trợ
từ Giáo viên hướng dẫn TS Phan Đình Vấn và chị Nguyễn Thanh Hằng – Công ty
TNHH Thương mai và Dịch vụ Logistic Minh Quân Các nội dung nghiên cứu và kết quả trong đề tài này là hoàn toàn trung thực và chưa từng được ai công bố trong bất cứ công trình nghirn cứu nào trước đây Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính chúng em thu thập từ các nguồn khác nhau ( có ghi trong phần tài liệu tham khảo)
Nếu phát hiện có bất kỳ sự gian lận nào chúng em xin hoàn toàn chịu trách nhiệm trước Hội đồng cũng như kết quả bài báo cáo của mình
Trang 4MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN ii
MỤC LỤC iii
DANH MỤC HÌNH ẢNH v
CHƯƠNG 1: MỞ ĐẦU 1
1.1 Lý do chọn đề tài 1
1.2 Mục tiêu nghiên cứu 2
1.3 Đối tượng nghiên cứu 2
1.4 Phạm vi nghiên cứu 3
1.5 Cấu trúc bài báo cáo 3
CHƯƠNG 2 TỔNG QUAN VỀ ĐƠN VỊ THỰC TẬP 4
2.1 Thông tin về đơn vị thực tập 4
2.2 Sơ lược về sự hình thành và phát triển 5
2.3 Tổ chức và các lĩnh vực hoạt động 5
2.3.1 Mục tiêu hoạt động của Minh Quân Logistic 5
2.3.2 Lĩnh vực hoạt động và ngành nghề kinh doanh của Minh Quân Logistic 5
2.4 Tầm nhìn và Sứ mệnh 6
2.4.1 Tầm nhìn 6
2.4.2 Sứ mệnh 6
2.5 Thông tin về vị trí sinh viên tham gia thực tập 7
CHƯƠNG 3 TỔNG QUAN DATA ANALYST VÀ DATA WAREHOUSE 8
3.1 Giới thiệu về công việc Data Analyst 8
3.1.1 Khái niệm 8
3.1.2 Công việc của Data Analyst trong doanh nghiệp 8
3.2 Công cụ xử lý dữ liệu Visual Studio 2019 9
3.2.1 Khái niệm Visual Studio 9
3.2.2 Đặc điểm nổi bật của Visual Studio 9
3.3 Công cụ trực quan hóa dữ liệu Tableau 10
Trang 53.3.2 Các tính năng nổi bật của Tableau 10
3.3.3 Các loại biểu đồ thường dùng trong Tableau 11
3.4 Lý thuyết về xây dựng kho dữ liệu 14
3.4.1 Các khái niệm cơ bản về kho dữ liệu 14
3.4.1.1 Kho dữ liệu - Data Warehouse 14
3.4.1.2 Đặc tính của kho dữ liệu 14
3.4.1.3 Các yêu cầu chức năng của kho dữ liệu 15
3.4.1.4 Kho dữ liệu cục bộ - Data Mart 16
3.4.2 Các loại dữ liệu trong Data Warehouse 17
3.4.2.1 Dữ liệu nghiệp vụ 17
3.4.2.2 Siêu dữ liệu (Metadata) 17
3.4.3 Thiết kế kho dữ liệu 18
3.4.3.1 Các giai đoạn thiết kế kho dữ liệu 18
3.4.3.2 Mô hình dữ liệu 18
CHƯƠNG 4 TRIỂN KHAI KHO DỮ LIỆU 23
4.1 Thực trạng hiện nay của doanh nghiệp 23
4.1.1 Vấn đề thực tiễn 23
4.1.2 Các hệ thống hiện tại được Công ty sử dụng 24
4.1.3 Quy trình hoạt động 24
4.2 Phân tích bài toán 25
4.2.1 Mô hình hóa các yêu cầu của bài toán 25
4.2.2 Thiết kế Data Warehouse ứng dụng cho lĩnh vực logistic của doanh 29
nghiệp viễn thông 29
4.2.2.1 Chuẩn hóa dữ liệu 29
4.2.2.2 Thiết kế các bảng biểu trong data warehouse 30
4.2.3 Thiết kế một số tính năng phân tích dữ liệu 35
4.2.4 Thiết kế các Cube trong OLAP 38
CHƯƠNG 5: PHÂN TÍCH DỮ LIỆU VÀ XÂY DỰNG MÔ HÌNH KHÁCH HÀNG39 5.1 Phân tích dữ liệu 39
5.2 Data visualization 40
Trang 6TÀI LIỆU THAM KHẢO 48 CHECK LIST CỦA BÁO CÁO 49
Trang 7Hình ảnh 1 Văn phòng làm việc của Công ty TNHH Minh Quân Logistic 4
Hình ảnh 2 Logo Công ty TNHH Thương mại và Dịch vụ Logistic Minh Quân 4
Hình ảnh 3 Quy trình làm việc của Data Analyst 8
Hình ảnh 4 Phần mềm Visual Studio 9
Hình ảnh 5 Hình ảnh phần mềm Tableau 10
Hình ảnh 6 Minh họa biểu đồ dạng thanh (Bar Chart) 11
Hình ảnh 7 Minh họa biểu đồ đường (Line Chart) 11
Hình ảnh 8 Minh họa biểu đồ hình tròn (Pie Chart) 12
Hình ảnh 9 Minh họa biểu đồ Pareto 12
Hình ảnh 10 Minh họa biểu đồ Donut Chart 13
Hình ảnh 11 Minh họa biểu đồ Dumbbell Chart 13
Hình ảnh 12 Minh họa biểu đồ Gantt Chart 13
Hình ảnh 13 Mô phỏng sơ đồ hình sao (Star Schema) 19
Hình ảnh 14 Mô phỏng sơ đồ tuyết rơi Snowflake Schema 21
Hình ảnh 15 Mô phỏng mô hình đa chiều (Multiple Dimension) 22
Hình ảnh 16 Tổng quan về quy trình lấy và phân tích dữ liệu khách hàng 24
Hình ảnh 17 Tổng quan luồng dữ liệu của hệ thống 24
Hình ảnh 18 Tổng quan luồng dữ liệu của hệ thống 29
Hình ảnh 19 Mô hình OLAP CUBE 38
Hình ảnh 20 Thống kê tổng trị giá hóa đơn và thuế của từng loại phương thức vận chuyển theo từng vùng cơ quan hải quan của doanh nghiệp trong tháng 1 năm 2023 40
Hình ảnh 21 Thống kê tổng doanh thu của từng loại phương thức vận chuyển theo từng vùng vị trí của khách hàng xuất khẩu của doanh nghiệp trong tháng 1 năm 2023 41
Hình ảnh 22 Tổng doanh thu của từng phương thức vận chuyển theo khu vực trong tháng 1 năm 2023 42
Hình ảnh 23 Số lượng hàng hóa và chi phí vận chuyển của từng loại phương thức giao hàng theo khu vực 42
Hình ảnh 24 Đo lường mức độ trung thành của khách hàng xuất khẩu đối với doanh nghiệp 43
Hình ảnh 25 Đo lường mức độ trung thành của khách hàng nhập khẩu đối với doanh nghiệp 43
Hình ảnh 26 Đo lường mức độ trung thành của khách hàng nhập khẩu đối với doanh nghiệp 44
Hình ảnh 27 Thống kê phương tiện vận chuyển theo loại hàng hóa vận chuyển và phương thức vận chuyển theo khu vực 44
Trang 8CHƯƠNG 1: MỞ ĐẦU 1.1 Lý do chọn đề tài
Trước hết, công ty TNHH Thương mại và Dịch vụ Logistic Minh Quân hoạt động trong lĩnh vực giao thông vận tải, và hệ thống khách hàng của công ty chứa đựng một lượng lớn dữ liệu về khách hàng Dữ liệu này bao gồm thông tin cá nhân, hành vi tiêu dùng, lịch sử mua hàng và phản hồi khách hàng Qua việc phân tích dữ liệu này, chúng ta
có thể nhận thấy giá trị và quan trọng của việc hiểu rõ hơn về đặc điểm và xu hướng của khách hàng Điều này có thể giúp chúng ta xác định các nhóm khách hàng, sở thích, nhu cầu và hành vi tiêu dùng của họ, từ đó tạo ra những phản hồi và chiến lược kinh doanh phù hợp
Một lợi ích quan trọng khác của việc phân tích dữ liệu hệ thống khách hàng là khả năng tối ưu hóa quản lý khách hàng Bằng cách hiểu rõ hơn về nhóm khách hàng và các yếu tố ảnh hưởng đến hài lòng của khách hàng, chúng ta có thể tăng cường sự tương tác
và xây dựng mối quan hệ lâu dài với khách hàng Việc cải thiện dịch vụ và tương tác khách hàng không chỉ giúp tăng cường sự hài lòng của khách hàng, mà còn đóng góp vào
sự phát triển bền vững và tăng trưởng lâu dài của công ty
Ngoài ra, phân tích dữ liệu hệ thống khách hàng cũng giúp chúng ta tối ưu hóa chiến lược kinh doanh Bằng cách đánh giá hiệu suất kinh doanh hiện tại và định hướng phát triển tương lai, chúng ta có thể xác định các khuynh hướng mua hàng, tiềm năng thị trường và đánh giá sự thành công của các chiến dịch tiếp thị và quảng cáo Việc hiểu rõ
về khách hàng và thị trường giúp chúng ta điều chỉnh chiến lược kinh doanh, tối ưu hóa nguồn lực và đạt được hiệu quả cao hơn trong hoạt động kinh doanh
Đề tài này cũng đóng góp vào nghiên cứu và phát triển trong lĩnh vực quản lý khách hàng Kết quả của nghiên cứu có thể mang lại những phân tích sâu sắc về khách hàng và có thể áp dụng cho các công ty khác trong cùng ngành, góp phần vào việc tối ưu hóa quản lý khách hàng và phát triển kinh doanh
Tổng kết lại, đề tài "Phân tích dữ liệu về hệ thống khách hàng tại Công ty TNHH Thương mại và Dịch vụ Logistic Minh Quân " đáng được nghiên cứu vì tiềm năng mang lại những phân tích sâu sắc về khách hàng và đóng góp vào sự phát triển của công ty cũng như lĩnh vực quản lý khách hàng Việc nghiên cứu đề tài này sẽ giúp chúng ta hiểu
rõ hơn về khách hàng, tối ưu hóa quản lý khách hàng và đạt được hiệu quả cao hơn trong
Trang 91.2 Mục tiêu nghiên cứu
Mục đích của việc nghiên cứu đề tài "Phân tích dữ liệu về hệ thống khách hàng tại Công ty TNHH Thương mại và Dịch vụ Losgictic Minh Quân" là tìm hiểu, phân tích và rút ra những thông tin quan trọng từ dữ liệu về hệ thống khách hàng của công ty Điều này nhằm mục đích cung cấp cái nhìn sâu sắc và hiểu rõ hơn về các khía cạnh khách hàng, từ đó đưa ra các quyết định chiến lược và cải thiện hiệu suất kinh doanh
Một trong những lợi ích chính của việc phân tích dữ liệu về hệ thống khách hàng
là khám phá những đặc điểm và hành vi của khách hàng Bằng cách xem xét các thông tin như độ tuổi, giới tính, địa điểm, lịch sử giao dịch và mô hình tiêu dùng, chúng ta có thể xác định các nhóm khách hàng tiềm năng, nhận diện xu hướng và tìm ra các cơ hội mới Điều này sẽ giúp công ty tối ưu hóa các chiến dịch tiếp thị, đưa ra sản phẩm và dịch
vụ phù hợp với nhu cầu của khách hàng và tăng cường độ hài lòng khách hàng
Ngoài ra, việc phân tích dữ liệu khách hàng cũng giúp công ty đánh giá hiệu quả của các chiến dịch tiếp thị và chăm sóc khách hàng Bằng cách theo dõi các chỉ số khách hàng như tỷ lệ chuyển đổi, lợi nhuận từ khách hàng, độ trung thành và đánh giá phản hồi khách hàng, chúng ta có thể đánh giá được hiệu quả của các hoạt động và điều chỉnh chiến lược kinh doanh để nâng cao hiệu suất
Nghiên cứu này cũng nhằm đảm bảo rằng công ty có sự hiểu biết chính xác về khách hàng và giữ được sự cạnh tranh trong môi trường kinh doanh ngày càng cạnh tranh Bằng cách sử dụng dữ liệu khách hàng, công ty có thể đáp ứng nhu cầu ngày càng đa dạng của khách hàng, tạo ra trải nghiệm tốt hơn và xây dựng mối quan hệ lâu dài với khách hàng
Tổng kết lại, mục đích của việc nghiên cứu "Phân tích dữ liệu về hệ thống khách hàng tại Công ty TNHH Thương mại và Dịch vụ Losgictic Minh Quân " là khám phá, hiểu và tận dụng thông tin từ dữ liệu khách hàng để cải thiện hiệu suất kinh doanh, tối ưu hóa chiến dịch tiếp thị và tạo ra giá trị cho khách hàng Qua đó, công ty có thể duy trì và phát triển mối quan hệ bền vững với khách hàng trong một thị trường kinh doanh ngày tháng càng cạnh tranh
1.3 Đối tượng nghiên cứu
Để tiến hành phân tóc dữ liệu về hệ thống khách hàng, xây dựng mô hình dự đoán lượng khách hàng sẽ rời bỏ dựa trên các chỉ số và yếu tố quan trọng để thực hiện đánh giá
và cải thiện trải nghiệm khách hàng thông qua phân tích hành vi và phản hồi khách hàng
Trang 10của Công ty TNHH Thương mại và Dịch vụ Losgictic Minh Quân Đối tượng nghiên cứu chính là bộ dữ liệu cơ sở khách hàng
Ngoài ra, tìm hiểu về việc xác định tiềm năng khách hàng mới cho công ty bằng cách tạo ra các mô hình dự đoán dựa trên dữ liệu hiện có và thông tin liên quan, họ có thể ước tính tiềm năng của các khách hàng tiềm năng, đóng góp cho công ty trong việc xây dựng chiến lược tiếp thị và phát triển kinh doanh
Cuối cùng, thực hiện tối ưu hóa chiến dịch tiếp thị của công ty bằng cách đánh giá hiệu quả của các chiến dịch tiếp thị hiện tại và phân tích dữ liệu khách hàng, thực tập sinh
có thể đưa ra các khuyến nghị và cải tiến để tăng cường tương tác và tạo ra doanh số bán hàng tốt hơn
Phạm vi thời gian nghiên cứu: Kỳ hè năm học 2022 - 2023 từ ngày 19 tháng 06 năm 2023 đến ngày 19 tháng 08 nam 2023
1.5 Cấu trúc bài báo cáo
Chương 1: Mở đầu
Chương 2: Giới thiệu chung về công ty thực tập
Chương 3: Cơ sở lý thuyết
Chương 4: Triển khai kho dữ liệu
Chương 5: Phân tích dữ liệu và xây dựng mô hình khách hàng
Chương 6: Kết luận và hướng phát triển đề tài
Trang 11CHƯƠNG 2 TỔNG QUAN VỀ ĐƠN VỊ THỰC TẬP 2.1 Thông tin về đơn vị thực tập
- Tên công ty: Công ty TNHH Thương Mại và Dịch Vụ Logistic Minh Quân
- Tên quốc tế: Minh Quan Logistic Trading and Services Company Limited
- Tên viết tắt: MINH QUAN LOGISTICS CO., LTD
- Quản lý bởi: Chi cục Thuế khu vực Ngô Quyền - Hải An
- Loại hình DN: Công ty trách nhiệm hữu hạn 2 thành viên trở lên ngoài NN
- Tình trạng: Đang hoạt động (đã được cấp GCN ĐKT)
Hình ảnh 1 Văn phòng làm việc của Công ty TNHH Minh Quân Logistic
Trang 122.2 Sơ lược về sự hình thành và phát triển
Thành lập Minh Quan Logistic Co.,LTD vào ngày 31 tháng 08 năm 2022 Công ty TNHH thương mại và dịch vụ logistic Minh Quân là chuyên gia hàng đầu Việt Nam về quản lý chuỗi cung ứng và là nhà cung cấp dịch vụ hầu cần hàng đầu Việt Nam trong lĩnh vực hậu cần ô tô, hậu cần hàng dễ hư hỏng, xuyên biên giới và dịch vụ kho bãi Minh Quân Logistic cung cấp các dịch vụ tích hợp đầy đủ và trọn gói Minh Quân Logistic thiết kế các giải pháp hậu cần thông minh và khả thi cho từng yêu cầu của khách hàng
2.3 Tổ chức và các lĩnh vực hoạt động
2.3.1 Mục tiêu hoạt động của Minh Quân Logistic
Trở thành một trong những công ty hậu cần hàng đầu Việt Nam bằng cách cung cấp cho khách hàng các dịch vụ giá trị gia tăng cao nhằm tạo ra lợi ích bền vứng cho khách hàng, nhân viên và cổ đông
Đồng thời, cố gắng duy trì tốc độ cao và sự linh hoạt để thích ứng với những thay đổi trong môi trường kinh doanh
2.3.2 Lĩnh vực hoạt động và ngành nghề kinh doanh của Minh Quân Logistic
- Bán buôn ô tô và xe có động cơ khác
- Đại lý, môi giới, đấu giá
- Bán buôn nông , lâm sản , nguyên liệu ( trừ gỗ, tre, nứa) và động vật sống
- Bán buôn thực phẩm
- Bán buôn vải, hàng may sẵn, giày dép
- Bán buôn đồ dùng khác cho gia đình
- Bán lẻ hàng hóa khác mới trong các cửa hàng chuyên doanh
- Vận tải hàng hóa đường sắt ( trừ hóa lỏng khí để vận chuyển )
- Vận tải hàng hóa bằng đường bộ (trừ hóa lỏng khí để vận chuyển)
- Kho bãi và lưu giữ hàng hóa
- Bốc xếp hàng hóa ( trừ bốc xếp hàng hóa cảng hàng không)
- Hoạt động dịch vụ hỗ trợ trực tiếp cho vận tải đường bộ (trừ hóa lỏng khí để vận chuyển)
- Hoạt động dịch vụ khác liên quan đến vận tải
- Lập trình máy tính ( sản xuất phần mềm )
- Quảng cáo
- …
Trang 132.4 Tầm nhìn và Sứ mệnh
2.4.1 Tầm nhìn
Trở thành một trong những công ty logistics hàng đầu tròn lĩnh vực vận chuyển hàng hóa và logistics Công ty hướng đến việc cung cấp các dịch vụ vượt trội và tạo ra giá trị bền vững cho cả khách hàng và đối tác
Xây dựng mạng lưới toàn cầu, có khả năng phục vụ khách hàng trên mọi quy mô
và ngành nghề Công ty muốn trở thành đối tác đáng tin cậy trong việc giải quyết những yêu cầu phức tạp của khách hàng
Tiếp tục đổi mới và áp dụng công nghệ tiên tiến để nâng cao hiệu quả và tối ưu hóa quá trình chuyển giao công trình Duy trì và phát triển một môi trường làm việc sáng tạo và đội ngũ nhân viên tài năng
Tạo một môi trường đối tác lâu dài và tin tưởng với khách hàng, đối tác và nhà cung cấp
2.4.2 Sứ mệnh
Cung cấp dịch vụ chất lượng: Chúng tôi cam kết mang đến cho khách hàng các dịch vụ vận chuyển hàng hóa và hậu cần chất lượng cao, đảm bảo an toàn và đáp ứng các yêu cầu đặc thù của từng ngành và khu vực Chúng tôi luôn nỗ lực để cải thiện quy trình thiện chí, đào tạo nhân viên và áp dụng công nghệ tiên tiến mang lại sự hài lòng và tin tưởng của khách hàng
Đổi mới và sáng tạo: Chúng tôi tận dụng khả năng triển vọng của công nghệ và đổi mới để cung cấp giải pháp chuyển đổi khí hậu và hậu cần tiên tiến, hiệu quả và bền vững Chúng tôi đang tìm kiếm cách thức mới để tối ưu hóa hoạt động, áp dụng công nghệ thông minh và phát triển các dịch vụ tiên tiến để giúp khách hàng nâng cao hiệu quả
và cạnh tranh trong thị trường
Tạo điều kiện cho tăng trưởng và phát triển bền vững: Sứ mệnh của chúng tôi là không chỉ cung cấp dịch vụ vận chuyển và hậu cần tốt nhất, mà còn tạo điều kiện cho khách hàng và đối tác phát triển bền vững Chúng tôi hỗ trợ khách hàng trong tối đa hóa giá trị kinh doanh, tăng độ tin cậy và giảm thiểu rủi ro
Bảo vệ môi trường: Chúng tôi cam kết hành động có trách nhiệm với môi trường
Sứ mệnh của chúng tôi là giảm thiểu tác động tiêu cực lên môi trường thông qua việc áp dụng các giải pháp xanh, sử dụng phương tiện tiện lợi chuyển đổi bền vững và kết thúc
mô hình hoạt động có trách nhiệm
Trang 142.5 Thông tin về vị trí sinh viên tham gia thực tập
- Vị trí thực tập: Data Analyst tại Công ty TNHH thương mại và dịch vụ logistic Minh Quân
- Đặc điểm: Xây dựng biểu đồ báo cáo doanh nghiệp
- Yêu cầu:
+ Có kiến thức cơ bản về Excel, SQL, Python, Data Visualization
+ Có kiến thức thống kê, kỹ năng viết và giao tiếp
+ Kiến thức cơ bản về Machine Learning, Deep learning
Trang 15CHƯƠNG 3 TỔNG QUAN DATA ANALYST VÀ DATA WAREHOUSE 3.1 Giới thiệu về công việc Data Analyst
3.1.1 Khái niệm
Data Analyst ( Chuyên viên phân tích dữ liệu ) là người sẽ chịu trách nhiệm thu thập, phân tích và đưa ra các thông tin và hiểu biết quan trọng từ dữ liệu Công việc của một Nhà phân tích dữ liệu là tìm hiểu và hiểu biết về dữ liệu từ nhiều nguồn khác nhau,
sử dụng các công cụ và kỹ thuật phân tích dữ liệu, và tạo ra các báo cáo và đề xuất dựa trên kết quả phân tích để phân tích Hỗ trợ quyết định kinh doanh Nhà phân tích dữ liệu thường làm việc trong các lĩnh vực như tiếp thị, tài chính, y tế, giáo dục và nhiều lĩnh vực khác, nơi dữ liệu được coi là một phần quan trọng trong hoạt động kinh doanh và quản lý
3.1.2 Công việc của Data Analyst trong doanh nghiệp
Công việc của Data Analyst đòi hỏi kiến thức về lĩnh vực phân tích dữ liệu, hiểu biết về các công cụ và phương pháp phân tích dữ liệu, và khả năng làm việc với ngôn ngữ lập trình và phần mềm phân tích dữ liệu Ngoài ra, Data Analyst cũng cần có khả năng giao tiếp tốt, tư duy logic và phân tích, cũng như khả năng đưa ra các giải pháp và các quyết định dựa trên thông tin từ dữ liệu
Hình ảnh 3 Quy trình làm việc của Data Analyst
Get Data (Thu thập dữ liệu) : Thu thập dữ liệu từ nhiều nguông khác nhau như cơ
sở dữ liệu, đám mây, tập tin Excel và các hệ thống thông tin khác
Analyze (Xử lý và chuẩn hóa dữ liệu) : Xử lý và chuẩn hóa dữ liệu để đảm báo tính nhất quán và chính xác Điều này bao gồm việc xóa dữ liệu trùng lặp, điền các giá trị bị thiếu và kiểm tra toàn vẹn của dữ liệu
Visualize ( Phân tích dữ liệu): Sử dụng các công cụ và phương pháp phân tích để tìm hiểu và khám phá mô hình, xu hướng và thông tin tiềm năng từ dữ liệu
Publish (Thông báo ra báo cáo và đề xuất) : Dựa trên kết quả phân tích dữ liệu để tạo ra báo cáo và đề xuất giúp các bộ phận quản lý và nhóm thực hiện công việc đưa ra
Trang 16quyết định Báo cáo có thể được trình bày dưới dạng biểu đổ, đồ thị hoặc thông tin tài liệu
Consume (Theo dõi và đánh giá hiệu suất) : Theo dõi và đánh giá hiệu quả của các chiến dịch , sản phẩm hoặc dự án đã thu thập và thông tin phân tích Họ giúp xác định các chỉ số hiệu suất, đưa ra đề xuất để cải thiện và tối ưu hóa kết quả
3.2 Công cụ xử lý dữ liệu Visual Studio 2019
3.2.1 Khái niệm Visual Studio
Visual Studio là một hệ thống bao gồm tất cả những gì có liên quan đến phát triển ứng dụng như trình chỉnh sửa mã, thiết kế, gỡ lỗi, viết code hay chỉnh sửa thiết kế, ứng dụng dụng một cách dễ dàng và nhanh chóng Đây có thể là một phần mềm hỗ trợ đắc lực đối với dân lập trình trong việc lập trình website Visual Studio cho phép người dùng có khả năng thiết kế và trải nghiệm giao diện như khi phát triển ứng dụng
Visual Studio 2019 hỗ trợ sử dụng trên nhiều nền tảng khác nhau
Hình ảnh 4 Phần mềm Visual Studio
3.2.2 Đặc điểm nổi bật của Visual Studio
Visual Studio là một công cụ rất hữu ích cho các chuyên gia phân tích dữ liệu và các nhà quản lý dữ liệu trong việc chuẩn bị dữ liệu trước khi phân tích và trực quan hóa trong Tableau Sau đây là những đặc điểm nổi bật của Visual Studio:
+ Hỗ trợ nhiều ngôn ngữ lập trình : Tính năng này giúp phát hiện bất kỳ lỗi hoặc tham chiếu ngôn ngữ chéo (cross-language reference) nào một cách dễ dàng
+ Tiện ích mở rộng và Hỗ trợ: Các extension hay tiện ích mở rộng của Visual Studio giúp tăng tốc quá trình phát triển ứng dụng mà không ảnh hưởng đến hiệu suất của editor
Trang 17+ Thiết kế đa dạng: Visual Studio cung cấp một số visual designer để trợ giúp trong việc phát triển các ứng dụng
+ Mapping Designer: Mapping Designer được LINQ to SQL sử dụng để thiết kế mapping giữa các lược đồ thông tin và từ đó các class sẽ đóng gói dữ liệu
+ Data Designer: Data Designer được sử dụng để chỉnh sửa các lược đồ thông tin, cũng như các bảng được viết, khóa chính và khóa ngoại và các ràng buộc (constraint)
3.3 Công cụ trực quan hóa dữ liệu Tableau
3.3.1 Khái niệm Tableau
Tableau là phần mềm hỗ trợ phân tích (Data Analyst) và trực quan hóa dữ liệu (Data Visualization), công cụ được dùng nhiều trong ngành BI (Business Intelligence) Tableau giúp tổng hợp các dữ liệu này từ các dãy số thành những hình ảnh, biểu đồ trực quan, xây dựng các dashboard và các phân tích (Self-services)
Hình ảnh 5 Hình ảnh phần mềm Tableau
3.3.2 Các tính năng nổi bật của Tableau
- Quản lý siêu dữ liệu
- Hỗ trợ phân tích dữ liệu với Big Data
- Dễ dàng xây dựng các Business Dashboard
- Khám phá dữ liệu hoạt động của doanh nghiệp
- Xây dựng các tài liệu về dữ liệu hoạt động (Data Stories)
- Tính năng mô phỏng dữ liệu (Data visualization)
- Phân tích dữ liệu của mạng xã hội
Trang 183.3.3 Các loại biểu đồ thường dùng trong Tableau
Bar chart (Biểu đồ dạng thanh): Biểu đồ bar chart là loại biểu đồ thông dụng và phổ biến nhất, được dùng để so sánh giá trị của nhiều mục khác nhau bằng sự chênh lệch
độ dài của các thanh bar Hoặc được dùng để theo dõi sự khác nhau hay sự phát triển của một danh mục theo thời gian
Hình ảnh 6 Minh họa biểu đồ dạng thanh (Bar Chart)
Line chart (Biểu đồ đường): Biểu đồ đường cũng cực kỳ phổ biến trong trực quan hóa dữ liệu Biểu đồ đường được dùng để trực quan hóa dữ liệu theo thời gian, khi số liệu của chúng ta nhiều hoặc liên tục
Trang 19Pie chart (biểu đồ tròn/ biểu đồ bánh): Trông như miếng bánh pizza được chia nhỏ
ra vậy Biểu đồ này biểu thị dữ liệu dưới dạng từng phần của hình tròn với các kích thước, màu sắc khác nhau Các phần được gán nhãn và số liệu tương ứng với mỗi phần cũng có thể hiển thị trong biểu đồ như mình mong muốn
Hình ảnh 8 Minh họa biểu đồ hình tròn (Pie Chart)
Biểu đồ pareto: Pareto là một loại biểu đồ có bao gồm các cột và các đường thẳng trong đó các giá trị độc lập được biểu diễn bằng những hình cột có thứ tự thấp dần, còn các giá trị tổng tích lũy được biểu diễn bằng đường thẳng Mục đích của biểu đồ này là tìm ra trong một nhóm các nguyên nhân đâu là nguyên nhân quan trọng nhất
Hình ảnh 9 Minh họa biểu đồ Pareto
Donut chart: donut chart là một kiểu biến thể của pie chart chúng ta có thể dễ dàng tạo ra biểu đồ donut khi đã hoàn thành xong pie chart
Trang 20Hình ảnh 10 Minh họa biểu đồ Donut Chart
Dumbbell chart: Dumbbell chart được xem như là DNA chart hoặc biểu đồ kết nối giữa các điểm là một lựa chọn để minh họa sự thay đổi giữa hai điểm dữ liệu
Hình ảnh 11 Minh họa biểu đồ Dumbbell Chart
Gantt chart: Gantt chart thường được sử dụng để biểu diễn một lịch trình của dự
án hoặc để hiển thị thời gian của các sự kiện, hoạt động theo thời gian
Trang 213.4 Lý thuyết về xây dựng kho dữ liệu
3.4.1 Các khái niệm cơ bản về kho dữ liệu
3.4.1.1 Kho dữ liệu - Data Warehouse
Kho dữ liệu (Data Warehouse - DW) là một bộ sưu tập các cơ sở dữ liệu tích hợp theo hướng chủ đề, được thiết kế để hỗ trợ chức năng hỗ trợ quyết định, trong đó mỗi đơn
vị dữ liệu liên quan đến một khoảng thời gian cụ thể
Công nghệ "Kho dữ liệu" (Data Warehouse Technology) bao gồm các phương pháp, kỹ thuật và công cụ có thể kết hợp và hỗ trợ lẫn nhau để cung cấp thông tin cho người sử dụng từ nhiều nguồn dữ liệu và môi trường khác nhau (theo John Ladley)
Công nghệ Kho dữ liệu được phát triển để đáp ứng các yêu cầu thông tin của người sử dụng và hỗ trợ nhân viên tổ chức thực hiện công việc một cách hiệu quả và hiệu quả, từ việc đưa ra quyết định hợp lý và nhanh chóng cho đến tăng doanh số bán hàng, tăng năng suất sản xuất, và tăng lợi nhuận Ngoài ra, Kho dữ liệu giúp tổ chức xác định, quản lý và điều hành dự án và nghiệp vụ một cách chính xác và hiệu quả Nó cũng tích hợp dữ liệu và siêu dữ liệu từ nhiều nguồn khác nhau
Kho dữ liệu thường có kích thước lớn, từ hàng trăm gigabyte đến thậm chí hàng terabyte Kho dữ liệu được xây dựng để thuận tiện cho việc truy cập từ nhiều nguồn và các loại dữ liệu khác nhau, nhằm kết hợp ứng dụng của các công nghệ hiện đại và kế thừa
từ các hệ thống có sẵn trước đó
3.4.1.2 Đặc tính của kho dữ liệu
Hướng chủ đề: Trong việc quản lý dữ liệu tập trung vào việc tổ chức, lưu trữ và xử
lý dữ liệu theo từng chủ đề cụ thể Điều này giúp dễ dàng xác định thông tin cần thiết cho từng hoạt động Dữ liệu của mỗi chủ đề trong tổ chức được kết nối với các khóa đại diện
và được lưu trữ tại cùng một vị trí
Khả năng tích hợp: Kho dữ liệu có khả năng tích hợp dữ liệu từ nhiều nguồn khác nhau như cơ sở dữ liệu quan hệ, hệ thống tập tin, ứng dụng bên ngoài, dữ liệu từ các hệ thống giao dịch, vv Điều này cho phép tổng hợp dữ liệu từ các nguồn khác nhau và tạo
ra một tập dữ liệu toàn diện
Chuẩn hóa dữ liệu: Kho dữ liệu thường áp dụng quy trình chuẩn hóa dữ liệu để đảm bảo tính nhất quán và đồng nhất của dữ liệu Quá trình chuẩn hóa bao gồm việc loại
bỏ dữ liệu trùng lặp, xử lý dữ liệu thiếu và điều chỉnh định dạng dữ liệu để đáp ứng các yêu cầu phân tích
Trang 22Khả năng lưu trữ lớn: Kho dữ liệu được thiết kế để lưu trữ lượng lớn dữ liệu Thông thường, nó sử dụng các phương pháp lưu trữ tối ưu hóa để đảm bảo việc truy xuất
dữ liệu hiệu quả và tốc độ xử lý cao
Khả năng truy vấn phức tạp: Kho dữ liệu hỗ trợ các truy vấn phức tạp và phân tích
dữ liệu Nó cung cấp các công cụ và khả năng để thực hiện các truy vấn phức tạp như truy vấn OLAP (Online Analytical Processing) để phân tích dữ liệu theo nhiều góc độ khác nhau
Tính cập nhật thường xuyên: Kho dữ liệu thường được cập nhật thường xuyên từ các nguồn dữ liệu khác nhau Các quá trình ETL (Extract, Transform, Load) được sử dụng để trích xuất dữ liệu từ các nguồn, biến đổi và chuẩn hóa dữ liệu, sau đó tải vào kho
dữ liệu
Hỗ trợ phân tích quy mô lớn: Kho dữ liệu cung cấp khả năng để xử lý và phân tích quy mô lớn dữ liệu Nó hỗ trợ việc thực hiện các phân tích phức tạp như khai phá dữ liệu, phân tích đa chiều, dự đoán và khám phá tri thức
Bảo mật và quản lý dữ liệu: Kho dữ liệu có các chính sách bảo mật và quản lý dữ liệu để đảm bảo tính bảo mật, riêng tư và tuân thủ quy định Các biện pháp bảo mật như
mã hóa, kiểm soát truy cập và giám sát được thực hiện để bảo vệ dữ liệu trong kho dữ liệu
Tính thời gian cụ thể: của kho dữ liệu cho phép lưu trữ một khối lượng lớn dữ liệu lịch sử Dữ liệu được lưu trữ dưới dạng các bản sao, mỗi bản sao tương ứng với giá trị của dữ liệu tại một thời điểm nhất định, mang lại một cái nhìn về một chủ đề trong một giai đoạn cụ thể Do đó, kho dữ liệu cho phép khôi phục dữ liệu lịch sử và so sánh các giai đoạn khác nhau một cách chính xác Yếu tố thời gian đóng vai trò như một phần của khóa để đảm bảo tính duy nhất của mỗi bản ghi và cung cấp thông tin về thời gian cho dữ liệu Dữ liệu trong kho dữ liệu không cần phải chính xác tại thời điểm truy cập, mà chỉ cần có hiệu lực trong một khoảng thời gian nhất định, thường là từ 5 đến 10 năm hoặc lâu hơn Dữ liệu từ hệ thống quản lý cơ sở dữ liệu tác nghiệp thường trở thành dữ liệu lịch sử sau một thời gian nhất định và được chuyển vào kho dữ liệu Điều này đảm bảo sự lưu trữ hợp lý của dữ liệu theo các chủ đề cần thiết
3.4.1.3 Các yêu cầu chức năng của kho dữ liệu
Khả năng mở rộng: Kho dữ liệu có thể mở rộng để lưu trữ và quản lý một số lượng lớn giao dịch và dữ liệu tổng hợp Nó có thể linh hoạt mở rộng theo thời gian, thêm
Trang 23dữ liệu mới hoặc giữ lại dữ liệu lịch sử trong một khoảng thời gian dài mà không gặp vấn
đề về tải trọng, và vẫn duy trì tính ổn định của hoạt động
Khả năng quản trị: Kho dữ liệu có khả năng quản trị để đưa ra các quyết định liên quan
Khả năng sẵn sàng: Kho dữ liệu luôn sẵn sàng sử dụng bất kể lúc nào cần thiết Khả năng mở rộng: Kho dữ liệu dễ dàng mở rộng khi thêm các loại dữ liệu mới,
3.4.1.4 Kho dữ liệu cục bộ - Data Mart
Kho dữ liệu cục bộ (Data Mart - DM) là một hình thức cơ sở dữ liệu có các đặc điểm tương tự như kho dữ liệu chung (Data Warehouse - DW), nhưng quy mô nhỏ hơn
và lưu trữ dữ liệu về một lĩnh vực hoặc một ngành nghề cụ thể Datamart được tập trung vào một chủ đề cụ thể Có thể tạo ra Datamart từ một phần dữ liệu trong kho dữ liệu hoặc xây dựng một Data Mart độc lập Sau khi xây dựng, các Datamart có thể được kết nối và tích hợp lại với nhau để tạo thành kho dữ liệu Do đó, có thể xây dựng một kho dữ liệu bằng cách xây dựng các Datamart hoặc ngược lại
Data Mart (DM) là một hình thức kho dữ liệu phụ cấp, tích hợp dữ liệu từ Data Warehouse Datamart tập trung vào một phần của dữ liệu được gọi là một vùng chủ đề (Subject Area - SA), được tạo ra và phục vụ cho một nhóm người sử dụng cụ thể Dữ liệu trong Data Mart cung cấp thông tin về một chủ đề cụ thể, không phải về toàn bộ hoạt động kinh doanh của tổ chức Thường thì Datamart được triển khai như là một kho dữ liệu riêng biệt về mặt vật lý, được lưu trữ trên một máy chủ riêng, trong một mạng cục bộ phục vụ cho một nhóm người dùng nhất định Đôi khi Datamart đơn giản bằng cách sử dụng công nghệ OLAP để tạo ra các cấu trúc dữ liệu đặc biệt dưới dạng sao hoặc siêu khối (hypercube) để phân tích dữ liệu cho một nhóm người có cùng quan tâm trên một
Trang 24phạm vi dữ liệu cụ thể Datamart có thể chia thành hai loại: Data Mart độc lập và Data Mart phụ thuộc
Các cách tiếp cận để xây dựng Data Mart:
- Top-Down: Data mart được tạo từ data warehouse có trước
- Bottom-Up: Data marts được tạo đầu tiên, sau đó kết hợp chúng lại thành data warehouse
3.4.2 Các loại dữ liệu trong Data Warehouse
3.4.2.1 Dữ liệu nghiệp vụ
Dữ liệu nghiệp vụ (Business data - BD) là thông tin được sử dụng để điều hành và quản lý một doanh nghiệp hoặc tổ chức Nó phản ánh các hoạt động của doanh nghiệp và các yếu tố thực tế như khách hàng, địa điểm, sản phẩm, v.v Dữ liệu nghiệp vụ được tạo
ra và sử dụng bởi các hệ thống xử lý giao dịch và hệ thống hỗ trợ quyết định
3.4.2.2 Siêu dữ liệu (Metadata)
Siêu dữ liệu (Metadata) là thông tin về dữ liệu được sử dụng trong Hệ thống Data Warehouse (DW) Nó cung cấp câu trả lời cho các câu hỏi như ai, cái gì, khi nào, tại sao
và như thế nào về dữ liệu Siêu dữ liệu được sử dụng để xây dựng, duy trì, quản lý và sử dụng DW Siêu dữ liệu là một phần quan trọng của DW
Siêu dữ liệu nghiệp vụ (Business Metadata): Chứa thông tin giúp người sử dụng hiểu dễ dàng ngữ cảnh của thông tin được lưu trữ trong DW
Siêu dữ liệu kĩ thuật (Technical Metadata): Chứa thông tin về dữ liệu trong DW từ các nhà thiết kế và quản trị viên trong quá trình phát triển và quản lý
Siêu dữ liệu tác nghiệp (Operational Metadata): Siêu dữ liệu này hỗ trợ trực tiếp cho người sử dụng để họ có thể hiểu nội dung và tìm kiếm dữ liệu cần thiết Tuy nhiên, khả năng kết hợp dữ liệu trích xuất và siêu dữ liệu trong thực tế còn hạn chế, do đó cần phát triển giao diện sử dụng siêu dữ liệu cho người dùng
Siêu dữ liệu xác định nội dung và vị trí của dữ liệu trong DW, quan hệ giữa cơ sở
dữ liệu tác nghiệp và DW, và các khung nhìn dữ liệu của DW có thể truy cập được bởi công cụ của người dùng cuối Người dùng cuối cần sử dụng siêu dữ liệu khi cần thông tin
về định nghĩa dữ liệu hoặc các vùng chủ thể Tất cả các thành phần của DW đều phụ thuộc và có thể truy xuất dữ liệu từ siêu dữ liệu Siêu dữ liệu được lưu trữ trong khu vực
Trang 253.4.3 Thiết kế kho dữ liệu
3.4.3.1 Các giai đoạn thiết kế kho dữ liệu
Mô hình nghiệp vụ: Phân tích các định hướng chiến lược nhằm đề ra các quy trình nghiệp vụ cần thực hiện trong kho dữ liệu Các yêu cầu nghiệp vụ được phân tích, xác định và tài liệu hóa thành đơn vị đo và chiều nghiệp vụ (business measures và business dimensions) cho mỗi quy trình nghiệp vụ
Mô hình logic: Sử dụng kỹ thuật đồ họa để biểu diễn các định nghĩa, đặc điểm và mối quan hệ của dữ liệu trong nghiệp vụ hoặc khái niệm chuyên môn, nhằm mô tả hệ thống cho người sử dụng cuối Thông thường, phương pháp này tuân theo chuẩn 3NF
Mô hình nghiệp vụ được chuyển thành mô hình Dimensional, bằng cách liên kết các bảng và định nghĩa thuộc tính của chúng, xây dựng các lược đồ và xác định nguồn của kho dữ liệu
Mô hình Dimensional được chuyển thành mô hình vật lý, bao gồm khai báo định nghĩa kiểu dữ liệu của các thuộc tính, dự tính kích thước, chiến lược tạo chỉ mục (index)
và lưu trữ dữ liệu
3.4.3.2 Mô hình dữ liệu
Mô hình kho dữ liệu (DW) được tạo ra từ một mô hình dữ liệu tổng thể
(Enterprise Data Model - EDM) Một EDM là một tài liệu tổng quan mà các mô hình khác có thể dựa vào Nó được tổ chức thành các khu vực theo chủ đề, gọi là Subject Area (SA), là phần chính để phân chia và đáp ứng các yêu cầu của người sử dụng Nếu một tổ chức không có EDM phù hợp, có thể tiếp tục sử dụng và bổ sung SA từ EDM hiện có
Để bắt đầu thiết lập một mô hình, cần xem xét tầm nhìn hiện tại và trong tương lai Tầm nhìn hiện tại liên quan đến việc mô tả và hiểu các dữ liệu được lưu trữ trong các hệ thống hiện có (nguồn dữ liệu) Nếu các hệ thống nguồn đang không ổn định, công việc cần được tiếp tục để đảm bảo tính ổn định
Mô hình dữ liệu DW tập trung vào chủ đề, phụ thuộc vào các yêu cầu nghiệp vụ
và các vấn đề xuất hiện Mô hình dữ liệu DW có thể được thiết kế theo các phương pháp sau:
- Sơ đồ hình sao (Star Schema)
- Sơ đồ tuyết rơi (Snowflake)
- Mô hình đa chiều (Multiple Dimension)
Trang 26➢ Sơ đồ hình sao (Star Schema)
Sơ đồ ngôi sao là mô hình đơn giản nhất được sử dụng trong DWH Bởi vì bảng fact là trung tâm của mô hình với các bảng dimension xung quanh nó, nó nhìn giống như một ngôi sao Điều này rất rõ ràng khi bảng fact được bao quanh bởi 5 bảng dimension Một biến thể của sơ đồ ngôi sao là sơ đồ con rết (centipede schema), nơi mà bảng fact được bao quanh bởi số lượng lớn các bảng dimension nhỏ Mô hình ngôi sao được sử dụng rộng rãi trong data marts Chúng ta có thể kết hợp chung trong mô hình top-down Chúng ta sẽ phân tích mô hình 2 ngôi sao và kết hợp chúng để tạo ra mô hình đơn giản
Các bảng dimension được sử dụng để mô tả dữ liệu mà chúng ta muốn lưu trữ Ví dụ: một nhà bán lẻ muốn lưu trữ thời gian, cửa hàng, và nhân viên tham gia vào một hoá đơn Mỗi một bảng dimension là một danh mục của chính nó (ngày tháng, nhân viên, cửa hàng) và có thể có một hoặc nhiều thuộc tính (attributes) Với mỗi một cửa hàng, chúng
ta lưu chúng các thông tin như vị trí trong thành phố, vùng miền, tỉnh thành và quốc gia Mỗi một ngày tháng chúng ta lưu năm, tháng, ngày trong tháng, ngày trong tuần…Điều này liên quan đến sự phân cấp của các thuộc tính trong bảng dimension
Bảng Fact chứa dữ liệu mà chúng ta muốn thêm vào reports, tổng hợp trên các giá trị trong các bảng dimension Một bảng fact chỉ có các cột lưu giá trị và các cột khóa ngoại tham chiếu đến bảng dimensions Kết hợp tất cả các khóa ngoại và khoá chính trong bảng fact Ví dụ, một bảng fact có thể lưu trữ một số lượng các hợp đồng và số lượng các nhân viên bán hàng từ các danh sách hợp đồng
Hình ảnh 13 Mô phỏng sơ đồ hình sao (Star Schema)
Điểm mạnh và yếu của mô hình ngôi sao: Có nhiều điểm mạnh của mô hình ngôi
Trang 27giảm thời gian thực thi Chúng ta có thể tái hiện báo cáo trực tiếp từ hệ thống OLTP, nhúng câu lệnh sẽ phức tạp hơn và có thể ảnh hưởng đến hiệu năng chung của hệ thống
Điểm yếu nhất của mô hình ngôi sau là dư thừa Mỗi bảng dimension lưu trũ tách rời, và đây là nguyên nhân của không chuẩn hoá Trong ví dụ của chúng ta, thành phố thuộc về một vùng hoặc một tỉnh thành, chúng cũng thuộc về một đất nước; chúng ta không lưu trữ mối quan hệ như là một quy tắc của cơ sở dữ liệu, nhưng chúng ta cứ lặp lại nó Nghĩa là chúng ta sẽ tốn nhiều dung lượng ổ đĩa và có rủi ro về toàn vẹn dữ liệu
➢ Sơ đồ tuyết rơi (Snowflake)
Snowflake Schema là sự mở rộng của lược đồ sao trong đó mỗi điểm của ngôi sao bùng nổ thành nhiều điểm hơn Nó được gọi là giản đồ Snowflake vì biểu đồ của giản đồ Snowflake giống với một Snowflake Snowflaking là một phương pháp chuẩn hóa bảng dimension trong lược đồ STAR Khi chúng tôi chuẩn hóa hoàn toàn tất cả các bảng kích thước, cấu trúc kết quả giống như một Snowflake với bảng dữ kiện ở giữa
Snowflaking được sử dụng để phát triển hiệu suất của các truy vấn cụ thể Lược đồ được lập sơ đồ với mỗi dữ kiện được bao quanh bởi các dimension liên quan của nó và những dimension đó có liên quan đến các dimension khác, phân nhánh thành một mô hình Snowflake
Snowflake Schema bao gồm một bảng dữ kiện được liên kết với nhiều bảng
dimension, có thể được liên kết với các bảng dimension khác thông qua mối quan hệ nhiều đối một Các bảng trong Snowflake Schema thường được chuẩn hóa thành dạng chuẩn thứ ba Mỗi bảng dimension thực hiện chính xác một cấp trong hệ thống phân cấp
Một giản đồ hình sao lưu trữ tất cả các thuộc tính cho một dimension vào một bảng không chuẩn hóa Điều này cần nhiều dung lượng đĩa hơn so với một giản đồ
Snowflake chuẩn hóa hơn Snowflaking chuẩn hóa dimension bằng cách di chuyển các thuộc tính có số lượng thấp vào các bảng dimension riêng biệt có liên quan đến bảng dimension cốt lõi bằng cách sử dụng các khóa ngoại Không nên trượt tuyết với mục đích duy nhất là giảm thiểu dung lượng ổ đĩa, vì nó có thể tác động xấu đến hiệu suất truy vấn
Trang 28Hình ảnh 14 Mô phỏng sơ đồ tuyết rơi Snowflake Schema
Ưu điểm chính của Snowflake Schema là sự phát triển về hiệu suất truy vấn do các yêu cầu lưu trữ đĩa được giảm thiểu và tham gia các bảng tra cứu nhỏ hơn Nó cung cấp khả năng mở rộng lớn hơn trong mối quan hệ qua lại giữa các mức dimension và các thành phần Không dư thừa nên dễ bảo trì hơn
Nhược điểm chính của Snowflake Schema là cần phải có thêm các nỗ lực bảo trì
do số lượng bảng tra cứu ngày càng tăng Nó còn được gọi là giản đồ sao đa sự thật Có nhiều truy vấn phức tạp hơn và do đó, khó hiểu Nhiều bảng hơn tham gia nên thời gian thực hiện truy vấn nhiều hơn
➢ Mô hình đa chiều (Multiple Dimension)
Mô hình đa chiều (Multiple Dimension Model) là một khái niệm được sử dụng trong nhiều lĩnh vực khác nhau như toán học, thống kê, khoa học dữ liệu và học máy Nó
ám chỉ đến một mô hình hoặc hệ thống mà có nhiều chiều dữ liệu đầu vào hoặc đầu ra
Trong ngữ cảnh của học máy, mô hình đa chiều thường đề cập đến mô hình có khả năng xử lý và phân tích dữ liệu có nhiều chiều Mỗi chiều tương ứng với một thuộc tính hoặc đặc trưng của dữ liệu Ví dụ, nếu ta có một bộ dữ liệu gồm thông tin về chiều cao, cân nặng và tuổi của một nhóm người, thì mô hình đa chiều sẽ có khả năng xử lý cả ba thuộc tính này
Mô hình đa chiều trong học máy thường được xây dựng dựa trên các thuật toán phân tích đa biến như phân tích thành phần chính (PCA), hồi quy đa biến, mạng nơ-ron nhiều lớp (MLP) và các mô hình học sâu khác Mục tiêu của mô hình đa chiều là hiểu được mối quan hệ giữa các chiều dữ liệu và tìm ra cấu trúc hoặc thông tin quan trọng trong dữ liệu đó