BÁO CÁO ĐỒ ÁN XÂY DỰNG VÀ PHÂN TÍCH DỮ LIỆU BÁN LẺ CỦA SIÊU THỊ TOÀN CẦU TỪ NĂM 2011 ĐẾN 2014 Môn học Kho dữ liệu và Olap Lớp IS217 L11 Giảng viên Ths Đỗ Thị Minh Phụng Nhóm thực hiện Nguyễn Đức Tuấn 16521546 Nguyễn Văn Trí 16521287 Đính kèm Link nộp email: vantri1010@gmail.com
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
Trang 22.3.1.2 Tạo Flat File Connection chứa dữ liệu file csv 12 2.3.1.3 Tạo OLE DB Destination và thiết lập kết nối xuống SQL Server 14
Trang 33.5.2 Chọn ra 30 sản phẩm có số lượng mua cao nhất 58 3.5.3 Tìm ra các region có shipping cost lớn hơn 80000 tại market là EU 59 3.5.4 Tìm ra 20 nước có tỉ lệ giảm giá dần trừ 10 nước cao nhất với loại sản phẩm là Furniture 59 3.5.5 Số lượng bán của Sub-category theo quý và năm 61 3.5.6 Thống kê số lượng giảm giá, lợi nhuận, sales, phí ship ở các loại sản phẩm 62 3.5.7 Thống kê số lượng loại sản phẩm nhỏ nhất bán theo tuần 62 3.5.8 Tính sales tăng trưởng quý này so với quý trước 63 3.5.9 Tính tổng sales từ đầu tới một ngày cụ thể 63 3.5.10 Số lượng sản phẩm bán ra 3 năm gần đây và so sánh sự tăng giảm 64 3.5.11 Thêm vào KPI câu 3.5.10 và thực hiện lại 65 3.5.12 Thống kê sales của các quốc gia theo quý-năm và sub-category 66 3.5.13 Tính top các sản phẩm bán chạy, đánh thứ hạng và so sánh thứ hạng đó với năm 2013 67 3.5.14 Tính Sales của năm 2013 đối với loại sản phẩm Funiture và của năm 2014 đối với loại sản
3.5.15 Thống kê sales theo từng tháng của hai nước có tổng sales cao nhất ở 3 loại sản phẩm là
4.1.2 Kết nối với Project SSAS để tạo nội dung report 70 4.1.3 Báo cáo định lượng hàng hóa của khách hàng tại các chợ 71 4.1.4 Lợi nhuận mặt hàng theo từng khu vực 74 4.1.5 Thống kê doanh số mỗi loại sản phẩm đã bán trong từng quý của năm 2014 76 4.1.6 Doanh số mặt hàng cho từng phân khúc 79
4.2.1 Tạo kết nối với SQL Server Analysis với Power BI 82 4.2.2 Số lượng đặt hàng tại nơi bán sản phẩm qua các năm 83 4.2.3 Thống kê lợi nhuận theo mô hình ship và độ ưu tiên 84 4.2.4 Giá ship theo các năm của mỗi nơi bán sản phẩm 84
5.1 Tạo Mining Structure sử dụng nguồn Data warehouse hoặc Cube 85
Trang 45.4 Chọn thuộc tính của Dimension cần so sánh khi gom cụm và measure của bảng Fact làm thuộc
5.5 Do sử dụng thuật toán gom cụm nên đặt phần trăm dữ liệu test về 0 87 5.6 Cài đặt tham số cho giải thuật: đặt số lượng cụm bằng 0 để thuật toán tự động xác định số lượng cụm phù hợp nhất với dữ liệu thay vì mặc định là 10 cụm 88 5.7 Sau khi phân cụm hoàn tất sẽ nhận được sơ đồ liên kết giữa các cụm và phân bổ giá trị trên các cụm theo độ phổ biến, theo các thuộc tính đầu vào đã chọn 88
88 5.8 Thuộc tính cụm cho thấy sự hiện diện của các thành phố trên các cụm Ví dụ: Cụm số 2 với tổng doanh số dưới 1091$ có sự tập trung chủ yếu của Market EU 89 5.9 Tab đặc điểm cụm cho thấy thông tin chi tiết từng cụm với độ phổ biến theo giá trị doanh số và
Trang 51 Giới thiệu đề tài
1.1 Giới thiệu
Ngành bán lẻ đang không ngừng phát triển, với một siêu thị, cửa hàng hay chợ thì việc thống kê hay kiểm tra doanh số, lợi nhuận bán hàng là điều tất yếu Từ việc thu thập dữ liệu thì những nhà kinh doanh có thể phân tích và đánh giá những sản phẩm tiềm năng hay những mặt hàng phù hợp với những khoảng thời gian nhất định Vì vậy, nhóm chúng tôi quyết định lựa chọn dữ liệu về doanh số bán lẻ của một siêu thị toàn cầu
để phân tích và dự đoán, đưa ra một số đánh giá giúp phát triển siêu thị
1.2 Nguồn gốc dữ liệu
Dữ liệu về số liệu bán lẻ của một siêu thị toàn cầu trong 4 năm từ đầu năm 2011 tớicuối năm 2014, bao gồm 24 thuộc tính và 51290 dòng dữ liệu về thông tin của sảnphẩm đã bán
Link dữ liệu: https://www.kaggle.com/jr2ngb/superstore-data
Mô tả dữ liệu:
Dữ liệu được phân chia và đặt lại theo tên và kiểu dữ liệu
Trang 613 Region varchar Khu vực giao dịch
17 Sub-Category varchar Tiểu mục của từng loại sản
phẩm
23 Order Priority varchar Độ ưu tiên khi đặt hàng
Trang 72 Quá trình xây dựng kho dữ liệu (SSIS):
2.1 Diagram DataWarehouse
2.2 Mô tả
2.2.1 Bảng DIM_CUSTOMER
1 Customer ID Khóa chính của bảng, mã định danh khách hàng
2 Customer Name Tên khách hàng
2.2.2 Bảng Dim_PRODUCT
Trang 84 Category Phân loại sản phẩm
2.2.3 Bảng DIM_GEOGRAPHY
2.2.4 Bảng DIM_SHIP_MODE
1 Ship_Mode_ID Khóa chính của bảng
2.2.5 Bảng DIM_ORDER_PRIORITY
1 Order_priority_id Khóa chính của bảng
2 Order Priority Độ ưu tiên khi đặt hàng
2.2.6 Bảng Dim_SHIP_TIME
Trang 96 Week_ship Tuần giao hàng
2.2.7 Bảng Dim_ORDER_TIME
7 Customer ID Khóa bảng khách hàng, liên kết tới bảng Dim_Customer
Trang 109 Order_priority_id Khóa liên kết với bảng Dim_Order_Priority
10 Product_ID Khóa liên kết với bảng Dim_Product
2.3 Đổ dữ liệu
2.3.1 Kết nối cơ sở dữ liệu
2.3.1.1 Tạo mới 1 Project
Trang 112.3.1.2 Tạo Flat File Connection chứa dữ liệu file csv
Trang 12Số dòng định dạng để lấy hết dữ liệu cần 51290
Trang 13Tạo CSDL mới (SSIS_OLAP) ở Microsoft SQL Server 2014
2.3.1.3 Tạo OLE DB Destination và thiết lập kết nối xuống SQL Server
Trang 14Dữ liệu được kết nối và được đổ xuống CSDL
2.3.2 Tạo bảng DIM_GEOGRAPHY
Sử dụng OLE DB Source chứa dữ liệu cần đổ vào bảng DIM_GEOGRAPHY
Trang 15Chọn các thuộc tính cần thiết cho bảng
Trang 16Sắp xếp và lọc dữ liệu trùng
Bảng Dim_GEOGRAPHY đã được tạo ở database
Trang 17Dữ liệu đã được đổ vào bảng DIM_GEOGRAPHY ở Database thành công.
2.3.3 Tạo bảng DIM_CUSTOMER
Trang 18Bảng DIM_CUSTOMER đã được tạo ở DATABASE
Trang 19Dữ liệu đã được đổ vào bảng DIM_CUSTOMER ở Database thành công.
2.3.4 Tạo bảng DIM_ORDER_PRIORITY
Trang 21Dữ liệu đã được đổ vào bảng DIM_ORDER_PRIORITY ở DATABASE
2.3.5 Tạo bảng DIM_PRODUCT
Trang 22Bảng DIM_PRODUCT đã được tạo ở DATABASE
Trang 23
Dữ liệu đổ vào bảng DIM_PRODUCT thành công
2.3.6 Tạo bảng DIM_ORDER_TIME
Trong OLE DB Destionation sử dụng SQL command, viết câu query tạo bảng
Trang 24Dữ liệu trùng lặp được loại bỏ, và bảng đã được tạo ở DATABASE
Trang 25Dữ liệu được đổ vào bảng DIM_ORDER_TIME ở DATABASE
Trang 262.3.7 Tạo bảng DIM_SHIP_MODE
Trang 27Dữ liệu được kết nối và đổ vào bảng DIM_SHIP_MODE ở DATABASE
Trang 282.3.8 Tạo bảng DIM_SHIP_TIME
Trang 29Dữ liệu đã được kết nối và đổ vào bảng DIM_SHIP_TIME
2.3.9 Tạo bảng FACT
Trang 30Bảng FACT đã được tạo ở DATABASE
Trang 31Dữ liệu đổ vào bảng FACT thành công
2.4 Thực thi toàn bộ quá trình SSIS
Trang 323 Truy vấn dữ liệu (SSAS):
3.1 Tạo khối dữ liệu
3.2 Tạo một Data Source
- Chọn connection tới db
Trang 363.3 Tạo cube
Trang 37- Chọn bảng có thuộc tính độ đo là bảng fact
Trang 39- Bấm vào DIM PRODUCT ở properties mục type chọn product
- Ở thuộc tính category chọn type là product category
Trang 40- Chọn key cho category là category
- Chọn type cho category là ProductCategory
Trang 41- Chọn key cho product name là product name và ID (vì có một số name bị trùng)
Trang 42- Chọn key cho sub-category là sub-category
- Chọn type cho sub-category là productGroup
Trang 43- Mối quan hệ các thuộc tính của dim product
Trang 44- Type ship mode để mặc định
- Chọn key ship-mode là ship-mode
- Mối quan hệ của các thuộc tính của dim ship mode
- Bảng DIM_SHIP_TIME
- Chọn type dim_ship_time là time
Trang 45- Chọn keyColumns là ship_year và quarter_ship (vì quarter sẽ trùng Quý 1 năm nay sẽ trùng với quý 1 năm sau nên phải thêm như vậy)
Trang 46- Chọn KeyColumn cho Ship Month là ship_year và ship_month
- Chọn key column cho ship week là ship_year và week_ship
Trang 47- Mối quan hệ các thuộc tính của dim ship time
- Tương tự với bảng Dim Order Time
- Bảng dim geography
Trang 48- Chọn type cho thuộc tính City là City
- Chọn key cho City là City_id
Trang 49- Chọn type cho Country là Country
Trang 50- Type của market vẫn mặc định
- Chọn key columns cho market là Markey
- Chọn key columns cho region là Region và Market
Trang 51- Chọn type của region là region
Trang 52- Chọn key cho state là state, country, city, region
- Mối quan hệ các thuộc tính của dim geography
Trang 53- Bảng dim order priority để mặc định
- Mối quan hệ các thuộc tính của dim order priority
- Bảng dim customer
- Type của dim customer là customers
Trang 54- Key của customer name vẫn mặc định là customer name
- Type của Segment là CustomerGroup
Trang 55- Bảng mối quan hệ giữa các thuộc tính bảng dim customer
3.4 Deploy and process
Trang 563.5 Truy vấn dữ liệu
3.5.1 Chọn n khách hàng có lợi nhuận cao nhất
Trang 57- Kết quả trên VS studio (manual)
3.5.2 Chọn ra 30 sản phẩm có số lượng mua cao nhất
Trang 58- Kết quả trên visual studio
3.5.3 Tìm ra các region có shipping cost lớn hơn 80000 tại market là EU
Trang 593.5.4 Tìm ra 20 nước có tỉ lệ giảm giá dần trừ 10 nước cao nhất với loại sản phẩm
là Furniture
Trang 603.5.5 Số lượng bán của Sub-category theo quý và năm
Trang 613.5.6 Thống kê số lượng giảm giá, lợi nhuận, sales, phí ship ở các loại sản phẩm
Trang 623.5.7 Thống kê số lượng loại sản phẩm nhỏ nhất bán theo tuần
3.5.8 Tính sales tăng trưởng quý này so với quý trước
Trang 633.5.9 Tính tổng sales từ đầu tới một ngày cụ thể
Trang 643.5.10 Số lượng sản phẩm bán ra 3 năm gần đây và so sánh sự tăng giảm
Trang 653.5.11 Thêm vào KPI câu 3.5.10 và thực hiện lại
Trang 663.5.12 Thống kê sales của các quốc gia theo quý-năm và sub-category
Trang 673.5.13 Tính top các sản phẩm bán chạy, đánh thứ hạng và so sánh thứ hạng đó với năm 2013
Trang 683.5.14 Tính Sales của năm 2013 đối với loại sản phẩm Funiture và của năm
2014 đối với loại sản phẩm Technology
3.5.15 Thống kê sales theo từng tháng của hai nước có tổng sales cao nhất ở 3 loại sản phẩm là Furniture, Office Suplies, Technology
Trang 694 REPORT
4.1 Tạo report sử dụng công cụ SSRS
4.1.1 Khởi tạo project
Trang 704.1.2 Kết nối với Project SSAS để tạo nội dung report
Trang 71
4.1.3 Báo cáo định lượng hàng hóa của khách hàng tại các chợ
Trang 744.1.4 Lợi nhuận mặt hàng theo từng khu vực
Trang 764.1.5 Thống kê doanh số mỗi loại sản phẩm đã bán trong từng quý của năm 2014
Trang 794.1.6 Doanh số mặt hàng cho từng phân khúc
Trang 824.2 Tạo report sử dụng Power BI
4.2.1 Tạo kết nối với SQL Server Analysis với Power BI
Trang 834.2.2 Số lượng đặt hàng tại nơi bán sản phẩm qua các năm
Trang 844.2.3 Thống kê lợi nhuận theo mô hình ship và độ ưu tiên
4.2.4 Giá ship theo các năm của mỗi nơi bán sản phẩm
Trang 855 Data Mining
5.1 Tạo Mining Structure sử dụng nguồn Data warehouse hoặc Cube
5.2 Chọn mô hình khai phá dữ liệu phù hợp với dữ liệu và yêu cầu
Trang 865.3 Chọn Dimension
5.4 Chọn thuộc tính của Dimension cần so sánh khi gom cụm và measure của bảng Fact làm thuộc tính của vector trọng số.
Trang 875.5 Do sử dụng thuật toán gom cụm nên đặt phần trăm dữ liệu test về 0
Trang 885.6 Cài đặt tham số cho giải thuật: đặt số lượng cụm bằng 0 để thuật toán tự động xác định số lượng cụm phù hợp nhất với dữ liệu thay vì mặc định là 10 cụm
5.7 Sau khi phân cụm hoàn tất sẽ nhận được sơ đồ liên kết giữa các cụm và phân
bổ giá trị trên các cụm theo độ phổ biến, theo các thuộc tính đầu vào đã chọn
Trang 895.8 Thuộc tính cụm cho thấy sự hiện diện của các Market trên các cụm Ví dụ: Cụm số 2 với tổng doanh số dưới 1091$ có sự tập trung chủ yếu của Market EU
5.9 Tab đặc điểm cụm cho thấy thông tin chi tiết từng cụm với độ phổ biến theo giá trị doanh số và sự hiện diện của các Market trên các cụm đó
Trang 90LINK SOURCE VÀ VIDEO:
https://drive.google.com/drive/u/0/folders/105VcSnUwydjWd_bgCH-6J254urrenMp8