1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án kho dữ liệu và OLAP về dữ liệu bán lẻ

90 114 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Và Phân Tích Dữ Liệu Bán Lẻ Của Siêu Thị Toàn Cầu Từ Năm 2011 Đến 2014
Tác giả Nguyễn Đức Tuấn - 16521546, Nguyễn Văn Trí - 16521287
Người hướng dẫn Ths. Đỗ Thị Minh Phụng
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Kho Dữ Liệu Và Olap
Thể loại Báo Cáo Đồ Án
Năm xuất bản 2014
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 90
Dung lượng 4,27 MB
File đính kèm link source.rar (163 B)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BÁO CÁO ĐỒ ÁN XÂY DỰNG VÀ PHÂN TÍCH DỮ LIỆU BÁN LẺ CỦA SIÊU THỊ TOÀN CẦU TỪ NĂM 2011 ĐẾN 2014 Môn học Kho dữ liệu và Olap Lớp IS217 L11 Giảng viên Ths Đỗ Thị Minh Phụng Nhóm thực hiện Nguyễn Đức Tuấn 16521546 Nguyễn Văn Trí 16521287 Đính kèm Link nộp email: vantri1010@gmail.com

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA HỆ THỐNG THÔNG TIN

Trang 2

2.3.1.2 Tạo Flat File Connection chứa dữ liệu file csv 12 2.3.1.3 Tạo OLE DB Destination và thiết lập kết nối xuống SQL Server 14

Trang 3

3.5.2 Chọn ra 30 sản phẩm có số lượng mua cao nhất 58 3.5.3 Tìm ra các region có shipping cost lớn hơn 80000 tại market là EU 59 3.5.4 Tìm ra 20 nước có tỉ lệ giảm giá dần trừ 10 nước cao nhất với loại sản phẩm là Furniture 59 3.5.5 Số lượng bán của Sub-category theo quý và năm 61 3.5.6 Thống kê số lượng giảm giá, lợi nhuận, sales, phí ship ở các loại sản phẩm 62 3.5.7 Thống kê số lượng loại sản phẩm nhỏ nhất bán theo tuần 62 3.5.8 Tính sales tăng trưởng quý này so với quý trước 63 3.5.9 Tính tổng sales từ đầu tới một ngày cụ thể 63 3.5.10 Số lượng sản phẩm bán ra 3 năm gần đây và so sánh sự tăng giảm 64 3.5.11 Thêm vào KPI câu 3.5.10 và thực hiện lại 65 3.5.12 Thống kê sales của các quốc gia theo quý-năm và sub-category 66 3.5.13 Tính top các sản phẩm bán chạy, đánh thứ hạng và so sánh thứ hạng đó với năm 2013 67 3.5.14 Tính Sales của năm 2013 đối với loại sản phẩm Funiture và của năm 2014 đối với loại sản

3.5.15 Thống kê sales theo từng tháng của hai nước có tổng sales cao nhất ở 3 loại sản phẩm là

4.1.2 Kết nối với Project SSAS để tạo nội dung report 70 4.1.3 Báo cáo định lượng hàng hóa của khách hàng tại các chợ 71 4.1.4 Lợi nhuận mặt hàng theo từng khu vực 74 4.1.5 Thống kê doanh số mỗi loại sản phẩm đã bán trong từng quý của năm 2014 76 4.1.6 Doanh số mặt hàng cho từng phân khúc 79

4.2.1 Tạo kết nối với SQL Server Analysis với Power BI 82 4.2.2 Số lượng đặt hàng tại nơi bán sản phẩm qua các năm 83 4.2.3 Thống kê lợi nhuận theo mô hình ship và độ ưu tiên 84 4.2.4 Giá ship theo các năm của mỗi nơi bán sản phẩm 84

5.1 Tạo Mining Structure sử dụng nguồn Data warehouse hoặc Cube 85

Trang 4

5.4 Chọn thuộc tính của Dimension cần so sánh khi gom cụm và measure của bảng Fact làm thuộc

5.5 Do sử dụng thuật toán gom cụm nên đặt phần trăm dữ liệu test về 0 87 5.6 Cài đặt tham số cho giải thuật: đặt số lượng cụm bằng 0 để thuật toán tự động xác định số lượng cụm phù hợp nhất với dữ liệu thay vì mặc định là 10 cụm 88 5.7 Sau khi phân cụm hoàn tất sẽ nhận được sơ đồ liên kết giữa các cụm và phân bổ giá trị trên các cụm theo độ phổ biến, theo các thuộc tính đầu vào đã chọn 88

88 5.8 Thuộc tính cụm cho thấy sự hiện diện của các thành phố trên các cụm Ví dụ: Cụm số 2 với tổng doanh số dưới 1091$ có sự tập trung chủ yếu của Market EU 89 5.9 Tab đặc điểm cụm cho thấy thông tin chi tiết từng cụm với độ phổ biến theo giá trị doanh số và

Trang 5

1 Giới thiệu đề tài

1.1 Giới thiệu

Ngành bán lẻ đang không ngừng phát triển, với một siêu thị, cửa hàng hay chợ thì việc thống kê hay kiểm tra doanh số, lợi nhuận bán hàng là điều tất yếu Từ việc thu thập dữ liệu thì những nhà kinh doanh có thể phân tích và đánh giá những sản phẩm tiềm năng hay những mặt hàng phù hợp với những khoảng thời gian nhất định Vì vậy, nhóm chúng tôi quyết định lựa chọn dữ liệu về doanh số bán lẻ của một siêu thị toàn cầu

để phân tích và dự đoán, đưa ra một số đánh giá giúp phát triển siêu thị

1.2 Nguồn gốc dữ liệu

Dữ liệu về số liệu bán lẻ của một siêu thị toàn cầu trong 4 năm từ đầu năm 2011 tớicuối năm 2014, bao gồm 24 thuộc tính và 51290 dòng dữ liệu về thông tin của sảnphẩm đã bán

Link dữ liệu: https://www.kaggle.com/jr2ngb/superstore-data

Mô tả dữ liệu:

Dữ liệu được phân chia và đặt lại theo tên và kiểu dữ liệu

Trang 6

13 Region varchar Khu vực giao dịch

17 Sub-Category varchar Tiểu mục của từng loại sản

phẩm

23 Order Priority varchar Độ ưu tiên khi đặt hàng

Trang 7

2 Quá trình xây dựng kho dữ liệu (SSIS):

2.1 Diagram DataWarehouse

2.2 Mô tả

2.2.1 Bảng DIM_CUSTOMER

1 Customer ID Khóa chính của bảng, mã định danh khách hàng

2 Customer Name Tên khách hàng

2.2.2 Bảng Dim_PRODUCT

Trang 8

4 Category Phân loại sản phẩm

2.2.3 Bảng DIM_GEOGRAPHY

2.2.4 Bảng DIM_SHIP_MODE

1 Ship_Mode_ID Khóa chính của bảng

2.2.5 Bảng DIM_ORDER_PRIORITY

1 Order_priority_id Khóa chính của bảng

2 Order Priority Độ ưu tiên khi đặt hàng

2.2.6 Bảng Dim_SHIP_TIME

Trang 9

6 Week_ship Tuần giao hàng

2.2.7 Bảng Dim_ORDER_TIME

7 Customer ID Khóa bảng khách hàng, liên kết tới bảng Dim_Customer

Trang 10

9 Order_priority_id Khóa liên kết với bảng Dim_Order_Priority

10 Product_ID Khóa liên kết với bảng Dim_Product

2.3 Đổ dữ liệu

2.3.1 Kết nối cơ sở dữ liệu

2.3.1.1 Tạo mới 1 Project

Trang 11

2.3.1.2 Tạo Flat File Connection chứa dữ liệu file csv

Trang 12

Số dòng định dạng để lấy hết dữ liệu cần 51290

Trang 13

Tạo CSDL mới (SSIS_OLAP) ở Microsoft SQL Server 2014

2.3.1.3 Tạo OLE DB Destination và thiết lập kết nối xuống SQL Server

Trang 14

Dữ liệu được kết nối và được đổ xuống CSDL

2.3.2 Tạo bảng DIM_GEOGRAPHY

Sử dụng OLE DB Source chứa dữ liệu cần đổ vào bảng DIM_GEOGRAPHY

Trang 15

Chọn các thuộc tính cần thiết cho bảng

Trang 16

Sắp xếp và lọc dữ liệu trùng

Bảng Dim_GEOGRAPHY đã được tạo ở database

Trang 17

Dữ liệu đã được đổ vào bảng DIM_GEOGRAPHY ở Database thành công.

2.3.3 Tạo bảng DIM_CUSTOMER

Trang 18

Bảng DIM_CUSTOMER đã được tạo ở DATABASE

Trang 19

Dữ liệu đã được đổ vào bảng DIM_CUSTOMER ở Database thành công.

2.3.4 Tạo bảng DIM_ORDER_PRIORITY

Trang 21

Dữ liệu đã được đổ vào bảng DIM_ORDER_PRIORITY ở DATABASE

2.3.5 Tạo bảng DIM_PRODUCT

Trang 22

Bảng DIM_PRODUCT đã được tạo ở DATABASE

Trang 23

Dữ liệu đổ vào bảng DIM_PRODUCT thành công

2.3.6 Tạo bảng DIM_ORDER_TIME

Trong OLE DB Destionation sử dụng SQL command, viết câu query tạo bảng

Trang 24

Dữ liệu trùng lặp được loại bỏ, và bảng đã được tạo ở DATABASE

Trang 25

Dữ liệu được đổ vào bảng DIM_ORDER_TIME ở DATABASE

Trang 26

2.3.7 Tạo bảng DIM_SHIP_MODE

Trang 27

Dữ liệu được kết nối và đổ vào bảng DIM_SHIP_MODE ở DATABASE

Trang 28

2.3.8 Tạo bảng DIM_SHIP_TIME

Trang 29

Dữ liệu đã được kết nối và đổ vào bảng DIM_SHIP_TIME

2.3.9 Tạo bảng FACT

Trang 30

Bảng FACT đã được tạo ở DATABASE

Trang 31

Dữ liệu đổ vào bảng FACT thành công

2.4 Thực thi toàn bộ quá trình SSIS

Trang 32

3 Truy vấn dữ liệu (SSAS):

3.1 Tạo khối dữ liệu

3.2 Tạo một Data Source

- Chọn connection tới db

Trang 36

3.3 Tạo cube

Trang 37

- Chọn bảng có thuộc tính độ đo là bảng fact

Trang 39

- Bấm vào DIM PRODUCT ở properties mục type chọn product

- Ở thuộc tính category chọn type là product category

Trang 40

- Chọn key cho category là category

- Chọn type cho category là ProductCategory

Trang 41

- Chọn key cho product name là product name và ID (vì có một số name bị trùng)

Trang 42

- Chọn key cho sub-category là sub-category

- Chọn type cho sub-category là productGroup

Trang 43

- Mối quan hệ các thuộc tính của dim product

Trang 44

- Type ship mode để mặc định

- Chọn key ship-mode là ship-mode

- Mối quan hệ của các thuộc tính của dim ship mode

- Bảng DIM_SHIP_TIME

- Chọn type dim_ship_time là time

Trang 45

- Chọn keyColumns là ship_year và quarter_ship (vì quarter sẽ trùng Quý 1 năm nay sẽ trùng với quý 1 năm sau nên phải thêm như vậy)

Trang 46

- Chọn KeyColumn cho Ship Month là ship_year và ship_month

- Chọn key column cho ship week là ship_year và week_ship

Trang 47

- Mối quan hệ các thuộc tính của dim ship time

- Tương tự với bảng Dim Order Time

- Bảng dim geography

Trang 48

- Chọn type cho thuộc tính City là City

- Chọn key cho City là City_id

Trang 49

- Chọn type cho Country là Country

Trang 50

- Type của market vẫn mặc định

- Chọn key columns cho market là Markey

- Chọn key columns cho region là Region và Market

Trang 51

- Chọn type của region là region

Trang 52

- Chọn key cho state là state, country, city, region

- Mối quan hệ các thuộc tính của dim geography

Trang 53

- Bảng dim order priority để mặc định

- Mối quan hệ các thuộc tính của dim order priority

- Bảng dim customer

- Type của dim customer là customers

Trang 54

- Key của customer name vẫn mặc định là customer name

- Type của Segment là CustomerGroup

Trang 55

- Bảng mối quan hệ giữa các thuộc tính bảng dim customer

3.4 Deploy and process

Trang 56

3.5 Truy vấn dữ liệu

3.5.1 Chọn n khách hàng có lợi nhuận cao nhất

Trang 57

- Kết quả trên VS studio (manual)

3.5.2 Chọn ra 30 sản phẩm có số lượng mua cao nhất

Trang 58

- Kết quả trên visual studio

3.5.3 Tìm ra các region có shipping cost lớn hơn 80000 tại market là EU

Trang 59

3.5.4 Tìm ra 20 nước có tỉ lệ giảm giá dần trừ 10 nước cao nhất với loại sản phẩm

là Furniture

Trang 60

3.5.5 Số lượng bán của Sub-category theo quý và năm

Trang 61

3.5.6 Thống kê số lượng giảm giá, lợi nhuận, sales, phí ship ở các loại sản phẩm

Trang 62

3.5.7 Thống kê số lượng loại sản phẩm nhỏ nhất bán theo tuần

3.5.8 Tính sales tăng trưởng quý này so với quý trước

Trang 63

3.5.9 Tính tổng sales từ đầu tới một ngày cụ thể

Trang 64

3.5.10 Số lượng sản phẩm bán ra 3 năm gần đây và so sánh sự tăng giảm

Trang 65

3.5.11 Thêm vào KPI câu 3.5.10 và thực hiện lại

Trang 66

3.5.12 Thống kê sales của các quốc gia theo quý-năm và sub-category

Trang 67

3.5.13 Tính top các sản phẩm bán chạy, đánh thứ hạng và so sánh thứ hạng đó với năm 2013

Trang 68

3.5.14 Tính Sales của năm 2013 đối với loại sản phẩm Funiture và của năm

2014 đối với loại sản phẩm Technology

3.5.15 Thống kê sales theo từng tháng của hai nước có tổng sales cao nhất ở 3 loại sản phẩm là Furniture, Office Suplies, Technology

Trang 69

4 REPORT

4.1 Tạo report sử dụng công cụ SSRS

4.1.1 Khởi tạo project

Trang 70

4.1.2 Kết nối với Project SSAS để tạo nội dung report

Trang 71

4.1.3 Báo cáo định lượng hàng hóa của khách hàng tại các chợ

Trang 74

4.1.4 Lợi nhuận mặt hàng theo từng khu vực

Trang 76

4.1.5 Thống kê doanh số mỗi loại sản phẩm đã bán trong từng quý của năm 2014

Trang 79

4.1.6 Doanh số mặt hàng cho từng phân khúc

Trang 82

4.2 Tạo report sử dụng Power BI

4.2.1 Tạo kết nối với SQL Server Analysis với Power BI

Trang 83

4.2.2 Số lượng đặt hàng tại nơi bán sản phẩm qua các năm

Trang 84

4.2.3 Thống kê lợi nhuận theo mô hình ship và độ ưu tiên

4.2.4 Giá ship theo các năm của mỗi nơi bán sản phẩm

Trang 85

5 Data Mining

5.1 Tạo Mining Structure sử dụng nguồn Data warehouse hoặc Cube

5.2 Chọn mô hình khai phá dữ liệu phù hợp với dữ liệu và yêu cầu

Trang 86

5.3 Chọn Dimension

5.4 Chọn thuộc tính của Dimension cần so sánh khi gom cụm và measure của bảng Fact làm thuộc tính của vector trọng số.

Trang 87

5.5 Do sử dụng thuật toán gom cụm nên đặt phần trăm dữ liệu test về 0

Trang 88

5.6 Cài đặt tham số cho giải thuật: đặt số lượng cụm bằng 0 để thuật toán tự động xác định số lượng cụm phù hợp nhất với dữ liệu thay vì mặc định là 10 cụm

5.7 Sau khi phân cụm hoàn tất sẽ nhận được sơ đồ liên kết giữa các cụm và phân

bổ giá trị trên các cụm theo độ phổ biến, theo các thuộc tính đầu vào đã chọn

Trang 89

5.8 Thuộc tính cụm cho thấy sự hiện diện của các Market trên các cụm Ví dụ: Cụm số 2 với tổng doanh số dưới 1091$ có sự tập trung chủ yếu của Market EU

5.9 Tab đặc điểm cụm cho thấy thông tin chi tiết từng cụm với độ phổ biến theo giá trị doanh số và sự hiện diện của các Market trên các cụm đó

Trang 90

LINK SOURCE VÀ VIDEO:

https://drive.google.com/drive/u/0/folders/105VcSnUwydjWd_bgCH-6J254urrenMp8

Ngày đăng: 05/06/2022, 01:51

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w