HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trang 1
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
BÁO CÁO BÀI TẬP LỚN MÔN HỌC: KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Đề tài: DATA WAREHOUSE Giảng Viên: NGUYỄN QUỲNH CHI
Thành viên :
Hà Nội, tháng 05 năm 2022
Trang 2Mục lục
Nội dung
4 Thiết kế kho dữ liệu – phương pháp luận cho các bước thiết kế bao gồm cả lược
5 Cài đặt các khối dữ liệu và tải dữ liệu vào các khối 11
6 Sinh báo cáo phân tích xử lí trực tuyến 14
7 Kết luận 15
Trang 31 Giới thiệu
1.1 Mục tiêu
Mục tiêu của bài toán là xây dựng kho dữ liệu tích hợp các dữ liệu của doanh nghiệp để tạo lập các báo cáo kinh doanh nhằm hỗ trợ người quản lý đưa ra quyết định, chiến lược phát triển Ngoài ra, trong tương lai có thể áp dụng thêm kỹ thuật mining để khai phá dữ liệu mới
1.2 Phạm vi
‒ Quản lý việc kinh doanh của một doanh nghiệp gồm nhiều cửa hàng nằm rải rác
ở nhiều thành phố và bang khác nhau nhằm đáp ứng được nhu cầu của khách hàng
‒ Nguồn dữ liệu: từ hệ thống cơ sở dữ liệu quan hệ hiện tại của doanh nghiệp
‒ Xây dựng các khối OLAP để lưu trữ dữ liệu đa chiều về sản phẩm kinh doanh của doanh nghiệp, cụ thể ở đây là sản phẩm đã bán và sản phẩm lưu trữ
2 Yêu cầu nghiệp vụ
Các đặc tả ứng dụng của kho dữ liệu cho người dùng:
● Tìm tất cả các cửa hàng cùng với thành phố, bang, số điện thoại, mô tả, kích
cỡ, trọng lượng và đơn giá của tất cả các mặt hàng được bán ở kho đó
● Tìm tất cả các đơn đặt hàng với tên khách hàng và ngày đặt hàng được thực hiện bởi khách hàng đó
● Tìm tất cả các cửa hàng cùng với tên thành phố và số điện thoại mà có bán các mặt hàng được đặt bởi một khách hàng nào đó
● Tìm địa chỉ văn phòng đại diện với tên thành phố, bang của tất cả các cửa hàng lưu kho một mặt hàng nào đó với số lượng trên mức cụ thể
● Với mỗi một đơn đặt hàng của khách, liệt kê các mặt hàng được đặt cùng với
mô tả, mã cửa hàng, tên thành phố và các cửa hàng có bán mặt hàng đó
● Tìm thành phố và bang mà một khách hàng nào đó sinh sống
● Tìm mức độ tồn kho của một mặt hàng cụ thể tại tất cả các cửa hàng ở một thành phố cụ thể nào đó
● Tìm các mặt hàng, số lượng đặt, khách hàng, cửa hàng và thành phố của một đơn đặt hàng
● Tìm các khách hàng du lịch, khách hàng đặt theo đường bưu điện và khách hàng thuộc cả hai loại
Trang 43 Đặc tả chức năng
Công cụ sử dụng cho bài tập lớn là SQL Server
Đầu vào của kho dữ liệu:
- Lược đồ quan hệ của hệ thống cơ sở dữ liệu quan hệ hiện tại của doanh nghiệp này như sau:
● Cơ sở dữ liệu Văn phòng đại diện bao gồm những quan hệ với các lược đồ như sau:
▪ Khách hàng (Mã KH, Tên KH, Ngày đặt hàng đầu tiên)
▪ Khách hàng du lịch (* Mã KH, Hướng dẫn viên du lịch, Thời gian)
▪ Khách hàng bưu điện (* Mã KH, Địa chỉ bưu điện, Thời gian)
● Cơ sở dữ liệu Bán hàng gồm những quan hệ với lược đồ như sau:
▪ Văn phòng đại diện (Mã Thành phố, Tên Thành phố, Địa chỉ VP, Bang, Thời gian)
▪ Cửa hàng (Mã cửa hàng, * Mã Thành phố, Số điện thoại, Thời gian)
▪ Mặt hàng (Mã MH, Mô tả, Kích cỡ, Trọng lượng, Giá, Thời gian)
▪ Mặt hàng được lưu trữ (* Mã cửa hàng, * Mã mặt hàng, Số lượng trong kho, Thời gian)
▪ Đơn đặt hàng (Mã đơn, Ngày đặt hàng, Mã Khách hàng)
▪ Mặt hàng được đặt (* Mã đơn, * Mã mặt hàng, Số lượng đặt, Giá đặt, Thời gian)
Đầu ra của kho dữ liệu: các báo cáo (bảng dữ liệu động) cho phép người dùng thực hiện các thao tác roll up, drill down, slice, dice … cung cấp thông tin để hỗ trợ người quản lý ra quyết định
Trang 54 Thiết kế kho dữ liệu – phương pháp luận cho các bước thiết kế bao gồm cả lược đồ hình sao
4.1 Xây dựng mô hình thực thể liên kết
Bước 1 Chuyển đổi ngược DB1, DB2 → EER1, EER2
DB1: Văn phòng đại diện
▪ Khách hàng (Mã KH, Tên KH, Ngày đặt hàng đầu tiên)
▪ Khách hàng du lịch (* Mã KH, Hướng dẫn viên du lịch, Thời gian)
▪ Khách hàng bưu điện (* Mã KH, Địa chỉ bưu điện, Thời gian)
PR1: Khách hàng -> Thực thể Khách hàng
PR2: Khách hàng du lịch, Khách hàng bưu điện là tập con của Khách hàng
Ta có EER1:
DB2: Bán hàng
▪ Văn phòng đại diện (Mã Thành phố, Tên Thành phố, Địa chỉ VP, Bang, Thời gian)
▪ Cửa hàng (Mã cửa hàng, * Mã Thành phố, Số điện thoại, Thời gian)
▪ Mặt hàng (Mã MH, Mô tả, Kích cỡ, Trọng lượng, Giá, Thời gian)
Trang 6▪ Mặt hàng được lưu trữ (* Mã cửa hàng, * Mã mặt hàng, Số lượng trong kho, Thời gian)
▪ Đơn đặt hàng (Mã đơn, Ngày đặt hàng, Mã Khách hàng)
▪ Mặt hàng được đặt (* Mã đơn, * Mã mặt hàng, Số lượng đặt, Giá đặt, Thời gian)
PR1: Văn phòng đại diện, Cửa hàng, Mặt hàng, Đơn đặt hàng -> Các thực thể tương ứng
Mapping SR1 và các FKA: Mặt hàng được lưu trữ và Mặt hàng được đặt
Ta có EER2:
Bước 2 Tích hợp EER1, EER2 thành IEER
Giải quyết xung đột ngữ nghĩa:
Trường Thời gian ở các thực thể là đồng âm (homonyms):
Thực hiện đổi tên thuộc tính:
- Văn phòng đại diện: Thời gian -> Ngày thành lập văn phòng
- Cửa hàng: Thời gian -> Ngày thành lập cửa hàng
Trang 7- Mặt hàng: Thời gian -> Ngày bắt đầu bán
- Mặt hàng được lưu trữ: Thời gian -> Ngày nhập hàng
Trường Thời gian ở các thực thể là đồng nghĩa (synonyms):
Thực hiện xóa bỏ:
- Khách hàng bưu điện: Thời gian -> Xoá bỏ
- Khách hàng du lịch: Thời gian -> Xoá bỏ
- Mặt hàng được đặt: Thời gian -> Xoá bỏ
KHÁCH HÀNG chứa Mã TP và ĐƠN HÀNG chứa Mã KH, ta tích hợp được 2 lược đồ EER1 và EER2 được IEER:
Trang 84.2 Thiết kế mô hình cho data warehouse 4.2.1 Lược đồ hình sao
Trang 94.2.2 Đặc tả chi tiết
Sale_Fact: Các bản ghi chứa thông tin về tổng số lượng (quantity_sell), tổng số
tiền (total_price) mà một khách hàng đã chi cho một sản phẩm ở 1 thành phố theo
ngày
Customer_Dim: Các bản ghi chứa thông tin khách hàng customer type mang một
trong 3 giá trị (“1”, “2”, “3”) tương ứng với 1: Khách hàng bưu điện, 2 khách hàng
du lịch, 3 khách hàng thuộc cả 2
Time_Dim: Các bản ghi chứa thông tin thời gian, với các cấp bậc Year, Month,
Date Mỗi hàng trong bảng Time thể hiện 1 ngày
Office_Dim: Các bản ghi chứa thông tin về văn phòng đại diện.
Store_Dim: Các bản ghi chứa thông tin về cửa hàng store_key, city_key là mã, tên
thành phố tương ứng của cửa hàng
Item_Dim: Các bản ghi chứa thông tin sản phẩm.
4.2.3 Ánh xạ lược đồ quan hệ sang mô hình data warehouse
Các bảng Dim:
Office_Dim
Item_Dim
Time_Dim
Trang 10Customer_Dim
Bảng Sale_Fact:
Trang 115 Cài đặt các khối dữ liệu, tải dữ liệu vào các khối
Công cụ sử dụng: SQL Server Analysis Service và SQL Server Data Tools
Bước 1: Tạo các bảng fact, dimension và đổ dữ liệu vào các bảng
Bước 2: Mở SQL Server Data Tools, tạo mới một Project Analysis Service New Data Source để kết nối với database
Trang 12Bước 3: Tạo New Data Source Views mới
Bước 4: Tạo khối dữ liệu Cube New Cube từ bảng Fact Chọn các Measure và Dimension tương ứng
Trang 13Bước 5: Thiết lập, lựa chọn thuộc tính, phân cấp dữ liệu cho các bảng Dimension.
Trang 146 Sinh các báo cáo phân tích trực tuyến
Thực hiện Deploy, sau đó Process để chạy và xem các báo cáo phân tích OLAP trực tuyến:
Chuột phải vào khối Cube dữ liệu sau đó chọn Browser để xem các báo cáo phân tích Kéo các thuộc tính hoặc độ đo vào giữa để truy vấn lọc theo yêu cầu
Trang 157 Kết luận
Công việc mà nhóm đã hoàn thành:
● Tích hợp lược đồ thành một mô hình liên kết mở rộng
● Thiết kế lược đồ hình sao
● Thử sinh báo cáo xử lý phân tích trực tuyến
Cảm ơn cô đã tận tâm và giúp đỡ chúng em trong học kì qua để có thể hoàn thành bài báo cáo này Nếu có sai sót nào trong quá trình thực hiện bài báo cáo, mong cô góp ý để nhóm có thể rút kinh nghiệm Kho và khai phá dữ liệu thực sự là một môn học hay và rất có ý nghĩa với chúng em Chúc cô luôn mạnh khoẻ, vui vẻ và thành công hơn nữa trong sự nghiệp của mình!