1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo Tiểu luận THIẾT KẾ KHO DỮ LIỆU CHO MÔI TRƯỜNG THƯƠNG MẠI ĐIỆN TỬ

34 571 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Thiết kế kho dữ liệu cho môi trường thương mại điện tử
Tác giả Lê Duy Tiến, Bùi Xuân Trọng, Nguyễn Quốc Thắng
Người hướng dẫn PGS, TS. Hà Quang Thụy
Trường học Đại học Công nghệ - ĐHQGHN
Thể loại Tiểu luận
Năm xuất bản 2011
Thành phố Hà Nội
Định dạng
Số trang 34
Dung lượng 26,38 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Giảng viên: PGS, TS. Hà Quang Thụy Học viên: Lê Duy Tiến Bùi Xuân Trọng Nguyễn Quốc Thắng Hà Nội, ngày 10 tháng 8 năm 2011 Thương mại điện tử cung cấp việc chia sẻ thông tin kinh doanh, duy trì mối quan hệ kinh doanh, và tiến hành giao dịch kinh doanh dựa trên các mạng truyền thông ● Một kho dữ liệu là nơi chứa dữ liệu tích hợp có tính lịch sử của một công ty với mục đích hỗ trợ việc xử lý và đưa ra quyết định. ● Từ áp lực kinh doanh, cả từ bên trong và bên ngoài, bắt buộc các dự án kho dữ liệu phải thể hiện sự hữu ích của chúng tới công việc kinh doanh một cách nhanh chóng

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Giảng viên: PGS, TS Hà Quang Thụy Học viên: Lê Duy Tiến

Bùi Xuân Trọng Nguyễn Quốc Thắng

Hà Nội, ngày 10 tháng 8 năm 2011

Báo cáo Tiểu luận

THIẾT KẾ KHO DỮ LIỆU CHO MÔI TRƯỜNG THƯƠNG MẠI ĐIỆN TỬ

Trang 2

GiỚI THIỆU VỀ KHO DỮ LIỆU VÀ PHƯƠNG PHÁP LUẬN THIẾT KẾ

Trang 3

● Thương mại điện tử cung cấp việc chia sẻ thông tin kinh doanh, duy trì mối quan hệ kinh doanh, và tiến hành giao dịch kinh doanh dựa trên các mạng truyền thông

● Một kho dữ liệu là nơi chứa dữ liệu tích hợp có tính lịch

sử của một công ty với mục đích hỗ trợ việc xử lý và đưa

ra quyết định.

● Từ áp lực kinh doanh, cả từ bên trong và bên ngoài, bắt buộc các dự án kho dữ liệu phải thể hiện sự hữu ích của chúng tới công việc kinh doanh một cách nhanh chóng.

Trang 4

● Mục tiêu của thiết kế kho dữ liệu là tạo ra một lược đồ

được tối ưu hóa để xử lý hỗ trợ việc đưa ra quyết định kinh doanh Các hệ thống OLTP chủ yếu được thiết kế dựa trên thông qua phát triển các biểu đồ thực thể - liên kết (ERD)

● Lược đồ dữ liệu dành cho một kho dữ liệu phải đủ đơn

giản để những nhà phân tích kinh doanh hiểu Dữ liệu

trong kho dữ liệu phải sạch, nhất quán, và chính xác Lược

đồ dữ liệu cũng cần phải hỗ trợ xử lý truy vấn nhanh

Trang 5

Phương pháp luận để xây dựng mô hình đa chiều bao gồm 4 bước sau đây:

1 Chọn dữ liệu chuyên đề

2 Chọn hạt nhân của bảng sự kiện

3 Chọn các chiều tương ứng với hạt nhân

4 Chọn các sự kiện

Trang 6

● Các yêu cầu đặt ra:

● Xử lý dữ liệu đa phương tiện và bán cấu trúc

● Dịch danh mục giấy (catalog) sang một cơ sở dữ liệu web

● Hỗ trợ giao diện người dùng ở cấp cơ sở dữ liệu (ví dụ như: lướt web

(navigation), bố cục kho hàng, siêu liên kết…)

● Lược đồ tiến hóa (ví dụ như: ghép hai catalog, chủng loại sản phẩm,

Trang 7

● Truy vấn OLAP cho thương mại điện tử

Kho dữ liệu cần phải cung cấp cho các nhà phân tích kinh doanh các dữ liệu hữu ích mà họ cần trong một định dạng có thể sử

dụng được, do đó các yêu cầu kỹ thuật chi tiết nên bắt đầu với các nhà phân tích kinh doanh.

Thiết kế data-mart

Trang 8

● Truy vấn OLAP cho thương mại điện tử:

● Một khi các truy vấn OLAP được thu thập, các nhà thiết kế cần một số

hình thức phân loại để nhóm các truy vấn

● Gồm 7 loại chính:

● Bán hàng & Phân tích thị trường, trả lại hàng, thiết kế Website và phân

tích chuyển hướng, dịch vụ chăm sóc khách hàng, kho / tồn kho, quảng bá/khuyến mãi, và Vận chuyển.

● Đề án phân loại này dựa trên các quy trình kinh doanh giúp để hình

thành các chủ đề data-mart hơn là cố gắng để liên kết các truy vấn

OLAP đến một chiều duy nhất

(Bộ truy vấn OLAP cho TMĐT được lưu ở file PDF riêng -

Truyvan-OLAP-TMDT.PDF)

Trang 9

XÁC ĐỊNH MÔ HÌNH ĐA CHIỀU (DIMENSION MODELS) 1

THIẾT KẾ BẢNG CHIỀU (DIMENSION TABLE)

Trang 10

Kiến trúc kho dữ liệu kiểu BUS

● Là một ma trận mà các chiều là các cột và dữ liệu chuyên đề là các dòng.

● Xác định được các chiều thỏa mãn là các chiều được sử dụng bởi nhiều dữ liệu chuyên

đề.

Trang 11

● Xác định Mô hình Đa chiều

● Nhân tố của bảng sự kiện

○ Nhân tố xác định dữ liệu nguyên tố và ở mức thấp nhất mà kho dữ liệu lấy.

● Sơ đồ chi tiết bảng đa chiều

○ Xác định thuộc tính của chiều: phân tích bộ truy vấn OLAP để xác định các thuộc tính quan trọng của mỗi chiều.

○ Tìm các danh từ trong câu truy vấn OLAP để xác định thuộc tính của chiều.

○ Thiết kế kho dữ liệu là một quá trình lặp

Trang 12

● Sơ đồ chi tiết bảng Chiều Khách hàng

Trang 13

● Sơ đồ chi tiết bảng Chiều Sản phẩm

Trang 14

● Sơ đồ chi tiết bảng Chiều Website

Trang 15

● Sơ đồ chi tiết bảng Sự kiện

● Xác định thuộc tính của

bảng sự kiện Tất cả thuộc tính của bảng sự kiện được lưu trong sơ đồ chi tiết bảng

sự kiện.

● Các sự kiện được xác định

trực tiếp từ bản ghi giao

dịch.

Trang 16

● Lược đồ hình sao đầy đủ cho E-Commerce

○ Gồm một bảng sự kiện ở trung tâm được kết nối với một tập các bảng chiều

Trang 19

CÁC KHÔNG GIAN BảNG VÀ ĐÁNH CHỉ MụC CHO CÁC THUộC TÍNH 1

THIếT Kế LƯợC Đồ VậT LÝ HÌNH SAO: BÁN HÀNG TMĐT

Trang 20

● Giả định việc thiết kế kho dữ liệu được thực hiện trong Oracle8

● Bố trí bảng sự kiện và các bảng chiều hợp lý: đưa lại sự thuận lợi cho kỹ thuật xử lý song song và đa tuyến

Trang 21

● Hai kỹ thuật chính được sử dụng để tạo chỉ mục:

○ Chỉ mục bản đồ nhị phân (bitmap)

○ Chỉ mục liên kết (join)

● Các chỉ mục bitmap thường được tạo ra cho các thuộc tính có số lượng

thành tố nhỏ và thực hiện nhanh với các phép toán AND, OR và NOT

● Chỉ mục liên kết được tạo ra dựa trên liên kết giữa hai bảng được gọi là

chỉ mục kết nối (join index)

● Chỉ mục liên kết cũng có thể được tạo ra từ nhiều hơn hai bảng Trong

trường hợp này, chỉ mục liên kết được gọi là Chỉ mục kết nối đa bảng

(Multi-table joins Index).

● Các thuộc tính được đề cập trong truy vấn từ các bảng chiều phải được

đánh chỉ mục

Trang 22

● Quy luật của việc chọn loại chỉ mục

● Dựa vào giá trị tiềm năng của thuộc tính:

● Nếu giá trị tiềm năng là nhỏ hơn ngưỡng (thường là 1%) của tổng số

bản ghi trong bảng thì chỉ mục Bitmap sẽ được sử dụng

● Nếu các giá trị dữ liệu tiềm năng là lớn hơn ngưỡng (1%) thì chỉ mục cây B (B - Tree) sẽ được sử dụng

Trong đó, Tổng số thành tố chính là tổng số giá trị duy nhất (unique) của thuộc tính

Trang 26

● Có ba vấn đề chính của MVs là chọn lọc một tập MVs tối ưu, duy trì các MVs đó một cách tự động và tăng dần, và các truy vấn tối ưu sử dụng

những MVs đó

● Thương mại chủ yếu ứng dụng các kết tập một cách thủ công và duy trì chúng dưới dạng dữ liệu đặc tả và xử lý theo chế độ tuần tự (batch), hoặc mới bắt đầu thực hiện các kỹ thuật khung nhìn đơn giản

● Kết tập và các khung nhìn thực hiện tính toán trước một dữ liệu tổng hợp

từ bảng gốc xác định

● Microsoft OLAP Server tạo các kết tập nhằm gia tăng hiệu suất

● Oracle hỗ trợ các khung nhìn kết nối, các khung nhìn kết tập, và các

khung nhìn truy vấn con

Trang 27

● Các đặc điểm của kết tập:

● Kết tập hình sao được xây dựng xuất phát từ một lược đồ vật lý

hình sao cơ bản gốc

● Kết tập thực hiện tính toán trước dữ liệu đối với những truy vấn

thường xuyên, đặc biệt nhằm đưa ra câu trả lời nhanh nhất

● Lợi ích của sự kết tập thường đi kèm với chi phí về bổ sung

bộ nhớ lưu trữ và các chi phí về bảo trì

● Các lược đồ kết tập cần được đánh giá lại định kỳ theo sự

thay đổi của của yêu cầu kinh doanh

Trang 28

● Dựa trên cơ sở bộ câu truy vấn

OLAP và thứ tự ưu tiên của chúng

● Sự phân bổ thống kê của dữ

liệu

Trang 29

● Ví dụ về việc sử dụng sự phân bổ dữ liệu thống kê trong các chiều để tính toán giảm bớt việc xử lý số lượng các dòng:

Giả định 1% sản phẩm được bán mỗi ngày bởi 0,01% khách hàng với 10% chế độ vận chuyển và 10% khuyến mại.

Số lượng dòng trong bảng sự kiện cơ bản trong 1 năm =

Trang 30

● Phân tích bán hàng với nhãn hiệu hàng được bán, tháng tài chính, thành phố, phương thức vận chuyển và hình thức khuyến mại.

Trang 31

● Truy vấn tổng hợp dữ liệu: sản phẩm/nhãn mác, Ngày/Tháng, và Khách hàng/Thành phố_khách hàng

● Truy vấn dựa vào kết tập nói trên có thể được sử dụng để phân tích dọc

theo các chiều:

○ Nhãn mác: tổng hợp nhóm phụ Nhãn mác theo Tháng, tổng hợp

nhóm Nhãn mác theo Tháng, và tổng hợp Phòng quản lý Nhãn mác theo Tháng

○ Chiều Tháng: tổng hợp Nhãn mác theo Quý và tổng hợp Nhãn mác theo Năm

● Kết tập được kết hợp với các Chỉ mục kết nối đa bảng (Multi-table

joins Index) để xây dựng cây phân cấp (Hierachy) Từ đó chúng ta có

thể phân tích, tổng hợp dữ liệu ở từng mức trong Cây

Trang 32

● Các vấn đề đã nghiên cứu và trình bày:

● Phân tích yêu cầu

● Thiết kế logic

● Thiết kế vật lý và kết tập

Cụ thể:

● Tập các câu truy vấn OLAP thông dụng,

● Kiến trúc kho dữ liệu dạng “bus”,

● Các cấu trúc bảng chiều,

● Một lược đồ hình sao logic, lược đồ hình sao vật lý,

● Một lược đồ hình sao kết tập cho môi trường TMĐT

Đây là mô hình đa chiều chi tiết đầu tiên cho TMĐT Mặc dù nó chưa

áp dụng được cho tất cả doanh nghiệp TMĐT, nhưng nó là một bộ khung, là mô hình tổng quát có thể được điều chỉnh, làm mịn để áp dụng cho từng lĩnh vực kinh doanh TMĐT cụ thể.

Trang 33

● Những lợi ích của kho dữ liệu TMĐT:

● Tạo ra lợi thế cạnh tranh cho các doanh nghiệp khi sử dụng hệ thống

hỗ trợ tra quyết định trong quản lý tri thức, trí tuệ doanh nghiệp

● Các kho dữ liệu TMĐT - hệ thống hỗ trợ ra quyết định thu thập, nắm bắt dữ liệu từ nhiều khía cạnh, góc độ của TMĐT, bán hàng điện tử

● Những khó khăn trong thiết kế kho dữ liệu TMĐT:

● Nắm bắt, lưu dữ liệu khi nào?, ở đâu? và bằng cách nào? Chẳng

hạn, nắm bắt địa chỉ e-mail, địa chỉ IP của khách hàng

● Có nên sử dụng lược đồ hình sao của Kimball đề xuất một cách độc lập hay kết hợp và đặt nó trong một lược đồ mạnh hơn

Trang 34

● [1] Tập bài giảng môn Kho dữ liệu và khai phá dữ liệu

● [2] Yeol Song and Kelly LeVan-Shultz (College of Information Science and Technology, Drexel University Philadelphia, PA

19104) - Data Warehouse Design for E-Commerce

Environment

Ngày đăng: 12/08/2014, 11:00

HÌNH ẢNH LIÊN QUAN

Bảng sự kiện. Tất cả thuộc  tính của bảng sự kiện được  lưu trong sơ đồ chi tiết bảng - Báo cáo Tiểu luận THIẾT KẾ KHO DỮ LIỆU CHO MÔI TRƯỜNG THƯƠNG MẠI ĐIỆN TỬ
Bảng s ự kiện. Tất cả thuộc tính của bảng sự kiện được lưu trong sơ đồ chi tiết bảng (Trang 15)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w