1. Trang chủ
  2. » Giáo Dục - Đào Tạo

CÁC KIẾN TRÚC của DATA WAREHOUSE và mô HÌNH dữ LIỆU đa CHIỀU (DATA WARE HOUSE SLIDE)

43 156 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 1,71 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trắc nghiệm, bài giảng pptx các môn chuyên ngành Y dược và các ngành khác hay nhất có tại “tài liệu ngành Y dược hay nhất”; https://123doc.net/users/home/user_home.php?use_id=7046916. Slide bài giảng môn data ware house ppt dành cho sinh viên chuyên ngành công nghệ - kỹ thuật và các ngành khác. Trong bộ sưu tập có trắc nghiệm kèm đáp án chi tiết các môn, giúp sinh viên tự ôn tập và học tập tốt môn data ware house bậc cao đẳng đại học chuyên ngành công nghệ - kỹ thuật và các ngành khác

Trang 1

Bài 2

Trang 2

 Kiến trúc của Data warehouse:

Bao gồm tất cả các thành phần phân biệt với Kho dữ liệu được tích hợp là trọng tâm

o Mục đích của kiến trúc Data warehouse

- Cung cấp framework cho việc phát triển và triển khai DW

- Định nghĩa: các tiêu chuẩn, độ đo, thiết kế

tổng quát, các kỹ thuật hỗ trợ

KHÁI NIỆM

2

Trang 3

 3 Thành vùng chính trong data warehouse

acquisition)

delivery)

3

Trang 4

CÁC KHỐI THÀNH PHẦN KIẾN TRÚC

TRONG 3 VÙNG CHÍNH CỦA DW

4

Trang 5

Generic two-level architecture

E

T

L

One, company- wide

warehouse

Periodic extraction  data is not completely current in warehouse

Trang 6

Independent Data Mart Data marts:

Mini-warehouses, limited in scope

E

T

L

Separate ETL for each

independent data mart

Data access complexity

due to multiple data marts

Trang 7

Dependent data mart

with operational data store

E

T

L

Single ETL for

enterprise data warehouse

(EDW)

Simpler data access

ODS provides option for

obtaining current data

Dependent data marts

loaded from EDW

Trang 8

Logical data mart and

@ctive data warehouse

E

T

L

Near real-time ETL for

@active Data Warehouse

ODS and data warehouse data warehouse

are one and the same

Data marts are NOT separate databases,

but logical views of the data warehouse

 Easier to create new data marts

Trang 9

KHÁI NIỆM MÔ HÌNH CHIỀU

 Với mô hình ER:

 Entities: Thu thập được từ môi trường thực tiễn

 Mỗi Entity như một Table

 Chuẩn hóa

 Giảm dư thừa thông tin (tránh dị

thường xảy ra khi update/delete)  Tăng số lượng Table

nhỏ dữ liệu từ CSDL

Trang 10

ER DRAWBACKS FOR DW / NEED OF

DIMENSIONAL MODELING

table (trong khi DW có thể yêu cầu tập hợp từ số lượng lớn Table)

Trong DW, sử dụng mô hình chiều, không

cần chuẩn hóa

Trang 11

KHÁI NIỆM MÔ HÌNH DỮ LIỆU CHIỀU

 Được đề xuất và thiết kế cho một mục đích phân tích dữ liệu

 Mô hình dữ liệu này không phù hợp

cho hệ thống OLTP

 Mô hình dữ liệu này được thao tác bởi các công cụ OLAP

truy vấn mạnh dựa trên thiết kế mô hình

dữ liệu đa chiều

Server

Trang 12

VÍ DỤ VỀ MÔ HÌNH DỮ LIỆU CHIỀU

Month

Các chiều: Region, Product, Month

Trang 13

Sales Data

District

Trang 14

Một DW dựa trên một mô hình dữ liệu đa chiều với

khung nhìn dữ liệu dưới dạng các khối dữ liệu

 Một khối dữ liệu, cho phép dữ liệu được mô hình hóa

và được nhìn theo đa chiều

 Bảng chiều, như Product (item_name, type), hoặc

Time(day, week, month, quarter, year), địa danh

Region(…)

 Bảng sự kiện chứa các giá trị “đo” (như dollars_sold )

và các khóa tới mỗi bảng chiều liên quan

 Theo cách nói của DW, một khối cơ sở n-D được gọi là một cuboid cơ sở Cao nhất là 0-D cuboid chứa tóm tắt

ở mức cao nhất (được gọi là cuboid đỉnh) Dàn các

cuboid tạo thành một khối dữ liệu.

KHỐI DỮ LIỆU (CUBE)

14

Trang 15

Total annual sales

sum

VÍ DỤ VỀ KHỐI DỮ LIỆU

Trang 16

CUBE: MỘT LƯỚI CÁC CUBOID

all time item city supplier

Trang 17

KHÁI NIỆM MÔ HÌNH DỮ LIỆU CHIỀU

 Mô hình chiều tập trung hướng chủ thể,

những yếu tố cơ bản của kinh doanh

 Những yếu tố cơ bản được lưu trong các

facts

 Dư thừa dữ liệu là không quan trọng

Trang 18

KHÁI NIỆM MÔ HÌNH DỮ LIỆU

 Được tính toán trước

 Ví dụ: số lượng đã bán, doanh thu,…

Trang 19

LƯỢC ĐỒ HÌNH SAO (STAR SCHEMA)

Trang 20

description brand

category

CUSTOMER

customer_key (PK) customer_name purchase_profile credit_profile address

PROMOTION

promotion_key (PK) promotion_name price_type

ad_type

FACT

time_key (FK) store_key (FK) clerk_key (FK) product_key (FK) customer_key (FK) promotion_key (FK)

dollars_sold units_sold dollars_cost

Trang 21

CÁC KHOÁ

 Đ ịnh danh trong bảng chiều

 Khóa của bảng fact:

 Kết hợp từ các khóa của các bảng chiều

 Khóa đại diện (Surrogate keys)

 Thay thế cho PK, được phát sinh để định danh bản ghi , không liên quan đến dữ liệu trong bảng

 Khóa tự nhiên (natural key) :

Định danh của bản ghi theo logic của dữ liệu (định danh bản ghi một cách tự nhiên)

Trang 22

CÁC KHOÁ

Tạo lập các index để tăng tốc độ

Khoá được xác định trong giai đoạn

Trang 23

ƯU ĐIỂM CỦA LƯỢC ĐỒ HÌNH SAO

Tối ưu cho việc truy vấn (ít kết nối

bảng  truy vấn nhanh)

Trang 24

LƯỢC ĐỒ BÔNG TUYẾT ( SNOWFLAKE

SCHEMA)

24

 Mở rộng của Star

Schema

chuẩn hóa thành các chiều nhỏ hơn

Trang 25

city_key location

Sales Fact Table

branch_key location_key units_sold dollars_sold avg_sales Measures

item_key item_name brand

type supplier_key item

city_key city

state_or_province country

city

Trang 26

LƯỢC ĐỒ BÔNG TUYẾT

 Tiết kiệm không gian lưu trữ

 Tối ưu hóa một số truy vấn đặc biệt

26

Trang 27

MÔ HÌNH FACT CONSTELLATION

city province_or_state country

location

Sales Fact Table

time_key item_key branch_key location_key

units_sold dollars_sold avg_sales Measures

item_key item_name brand

type supplier_type item

to_location dollars_cost units_shipped

shipper_key shipper_name location_key shipper_type shipper

Trang 28

BÀI TẬP: THIẾT KẾ MÔ HÌNH DỮ LIỆU ĐA

CHIỀU CHO VIỆC PHÂN TÍCH SỐ LƯỢNG

TN CỦA SV

28

Trang 29

 Là tiến trình chuyển một số quan hệ đã chuẩn

hóa thành các quan hệ phi chuẩn khóa

nối bảng trong truy vấn

29

Trang 30

5 KỸ THUẬT ĐỂ PHI CHUẨN HÓA

30

Trang 31

COLLAPSING TABLES (ONE-TO-ONE) [1]

31

Kết hợp 2 thực thể quan hệ 1-1

Trang 32

PRE-JOINING [1]

32

Trang 33

SPLITTING TABLES [1]

33

Trang 34

REDUNDANT COLUMNS [1]

34

Trang 35

THAO TÁC OLAP ĐIỂN HÌNH (10/6)

Nhờ leo theo phân cấp hoặc theo rút gọn chiều

Từ tóm tắt mức cao tới tóm tắt mức thấp hoặc dữ liệu chi tiết,

or mở đầu một chiều mới

Chiếu và chọn (project and select )

Xoay chiều khối DL, trực quan hóa (ex: 3D thành một dãy mặt hai chiều)

 Thao tác khác

các bảng quan hệ đáy của nó (dùng SQL)

Trang 36

36

Trang 37

from factDulieuBan group by mamh,manh with cube

Trang 38

MÔ HÌNH TRUY VẤN MẠNG NGÔI SAO

PRODUCT LINE PRODUCT ITEM

SALES PERSON

DISTRICT

DIVISION Organization Promotion

CITY COUNTRY REGION

Location

DAILY QTRLY

ANNUALY

Time

Mỗi chu trình được gọi là một vết

Trang 39

BỐN BƯỚC THIẾT KẾ MÔ HÌNH ĐA

3. Identify the Dimensions

4. Identify the Facts

the grain

Trang 41

B2 – XÁC ĐỊNH GRAIN

table

 Ý nghĩa của mỗi dòng trong Fact table

Ví dụ:

an airport gate

for each item in a warehouse

Trang 43

B4 – XÁC ĐỊNH FACTS

 Đúng với với Grain định nghĩa trong bước 2.

 Facts that belong to a different grain belong in a separate fact table.

 Facts được xác định bởi việc trả lời câu hỏi, “Đo lường cái gì?”

 Tỷ lệ phần trăm hay hệ số (nếu không tính

được)

Ngày đăng: 22/03/2021, 20:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w