Trắc nghiệm, bài giảng pptx các môn chuyên ngành Y dược và các ngành khác hay nhất có tại “tài liệu ngành Y dược hay nhất”; https://123doc.net/users/home/user_home.php?use_id=7046916. Slide bài giảng môn data ware house ppt dành cho sinh viên chuyên ngành công nghệ - kỹ thuật và các ngành khác. Trong bộ sưu tập có trắc nghiệm kèm đáp án chi tiết các môn, giúp sinh viên tự ôn tập và học tập tốt môn data ware house bậc cao đẳng đại học chuyên ngành công nghệ - kỹ thuật và các ngành khác
Trang 1Bài 2
Trang 2 Kiến trúc của Data warehouse:
Bao gồm tất cả các thành phần phân biệt với Kho dữ liệu được tích hợp là trọng tâm
o Mục đích của kiến trúc Data warehouse
- Cung cấp framework cho việc phát triển và triển khai DW
- Định nghĩa: các tiêu chuẩn, độ đo, thiết kế
tổng quát, các kỹ thuật hỗ trợ
KHÁI NIỆM
2
Trang 3 3 Thành vùng chính trong data warehouse
acquisition)
delivery)
3
Trang 4CÁC KHỐI THÀNH PHẦN KIẾN TRÚC
TRONG 3 VÙNG CHÍNH CỦA DW
4
Trang 5Generic two-level architecture
E
T
L
One, company- wide
warehouse
Periodic extraction data is not completely current in warehouse
Trang 6Independent Data Mart Data marts:
Mini-warehouses, limited in scope
E
T
L
Separate ETL for each
independent data mart
Data access complexity
due to multiple data marts
Trang 7Dependent data mart
with operational data store
E
T
L
Single ETL for
enterprise data warehouse
(EDW)
Simpler data access
ODS provides option for
obtaining current data
Dependent data marts
loaded from EDW
Trang 8Logical data mart and
@ctive data warehouse
E
T
L
Near real-time ETL for
@active Data Warehouse
ODS and data warehouse data warehouse
are one and the same
Data marts are NOT separate databases,
but logical views of the data warehouse
Easier to create new data marts
Trang 9KHÁI NIỆM MÔ HÌNH CHIỀU
Với mô hình ER:
Entities: Thu thập được từ môi trường thực tiễn
Mỗi Entity như một Table
Chuẩn hóa
Giảm dư thừa thông tin (tránh dị
thường xảy ra khi update/delete) Tăng số lượng Table
nhỏ dữ liệu từ CSDL
Trang 10ER DRAWBACKS FOR DW / NEED OF
DIMENSIONAL MODELING
table (trong khi DW có thể yêu cầu tập hợp từ số lượng lớn Table)
Trong DW, sử dụng mô hình chiều, không
cần chuẩn hóa
Trang 11KHÁI NIỆM MÔ HÌNH DỮ LIỆU CHIỀU
Được đề xuất và thiết kế cho một mục đích phân tích dữ liệu
Mô hình dữ liệu này không phù hợp
cho hệ thống OLTP
Mô hình dữ liệu này được thao tác bởi các công cụ OLAP
truy vấn mạnh dựa trên thiết kế mô hình
dữ liệu đa chiều
Server
Trang 12VÍ DỤ VỀ MÔ HÌNH DỮ LIỆU CHIỀU
Month
Các chiều: Region, Product, Month
Trang 13Sales Data
District
Trang 14 Một DW dựa trên một mô hình dữ liệu đa chiều với
khung nhìn dữ liệu dưới dạng các khối dữ liệu
Một khối dữ liệu, cho phép dữ liệu được mô hình hóa
và được nhìn theo đa chiều
Bảng chiều, như Product (item_name, type), hoặc
Time(day, week, month, quarter, year), địa danh
Region(…)
Bảng sự kiện chứa các giá trị “đo” (như dollars_sold )
và các khóa tới mỗi bảng chiều liên quan
Theo cách nói của DW, một khối cơ sở n-D được gọi là một cuboid cơ sở Cao nhất là 0-D cuboid chứa tóm tắt
ở mức cao nhất (được gọi là cuboid đỉnh) Dàn các
cuboid tạo thành một khối dữ liệu.
KHỐI DỮ LIỆU (CUBE)
14
Trang 15Total annual sales
sum
VÍ DỤ VỀ KHỐI DỮ LIỆU
Trang 16CUBE: MỘT LƯỚI CÁC CUBOID
all time item city supplier
Trang 17KHÁI NIỆM MÔ HÌNH DỮ LIỆU CHIỀU
Mô hình chiều tập trung hướng chủ thể,
những yếu tố cơ bản của kinh doanh
Những yếu tố cơ bản được lưu trong các
facts
Dư thừa dữ liệu là không quan trọng
Trang 18KHÁI NIỆM MÔ HÌNH DỮ LIỆU
Được tính toán trước
Ví dụ: số lượng đã bán, doanh thu,…
Trang 19LƯỢC ĐỒ HÌNH SAO (STAR SCHEMA)
Trang 20description brand
category
CUSTOMER
customer_key (PK) customer_name purchase_profile credit_profile address
PROMOTION
promotion_key (PK) promotion_name price_type
ad_type
FACT
time_key (FK) store_key (FK) clerk_key (FK) product_key (FK) customer_key (FK) promotion_key (FK)
dollars_sold units_sold dollars_cost
Trang 21CÁC KHOÁ
Đ ịnh danh trong bảng chiều
Khóa của bảng fact:
Kết hợp từ các khóa của các bảng chiều
Khóa đại diện (Surrogate keys)
Thay thế cho PK, được phát sinh để định danh bản ghi , không liên quan đến dữ liệu trong bảng
Khóa tự nhiên (natural key) :
Định danh của bản ghi theo logic của dữ liệu (định danh bản ghi một cách tự nhiên)
Trang 22CÁC KHOÁ
Tạo lập các index để tăng tốc độ
Khoá được xác định trong giai đoạn
Trang 23ƯU ĐIỂM CỦA LƯỢC ĐỒ HÌNH SAO
Tối ưu cho việc truy vấn (ít kết nối
bảng truy vấn nhanh)
Trang 24LƯỢC ĐỒ BÔNG TUYẾT ( SNOWFLAKE
SCHEMA)
24
Mở rộng của Star
Schema
chuẩn hóa thành các chiều nhỏ hơn
Trang 25city_key location
Sales Fact Table
branch_key location_key units_sold dollars_sold avg_sales Measures
item_key item_name brand
type supplier_key item
city_key city
state_or_province country
city
Trang 26LƯỢC ĐỒ BÔNG TUYẾT
Tiết kiệm không gian lưu trữ
Tối ưu hóa một số truy vấn đặc biệt
26
Trang 27MÔ HÌNH FACT CONSTELLATION
city province_or_state country
location
Sales Fact Table
time_key item_key branch_key location_key
units_sold dollars_sold avg_sales Measures
item_key item_name brand
type supplier_type item
to_location dollars_cost units_shipped
shipper_key shipper_name location_key shipper_type shipper
Trang 28BÀI TẬP: THIẾT KẾ MÔ HÌNH DỮ LIỆU ĐA
CHIỀU CHO VIỆC PHÂN TÍCH SỐ LƯỢNG
TN CỦA SV
28
Trang 29 Là tiến trình chuyển một số quan hệ đã chuẩn
hóa thành các quan hệ phi chuẩn khóa
nối bảng trong truy vấn
29
Trang 305 KỸ THUẬT ĐỂ PHI CHUẨN HÓA
30
Trang 31COLLAPSING TABLES (ONE-TO-ONE) [1]
31
Kết hợp 2 thực thể quan hệ 1-1
Trang 32PRE-JOINING [1]
32
Trang 33SPLITTING TABLES [1]
33
Trang 34REDUNDANT COLUMNS [1]
34
Trang 35THAO TÁC OLAP ĐIỂN HÌNH (10/6)
Nhờ leo theo phân cấp hoặc theo rút gọn chiều
Từ tóm tắt mức cao tới tóm tắt mức thấp hoặc dữ liệu chi tiết,
or mở đầu một chiều mới
Chiếu và chọn (project and select )
Xoay chiều khối DL, trực quan hóa (ex: 3D thành một dãy mặt hai chiều)
Thao tác khác
các bảng quan hệ đáy của nó (dùng SQL)
Trang 3636
Trang 37from factDulieuBan group by mamh,manh with cube
Trang 38MÔ HÌNH TRUY VẤN MẠNG NGÔI SAO
PRODUCT LINE PRODUCT ITEM
SALES PERSON
DISTRICT
DIVISION Organization Promotion
CITY COUNTRY REGION
Location
DAILY QTRLY
ANNUALY
Time
Mỗi chu trình được gọi là một vết
Trang 39BỐN BƯỚC THIẾT KẾ MÔ HÌNH ĐA
3. Identify the Dimensions
4. Identify the Facts
the grain
Trang 41B2 – XÁC ĐỊNH GRAIN
table
Ý nghĩa của mỗi dòng trong Fact table
Ví dụ:
an airport gate
for each item in a warehouse
Trang 43B4 – XÁC ĐỊNH FACTS
Đúng với với Grain định nghĩa trong bước 2.
Facts that belong to a different grain belong in a separate fact table.
Facts được xác định bởi việc trả lời câu hỏi, “Đo lường cái gì?”
Tỷ lệ phần trăm hay hệ số (nếu không tính
được)