Tiếp tục chương 2, chương 3 của Bài giảng Kho dữ liệu và khai phá dữ liệu gồm các nội dung về khái niệm kho dữ liệu, mô hình dữ liệu đa chiều, kiến trúc của kho dữ liệu, cài đặt kho dữ liệu và xử lí phân tích trực tuyến, kho dữ liệu hỗ trợ quyết định.Mời các bạn tham khảo.
Trang 1KHÁI NIỆM CHUNG VỀ
KHO DỮ LIỆU
VÀ KHAI PHÁ DỮ LIỆU
1
Trang 2Nội dung
1. Khái niệm về kho dữ liệu
2. Mô hình dữ liệu đa chiều
3. Kiến trúc của kho dữ liệu
4. Cài đặt kho dữ liệu và Xử lý phân tích trực tuyến
5. Liên hệ công nghệ kho dữ liệu với khai pha dữ liệu
6. Xây dựng kho dữ liệu với mục đích hỗ trợ quyết
định
Trang 3 Kho dữ liệu (data warehouse) là nơi lưu trữ dữ liệu.
Các tổ chức có thể chết đuối trong dữ liệu nhưng
Khái niệm về kho dữ liệu
Trang 4 Kho dữ liệu dung cho mục đích riêng biệt, lĩnh vực
hẹp gọi là Data Mart
Một Data warehouse có thể hình thành nhiều Data
Trang 5 Công cụ ETL (Extract – Transform – Load):
Rút trích (Extract):
Rút trích thông tin từ những nguồn đã có,
Những phiên bản phụ thuộc thời gian của dữ liệu,
Chọn lựa dữ liệu.
Chuyển đổi (Transform):
Chuyển đổi các định dạng khác nhau về định dạng
Trang 6 Dữ liệu hướng chủ thể:
Dữ liệu hướng theo từng nhóm đối tượng: khách
hang, bệnh nhân, sản phẩm, …
Tập trung vào việc mô hình hóa và phân tích các
dữ liệu cho các nhà sản xuất quyết định
Chuyển từ hướng ứng dụng sang hướng hỗ trợ
Trang 7 Cần được chuẩn hóa để đảm bảo tính nhất quán
trong quy ước đặt tên, …
Việc chuẩn hóa cần thực hiện trước khi tích hợp
7
Các đặc tính của kho dữ liệu
Trang 8 Dữ liệu biến thời gian.
Thông tin về quá khứ, hiện tại,
So sánh dữ liệu theo chiều thời gian,
Hỗ trợ quyết định cho tương lai
Thành phần thời gian có thể tường minh hoặc
ngầm định
Dữ liệu mang tính bền vững, chỉ đọc (non volatile):
Có thể thêm vào, nhưng không thay thế,
Phục vụ việc nghiên cứu, phân tích
Các đặc tính của kho dữ liệu
Trang 9 Phục vụ các phân tích dữ liệu phức tạp:
Phân tích định hướng,
Phân tích chuỗi thời gian,
Phân tích rủi ro
Hỗ trợ khám phá thông tin, tri thức ẩn
Hỗ trợ ra quyết định
9
Sự cần thiết của kho dữ liệu
Trang 10 Kho dữ liệu dựa trên mô hình dữ liệu đa chiều cho phép
nhìn dữ liệu dưới hình thức của một khối dữ liệu
Một khối dữ liệu cho phép dữ liệu được mô hình và
được nhìn trong nhiều chiều bởi:
Các bản chiều (Dimension Tables) như Item
(item_name, brand, type); time(day, week, month)
Một khối dữ liệu dựa trên n-D (n chiều) được gọi là một
cuboid cơ sở
Mô hình dữ liệu đa chiều
Trang 11 Cube: một lưới các cuboid
11
Mô hình dữ liệu đa chiều
Trang 12 Mô hình ý niệm của Kho dữ liệu
Lược đồ hình sao (Star schema): Một bảng sự kiện ở
giữa nối đến một tập bảng chiều
Lược đồ hình bông tuyết (Snowflake schema): Là lược
đồ tinh chế từ lược đồ hình sao (một vài chiều có sự phân cấp được chuẩn hóa thành một tập các bảng chiều nhỏ hơn).
Chòm sao sự kiện (Fact constellation): Nhiều bảng sự
kiện chia sẽ các bảng chiều Một cách gọi khác cho lược
đồ này Galaxy schema (lược đồ thiên hà)
Mô hình dữ liệu đa chiều
Trang 13 Lược đồ hình sao
13
Mô hình dữ liệu đa chiều
Bảng sự kiện chứa dữ liệu sự kiện hoặc định
lượng
Quan hệ 1:N của bảng chiều và bảng
sự kiện
Bảng chiều chứa các mô tả
về các chủ thể của nghiệp vụ
Trang 14 Lược đồ chòm sao sự kiện
Mô hình dữ liệu đa chiều
Trang 15 Lược đồ hình bông tuyết
15
Mô hình dữ liệu đa chiều
location_key street
city_key
location
Sales Fact Table
time_key item_key branch_key
location_key
units_sold dollars_sold avg_sales
item_key item_name brand
type supplier_key item
city_key city province_or_street country
city
Trang 161. Kiến trúc 2 lớp khái quát (Generic Two-Level
Architecture)
2. Data Mart độc lập (Independent Data Mart)
3. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp
(Dependent Data Mart and Operational Data Store)
4. Data Mart luận lý và Kho dữ liệu tích cực (Logical
Data Mart and @ctive Warehouse)
5. Kiến trúc dữ liệu ba lớp (Three-Layer data
architecture)
Kiến trúc của kho dữ liệu
Trang 172. Kiến trúc 2 lớp khái quát :
Trang 192. Data Mart độc lập:
Dữ liệu được rút trích từ môi trường hoạt động mà
không có ảnh hưởng của kho dữ liệu
Hạn chế của Data Mart độc lập:
Mỗi Data Mart độc lập cần một ETL riêng,
Các Data Mart không tương thích nhau,
Tốn nhiều chi phí để có một ứng dụng mới,
Tốn chi phí để làm cho các Data Mart tương thích
nhau
19
Kiến trúc của kho dữ liệu
Trang 203. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp:
Kiến trúc của kho dữ liệu
E
T
L
Trang 213. Data Mart phụ thuộc và kho lưu trữ dữ liệu tác nghiệp:
Data Mart phụ thuộc:
Data Mart được nạp dữ liệu dành riêng từ kho dữ
liệu doanh nghiệp
Kho lưu trữ dữ liệu hoạt động:
Một cơ sở dữ liệu tích hợp hướng chủ thể, có thể
cập nhật
Được thiết kế dành cho người dung tác nghiệp
trong quá trình làm hỗ trợ quyết định
21
Kiến trúc của kho dữ liệu
Trang 224. Data Mart luận lý và kho lưu trữ dữ liệu tích cực:
Kiến trúc của kho dữ liệu
E
T
L
Trang 234. Data Mart luận lý và kho lưu trữ dữ liệu tích cực:
Data Mart luận lý:
Là Data Mart dưới góc nhìn lược đồ quan hệ
Trang 245. Kiến trúc dữ liệu 3 lớp:
Kiến trúc của kho dữ liệu
Trang 255. Kiến trúc dữ liệu 3 lớp:
Dữ liệu hòa hợp (Reconcile data):
Dữ liệu có tính chi tiết.
Dữ liệu chính thức cho tất cả ứng dụng hỗ trợ quyết định.
Dữ liệu chuyển giao (Derived data):
Dữ liệu được chọn chuyển cho người dùng cuối trong
Trang 26Chương 3:
CÔNG NGHỆ KHO DỮ LIỆU
VÀ PHÂN TÍCH TRỰC TUYẾN
Trang 27Nội dung
1 Khái niệm về kho dữ liệu
2 Mô hình dữ liệu đa chiều
3 Kiến trúc của kho dữ liệu
4 Cài đặt kho dữ liệu và Xử lý phân tích trực tuyến.
5 Liên hệ công nghệ kho dữ liệu với khai phá dữ liệu.
6 Xây dựng kho dữ liệu với mục đích hỗ trợ quyết
định.
2
Trang 28Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Xử lý phân tích trực tuyến (On-line Transaction
Processing – OLAP):
Làm việc với dữ liệu đã được biến đổi
Sử dụng các bảng chiều (dimension table) và bảng
sự kiện (fact table) tạo khối (cube) cho dữ liệu nhằmthể hiện sự đa chiều cho dữ liệu
Hỗ trợ người dùng phân tích dữ liệu qua việc cắt lát
(slice) dữ liệu theo các khía cạnh khác nhau:
Khoan xuống (drill down): khai thác chi tiết của dữ liệu.
Cuộn lên (drill up): khai thác dữ liệu qua việc tổng hợp
Trang 29Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Xử lý phân tích trực tuyến (On-line Transaction
Processing – OLAP):
4
Trang 30Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Xử lý phân tích trực tuyến (On-line Transaction
Processing – OLAP):
Ngôn ngữ truy vấn kkhai phá dữ liệu (Data Mining Query
Language – DMQL – Các hàm nguyên thủy):
define cube < tên_khối >[< danh_sách_các_chiều >]:
< danh_sách_các_độ_đo >
Define dimension < tên_chiều > as < tên_chiều_được_khai
báo_lần_đầu > in cube < Tên_khối_đầu_tiên_sử_dụng chiều_đó >
Trang 31Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Xử lý phân tích trực tuyến (On-line Transaction
Processing – OLAP):
Ngôn ngữ truy vấn kkhai phá dữ liệu (Data Mining Query
Language – DMQL – Các hàm nguyên thủy):
Thuộc tính độ đo: Là một hàm tính toán trên những dữ
liệu đã được tích hợp lại dựa trên những cặp giá trị theo chiều cho trước Có 3 loại như sau:
Phân phối: count(); sum(); min(), max().
Đại số: avg() = sum()/count(), min_N(),
standard_deviation().
Khác: median(), mode(), rank().
6
Trang 32Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Xử lý phân tích trực tuyến (On-line Transaction
Processing – OLAP):
Ngôn ngữ truy vấn kkhai phá dữ liệu ( Data Mining Query
Language – DMQL – Các hàm nguyên thủy):
Trang 33Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Xử lý phân tích trực tuyến (On-line Transaction
Processing – OLAP):
8
Trang 34Cài đặt kho dữ liệu và Xử lý
Hệ thống có nhiều người dùng đồng thời, thao tác
(thêm, xóa, sửa) trên dữ liệu
Thường dùng cho mục đích thu thập dữ liệu
Trang 35Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Các kiến trúc của máy chủ cho việc xử lý phân tích trực
tuyến:
OLAP quan hệ (Relation OLAP – ROLAP):
Dùng hệ quản trị CSDL quan hệ hoặc quan hệ
mở rộng để lưu trữ và quản lý kho dữ liệu
Bao gồm sự tối ưu hóa các công việc nền tảng
của CSDL cũng như các công cụ phụ trợ bổ sung
và các dịch vụ
Có khả năng mở rộng thêm
Dung lượng Cube chỉ giới hạn bởi dung lượng
của cơ sở dữ liệu quan hệ 10
Trang 36Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Các kiến trúc của máy chủ cho việc xử lý phân tích trực
tuyến (tt):
OLAP đa chiều (MultiDimensional OLAP – MOLAP):
Lưu trữ mảng dữ liệu đa chiều dựa trên cấu trúc
mảng (thường dùng kỹ thuật ma trận thưa)
Lập chỉ mục nhanh để tính toán trước khi tổng
hợp dữ liệu
Tốn bộ nhớ
Không xem được dữ liệu mới cho đến khi xây
dựng lại Cube
Trang 37Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Các kiến trúc của máy chủ cho việc xử lý phân tích trực
tuyến (tt):
OLAP lai (Hybrid OLAP – HOLAP):
Người dùng sử dụng ROLAP và MOLAP một
cách linh hoạt
Dữ liệu yêu cầu là dạng tổng hợp thì sẽ thực
hiện truy vấn tại OLAP
Dữ liệu yêu cầu là dạng chi tiết thì truy vấn sẽ
được dịch và truy vấn tại cơ sở dữ liệu quan hệ
12
Trang 38Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Các kiến trúc của máy chủ cho việc xử lý phân tích trực
tuyến (tt):
Các máy chủ SQL chuyên dụng:
Chuyên hỗ trợ cho các truy vấn SQL trên lược đồ
hình sao hoặc lược đồ hình bông tuyết
Trang 39Cài đặt kho dữ liệu và Xử lý
phân tích trực tuyến
Công cụ phân tích trực tuyến:
SQL Server Data Tools - Business Intelligence
(SSDT-BI):
Công cụ cho phép thực hiện OLAP là “SQL Server
Business Intelligence Development Studio - BIDS”.
Microsoft SQL Server Data Tools - Business
Intelligence for Visual Studio 2013:
SSDTBI_x86_ENU.exe.
ORACLE: Oracle Business Intelligence
14
Trang 40Liên hệ công nghệ kho dữ liệu
với khai phá dữ liệu
Ứng dụng kho dữ liệu:
Xử lý thông tin: hỗ trợ việc truy vấn thông tin, phân
tích thống kê cơ bản và làm báo cáo sử dụng các bảng tham chiếu chéo, các bảng, các biểu đồ và đồthị
Xử lý phân tích: dùng cho phân tích đa chiều của
kho dữ liệu, hỗ trợ các thaotác OLAP cơ bản, cắt ngang, cắt dọc, khoan sâu, xoa
Khai phá dữ liệu
Trang 41Liên hệ công nghệ kho dữ liệu
với khai phá dữ liệu
Từ xử lý phân tích trực tuyến (OLAP) tới khai phá phân
tích trực tuyến (OLAM – Online Analytical Mining) – Do các yếu tố:
Dữ liệu trong kho dữ liệu là loại dữ liệu có chất lượng
cao, đã được làm sạch, đồng nhất và tích hợp.
Các cấu trúc xử lý thông tin sẵn có xung quanh các kho
dữ liệu như ODBC (kết nối dữ liệu), OLEDB (nhúng cơ
sở dữ liệu), truy nhập Web, các dịch vụ tiện tích, các công cụ OLAP và báo cáo.
Phân tích dữ liệu thăm dò dựa trên OLAP: có thể khai
phá với các phép toán khoan sâu, cắt lát, xoay, v.v…
Lựa chọn trực tuyến các chức năng khai phá dữ liệu:
tích hợp và hoán đổi nhiều chức năng khai thác khác nhau, các thuật toán và nhiệm vụ khác nhau 16
Trang 42Xây dựng kho dữ liệu với mục
đích hỗ trợ quyết định
Các giai đoạn xây dựng:
1 Lập kế hoạch
2 Thu thập yêu cầu về dữ liệu và mô hình hóa
3 Thiết kế và Phát triển cơ sở dữ liệu vật lý
4 Dữ liệu bản đồ và sự biến đổi
5 Khai thác dữ liệu và tải
6 Tự động hoá việc Quy trình quản lý dữ liệu
7 Phát triển ứng dụng - Tạo tập khởi đầu của báo cáo
8 Xác Nhận và kiểm tra dữ liệu
9 Đào tạo
10.Triển khai
Trang 43Xây dựng kho dữ liệu với mục
Trang 44Xây dựng kho dữ liệu với mục
đích hỗ trợ quyết định
1 Lập kế hoạch (tt)
Lập kế hoạch về hiệu năng của dự án:
Tính toán kích cỡ bản ghi cho mỗi bảng.
Ước tính số lượng bản ghi ban đầu cho mỗi bảng
Xem lại các yêu cầu truy cập kho dữ liệu để dự
đoán yêu cầu về tập chỉ mục.
Xác định các yếu tố tăng trưởng cho mỗi bảng.
Xác định bảng mục tiêu lớn nhất dự kiến trong
một giai đoạn thời gian được lựa chọn và thêm khoảng 25-30% dự trù tới kích thước bảng để xác định kích thước lưu trữ tạm thời.
Trang 45Xây dựng kho dữ liệu với mục
đích hỗ trợ quyết định
2 Thu thập các yêu cầu dữ liệu và mô hình hóa:
Các câu hỏi cần trả lời:
Người sử dụng thực hiện các công việc nghiệp vụ
như thế nào?
Hiệu suất của người dùng được đo như thế nào?
Những thuộc tính nào người sử dụng cần?
Các phân cấp trong nghiệp vụ kinh doanh của hệ
thống là gì?
Những dữ liệu nào người dùng hiện nay đang sử
dụng và họ muốn có dữ liệu nào trong tương lai?
Người dùng cần dữ liệu tổng hợp hay chi tiết ở
mức độ nào?
20
Trang 46Xây dựng kho dữ liệu với mục
− Các khóa ứng viên (candidate keys).
Mô hình nghiệp vụ nhiều chiều được thể hiện qua
các bảng Fact, các chiều, các phân cấp, các mối quan hệ và các khóa ứng cử viên cho các phạm vi phát triển của dự án.
Trang 47Xây dựng kho dữ liệu với mục
đích hỗ trợ quyết định
3 Thiết kế và Phát triển cơ sở dữ liệu vật lý:
Thiết kế cơ sở dữ liệu, bao gồm các bảng Fact,
các bảng quan hệ, và các bảng mô tả (dùng choviệc tra cứu)
Phi chuẩn dữ liệu,
Xác định các khóa,
Tạo các chiến lược lập chỉ mục,
Tạo các đối tượng cơ sở dữ liệu thích hợp
22
Trang 48Xây dựng kho dữ liệu với mục
đích hỗ trợ quyết định
4 Ánh xạ và chuyển đổi dữ liệu:
Xác định hệ thống nguồn
Xác định cách bố trí tập tin
Phát triển các yêu cầu chi tiết kỹ thuật chuyển đổi
bằng văn bản cho các biến đổi phức tạp
Ánh xạ nguồn tới dữ liệu đích
Xem xét lại các kế hoạch về hiệu năng
Trang 49Xây dựng kho dữ liệu với mục
đích hỗ trợ quyết định
5 Hình thành kho dữ liệu:
Phát triển các thủ tục để trích xuất và di chuyển
dữ liệu vào kho
Phát triển các thủ tục để nạp dữ liệu vào kho
Phát triển chương trình phần mềm hoặc dùng
các công cụ chuyển đổi dữ liệu để chuyển đổi và tích hợp dữ liệu
Kiểm thử việc trích xuất, chuyển đổi và các thủ
tục tải dữ liệu
24
Trang 50Xây dựng kho dữ liệu với mục
đích hỗ trợ quyết định
6 Thủ tục quản lý dữ liệu tự động:
Tự động hoá và lập lịch cho quá trình tải dữ liệu
Tạo sao lưu dữ liệu và các thủ tục phục hồi
Tiến hành một thử nghiệm đầy đủ của tất cả các
thủ tục tự động
Trang 51Xây dựng kho dữ liệu với mục
Phát triển các báo cáo cơ bản quan trọng
Kiểm thử tính đúng đắn của các báo cáo
Viết tài liệu cho ứng dụng
Phát triển các đường dẫn để điều hướng
26
Trang 52Xây dựng kho dữ liệu với mục
Trang 53Xây dựng kho dữ liệu với mục
đích hỗ trợ quyết định
9 Đào tạo:
Để khai thác hiệu quả, người dùng cần được đào tạovề:
Phạm vi của dữ liệu trong kho
Công cụ truy nhập đầu cuối và cách thức hoạt
động nó
Việc ứng dụng các DDS hoặc tập khởi tạo các báo
cáo bao gồm cả các khả năng ứng dụng và đuờng dẫn chuyển hướng
Liên tục đào tạo và hỗ trợ người sử dụng khi hệ
Trang 54Xây dựng kho dữ liệu với mục
Thiết lập các thủ tục để sao lưu các ứng dụng
DSS, không phải chỉ là kho dữ liệu
Tạo thủ tục điều tra và giải quyết các vấn đề liên
quan tới toàn vẹn dữ liệu
Trang 55Xây dựng kho dữ liệu với mục
Bảng Fact: Chứa dữ liệu thực tế định lượng trong
doanh nghiệp Bảng này dữ liệu có thể rất lớn
Bảng theo chiều: Chứa dữ liệu mô tả các yếu tố
ảnh hưởng tới doanh nghiệp
Lược đồ bông tuyết
30