• Dữ liệu miêu tả quá trình xây dựng, quản lí và hoạt động của KDL • Siêu dữ liệu được lưu trữ trong một kho chứa và được truy cập bởi tất cả các thành phần của kdl... Khái niệm siêu dữ
Trang 1Chương 6: Siêu dữ liệu
Trang 3Siêu dữ liệu – Khái niệm
• Siêu dữ liệu là thành phần cơ bản để xây
dựng và quản lí một kho dữ liệu
• Trước khi một kdl có thể được truy cập mộtcách có hiệu quả, thực sự là cần thiết để
hiểu, dữ liệu gì sẵn có trong kdl, và chúng lưutrữ ở đâu
• Dữ liệu miêu tả quá trình xây dựng, quản lí
và hoạt động của KDL
• Siêu dữ liệu được lưu trữ trong một kho chứa
và được truy cập bởi tất cả các thành phần
của kdl
Trang 4Siêu dữ liệu
Trang 5Khái niệm siêu dữ liệu
• Là một lưu trữ dùng để:
– Miêu tả KDL tổng thể
– Nhận dạng kiểu kho dữ liệu
– Quản lí quá trình tích hợp dữ liệu
Trang 6Sự quan trọng của siêu dữ liệu
• Rất quan trọng trong kho dữ liệu
• Không phải là dữ kiện phân tích
• Là chìa khóa quyết định sự thành công của kho dữ liệu
• Là thành phần luôn được thay đổi, cấp nhật theo sự phát triển của kho dữ liệu
• Dùng để quản lý, điều khiển kho dữ liệu
Warehouse
Metadata Repository
Trang 7Chất lượng của siêu dữ liệu
Trang 9Các bước tạo lập siêu dữ liệu
siêu dữ liệu trong hệ thống kho dữ liệu
• Xác định các vấn đề trong tích hợp dữ liệu.
• Xác định siêu dữ liệu có thể được tạo
như thế nào, ai tạo ra và được lưu trữ ở đâu
• Miêu tả nội dung của siêu dữ liệu
Trang 10Chiến lược cho siêu dữ liệu
và sử dụng kho dữ liệu
• Phải đảm bảo được siêu dữ liệu có chất lượng cao
• Cung cấp cho người dùng thông tin có chất lượng cao
Trang 12Các loại nguồn của siêu dữ liệu
• Xác định ai là người dùng kho dữ liệu ?
• Họ cần cái gì ?
• Siêu dữ liệu chứa cái gì ?
• Sẽ sử dụng công cụ gì để xây dựng kho
dữ liệu ?
Trang 13Các kỹ thuật
• Các công cụ mô hình hóa
• Các công cụ hỗ trợ cho ETT
• Các công cụ cho người dùng cuối
• Các công cụ để tạo tài liệu kĩ thuật
Trang 14Vị trí siêu dữ liệu
• Có thể được lưu tại các csdl nguồn
• Tại máy PC có công cụ quản lí siêu dữ liệu
• Quản lý bởi người quản lí siêu dữ liệu
• Các chuẩn hóa được sinh ra bởi cấu trúc siêu dữ liệu
Trang 15Các công cụ và việc truy cập
• Ai truy cập ?
• Khi nào?
• Với mục đích gì ?
• Công cụ cho việc quản lí
• Công cụ quản lí câu hỏi
• Công cụ cho việc xây dựng kho dữ liệu
Trang 16Các loại siêu dữ liệu chi tiết
– Thông tin nguồn và đích
– Quản lý việc chuyển đổi
• Người dùng cuối (End user )
– Hỗ trợ việc sử dụng kho dữ liệu
– Hỗ trợ việc khảo sát kdl
– Hỗ trợ việc cung cấp thông tin cho kdl
Trang 17Siêu dữ liệu hệ thống tương tác
• Siêu dữ liệu cho hệ tương tác miêu tả phạm
vi, giới hạn môi trường của kdl
• Xác định những dữ liệu nào cho phép hay không cho phép kdl truy cập
• Điều khiển quá trình truyền dữ liệu từ nguồn vào kdl
• Cung cấp các thông tin cho các nhà phát
triển trong quá trình xây dựng cũng như mởrộng kdl
• No data nothing
Trang 18Siêu dữ liệu cho ETT
ánh xạ dữ liệu từ các nguồn vào kdl
Warehouse
Data Warehouse Data Model
Metadata Repository Internal
a
ro f a
http://
Hollywood
X +
12345.00 2345787.00 87877.98 5678.00
Trang 19Siêu dữ liệu cho việc chiết (1)
• Các luật kinh doanh
• Các khóa, trường và bảng nguồn
• Quản lí việc sở hữu dữ liệu
• Chuyển đổi giữa các trường
• Các bản tra cứu
• Các thay đổi giá trị khóa
External Sources
Operational Data
Sources
Extraction
Trang 20Siêu dữ liệu cho việc chiết (2)
• Các yêu cầu về lưu trữ
Operational Data
Sources
Extraction
Trang 21Operational data sources
Warehouse
Metadata repository
ETT
Mapping
Stagin g file
Transport
Trang 22• Quản lý việc chuyển đổi siêu dữ liệu
• Xem xét chu kỳ làm tươi kho dữ liệu
Trang 23Siêu dữ liệu người dùng cuối (1)
Warehouse
Metadata Repository
End User Operational
ETT
Mapping
Users
Trang 24Siêu dữ liệu người dùng cuối (2)
• Người dùng với mục đích phân tích đơn giản: yêu cầu các báo cáo chuẩn từ môi trường kdl
• Người dùng với mục đích thăm dò Cần thiết
để tham dò dữ liệu ở nhiều cấp độ Họ sẽ
dùng các toán tử Rolling up và Drilling down
để thăm dò tương tác giữa các chủ thể kinh doanh giúp cho việc đưa ra quyết định
• Người dùng với mục đích phân tích: Thực
hiện các phân tích thống kê, và đưa ra các
quyết định
Trang 25Siêu dữ liệu người dùng cuối (3)
• Ví trí của các chiều và dữ kiện
• Miêu tả nội dung
• Các thuật toán để tạo ra các tổng hợp
• Thông tin về người sử dụng kdl
Warehouse
Metadata repository
End User
Trang 26Siêu dữ liệu người dùng cuối (4)
• Cần thiết để biết ngữ cảnh của câu hỏi
Warehouse
Metadata repository
End User
Trang 27Siêu dữ liệu người dùng cuối (5)
refer to table COL_REF for details
kilograms
Trang 28Siêu dữ liệu người dùng cuối (6)
• Ví trí của các chiều và dữ kiện
• Miêu tả nội dung
• Các thuật toán để tạo ra các tổng hợp
• Thông tin về người sử dụng kdl
Warehouse
Metadata repository
End User
Trang 29Ngữ cảnh của dữ liệu (1)
• Hỗ trợ sự thay đổi theo chiều thời gian
Metadata repository Structure
Content
92 93 94 95 96
Trang 32Đặc tả siêu dữ liệu MDIS (1)
• Hiệp hội chuyên nghiên cứu về siêu dữ liệu
Trang 33Đặc tả siêu dữ liệu MDIS (2)
• Metadata Coalition là một nhóm mở của các công ty như IBM, Informix và Prism Solutions
• Muc đích của MC là để tạo ra các chuẩn hóa về:
– API cho siêu dữ Iiệu
– Cho phép người dùng điều khiển và quản lí việc truy cập và thao tác siêu dữ liệu trong môi trường của họ thông qua các công cụ siêu dữ liệu
Trang 34Đặt tả siêu dữ liệu MDIS (3)
• MDIS có thể được mở rộng Mô hình siêu dữliệu của MDIS miêu tả các thực thể và mối liên hệ giữa chúng
• Database: thể hiện cho hệ thống CSDL hay một nhóm các files
• Một database chứa nhiều records, và một
record chứa một số element là thành phần bénhất
• Subschema: thể hiện một lược đồ logic con
Trang 35Đặt tả siêu dữ liệu MDIS (4)
• Relationship: thể hiện mối quan hệ giữa các đối
tượng Các mối quan hệ bao gồm:
• Level: thể hiện cấp trong lược đồ phân cấp của chiều
• Mỗi một đặt tả đều có header miêu tả các thông tin
về dữ liệu đượu lưu trữ
Trang 36Ngôn ngữ Telos miêu tả MDIS
• Được phát triển bởi trường đại học Toronto
và một số dự án tại châu Âu vào cuối những năm 1980s
• Miêu tả các đối tượng và cung cấp sự kết nối giữa chúng
• Ngoài việc cung cấp cú pháp nó còn cung
cấp về mặt ngữ nghĩa, các mô hình siêu dữliệu
• Và được ứng dụng rất nhiều trong các hệ
thống thông tin: DW, Sematic Web,…
Trang 37Các công cụ quản lí siêu dữ liệu