Group 8 5/21/12 Universal Top-k Keyword Search over Relational Databases Tìm kiếm từ khóa phổ dụng top-k trên các cơ sở dữ liệu quan hệ... Group 8 5/21/12 KHÁI QUÁT Tìm kiếm theo khóa
Trang 1Click to edit Master
subtitle style
Group 8 5/21/12
BÁO CÁO BÀI TẬP LỚN
CƠ SỞ DỮ LIỆU
[2011]
ĐH Bách Khoa Hà Nội
GV: Nguyễn Thị Kim Anh
Nhóm 8:
• Vũ Việt Trung – SHSV: 20092898
• Bạch Ngọc Sơn – SHSV: 20092225
Trang 2Group 8 5/21/12
Universal Top-k Keyword Search
over Relational Databases
Tìm kiếm từ khóa phổ dụng top-k
trên các cơ sở dữ liệu quan hệ
Trang 3Group 8 5/21/12
KHÁI QUÁT
Tìm kiếm theo khóa
• Một trong những mô hình hiệu quả
nhất cho khai phá thông tin
• Đơn giản
• Chất lượng kết quả: nội dung & cấu
trúc
Giải pháp đề xuất cho kết quả tốt hơn
• Cách tiếp cận tổng hợp - lai
• Sử dụng bộ đệm
• Phân tách các truy vấn phức tạp
Trang 4Group 8 5/21/12
GIỚI THIỆU
Hạn chế của truy vấn văn bản trên các hệ quản trị cơ sở dữ liệu hiện nay:
• Chỉ thực hiện trên một lược đồ dữ liệu
cụ thể
• Người dùng cần nắm thống tin về lược đồ
• Người dùng cần biết về khả năng tìm kiếm văn bản đầy đủ (full-text search)
• Các truy vấn cấu trúc trở nên phức tạp với yêu cầu thông tin ngày càng cao
Trang 5Group 8 5/21/12
Quan hệ Cô - Cháu gái
Trang 6Group 8 5/21/12
Tìm người tên Joan có cháu gái tên Caroline
Trang 7Group 8 5/21/12
ĐẶT VẤN ĐỀ
từ khóa được đánh giá dựa trên quan hệ giữa kết quả và từ khóa hàm tính điểm (scoring function)
DBMSs
o Single document
o Virtual record (Joining tuples)
Trang 8Group 8 5/21/12
Các khái niệm
đồ thị có hướng biểu thị các mối quan hệ
o relation Ri node si
o relationship(Ri Rj) edge(si, sj)
• Data graph (DG) - đồ thị dữ liệu
o Tuple t node di
o Referencing(ti tj) edge(ti, tj)
• Joining tree of tuples (JTT)
đồ thị con liên thông phi chu trình của DG
Trang 9Group 8 5/21/12
Joining tree of tuple (JTT)
Information node
nút thông tin – chứa từ khóa
cần tìm
Connection node nút liên kết – kết nối các
info node
Mọi nút lá của JTT đều là nút thông tin
Trang 10Group 8 5/21/12
Quality of JTT
• Content quality
cho biết mức độ các nút thông tin khớp với từ khóa
• Structural quality
đánh giá ngữ nghĩa của sự liên kết thông tin – tính chính xác của mối quan hệ tương ứng
10
Trang 11Group 8 5/21/12
Phân loại các giải pháp
o Cụ thể hóa DG
o Lưu cả DG trong bộ nhớ
truy cập trực tiếp các bộ dữ liệu, dễ dàng mở rộng cây tìm kiếm
o Structural quality:
o Content quality:
Đơn giản nhưng không hiệu quả vì tính toán phân tán trên từng bộ
11
ω1=‘Joan’
ω2=‘Caroli
ne’
ω3=‘Kenne
dy’
IR-score của JTT-1 bị ảnh hưởng đáng kể bởi họ
‘Kennedy’ do sự xuất hiện
lặp lại trên các bộ
Trang 12Group 8 5/21/12
Phân loại các giải pháp (tt)
o DG được giữ dưới DBMS
o Chỉ lưu SG trong bộ nhớ, lấy thông tin cần thiết qua truy vấn
SQL
tiết kiệm không gian nhớ, nhưng I/O cao
o Không bị hạn chế về content quality nhưng đòi hỏi hàm kết
hợp phức tạp
12
hybrid approach
Better structural
Trang 13Group 8 5/21/12
Định nghĩa vấn đề
13
Trang 14Group 8 5/21/12
Định nghĩa vấn đề (tt)
T1, T2, … Tk
Xếp hạng kết quả theo hàm tính điểm score(Ti, Q)
14
Trang 15Group 8 5/21/12
Đề xuất ma trận chất lượng cấu trúc
15
Trang 16Group 8 5/21/12
Độ kết nối
16
Trang 17Group 8 5/21/12
Table 1
17
Trang 18Group 8 5/21/12
Summary
18