Vận dụng khả năng tìm kiếm của hệ thống truy vấn mở để xây dựng môdun tích hợp vào SQL server nhằm hỗ trợ cho hệ thống trả lời truy vấn luận văn thạc sĩ

Vì thực tế thì trong mô hình xử lý truy vấn của các hệ quản trị cơ sở dữ liệu truyền thống Relational Database Management Systems - RDBMSs thường trả về một kết quả trùng khớp với truy

Trang 1

LỜI CẢM ƠN

Trước tiên, tôi thể hiện sự biết ơn sâu sắc đến cha mẹ tôi, những người

đã nuôi nấng tôi nên người, là chỗ dựa tinh thần vững chắc để tôi tự tin bước vào đời Kế tiếp, tôi xin gửi lời cảm ơn tới PGS.TS Đặng Trần Khánh, người đã cho tôi những ý tưởng quý báu, mới lạ, hướng dẫn tận tình và đầy lòng nhiệt huyết Bên cạnh đó, tôi cũng chân thành cảm ơn chồng tôi, người luôn ủng hộ và tạo mọi điều kiện để tôi có thể hoàn thành chương trình học cũng như quá trình thực hiện luận văn Cuối cùng

là lời cảm ơn tới những người đồng nghiệp đã đóng góp cho tôi những ý kiến bổ ích để tôi hòan thiện luận văn này

Trang 2

MỤC LỤC

LỜI CẢM ƠN 1

DANH MỤC CÁC HÌNH VẼ 6

CHƯƠNG 1: GIỚI THIỆU 7

1 Lý do chọn đề tài: 1

2 Mục đích nghiên cứu: 3

3 Đối tượng và phạm vi nghiên cứu: 5

4 Phương pháp nghiên cứu: 5

CHƯƠNG 2: TỔNG QUAN VỀ CÁC HỆ THỐNG TRẢ LỜI TRUY VẤN LINH HOẠT 6

1 Một số nghiên cứu liên quan 6

1.1.Phân loại các mô hình truy vấn mờ 6

1.2.Các giải pháp dựa trên nền tảng mờ (Fuzzy Based Solutions) 8

1.3.Phương pháp lân cận gần nhất (Nearest Neighbors) 8

2 Một số hệ thống hỗ trợ khả năng tìm kiếm linh hoạt 11

2.1.ARES 11

2.2.VAGUE 13

2.3.VQS (Vague Query System) 15

2.4.QBIC (Query By Image Content) 15

3 Kết luận chương: 18

CHƯƠNG 3: HỆ THỐNG TRUY VẤN MỜ VQS (Vague Query System) 20

1 Giới thiệu: 20

Trang 3

2 Tìm kiếm tương tự dựa vào ngữ nghĩa: 21

3 Các khái niệm cơ bản và kiến trúc tổng quan của hệ thống VQS: 25

3.1.Các khái niệm cơ bản 25

3.2.Ngôn ngữ truy vấn mờ VQL (Vague Query Language) 30

3.3.Kiến trúc tổng quan của hệ thống VQS 33

4.Hệ thống thông tin bất động sản (Property Information System) 35

4.1 Truy vấn mờ và các chức năng cơ bản: 35

4.2 Truy vấn mờ trong hệ thống thông tin bất động sản: 37

4.3 Định nghĩa siêu thông tin ngữ nghĩa 41

4.4 Thực thi các truy vấn mờ 44

4.5 Các điều kiện thêm vào 49

4.6 Việc thực hiện hệ thống VQS: 50

4.7.Nhúng VQS vào hệ thống thông tin bất động sản 51

5 Xử lý kết nối mờ trong VQS: 52

6 Tích hợp thêm các điều kiện sắp xếp mờ: 57

7 Kết luận 62

CHƯƠNG 4: XÂY DỰNG HỆ THỐNG HỖ TRỢ TRẢ LỜI TRUY VẤN LINH HOẠT VÀO SQL SERVER 63

1 Giới thiệu 63

2 Một số tập lệnh SQL cơ bản dùng để xây dựng VQS 63

2.1 Dạng chuẩn của truy vấn SQL trong SQL Server: 63

2.2 Một số phép toán và hàm có sẵn để xây dựng ngôn ngữ VQS 64

Trang 4

2.3 Hàm do người dùng định nghĩa 64

2.4 Chuẩn bị dữ liệu hỗ trợ cho việc tìm kiếm gần đúng 67

2.4.1.Các quan hệ và siêu dữ liệu 67

2.4.2.Khung nhìn 68

2.5 Xây dựng ngôn ngữ truy vấn mờ mở rộng 69

3 Thử nghiệm và đánh giá 71

3.1 Các giao diện modun quản lý 72

Hình 4.3 Giao diện quản lý siêu dữ liệu dành cho người quản trị 73

3.2 Các giao diện thực thi ngôn ngữ VQS gốc 73

4 Kết luận chương 75

CHƯƠNG 5: TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 76

1 Tổng kết 76

2 Hướng nghiên cứu trong tương lai 76

Trang 5

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT

DataBase Management System Incremental hyper-Cube

Approach Incremental hyper-Sphere Approach

Flexible Query Answering System

Multidimensional Access Method

Numeric Coordinate Representation Structured Query Language Property Information Systems

Vague Query Language Vague Query System Relation Database Management Syterms Information Retrival Fuzzy Database

Truy tìm hình ảnh dựa vào nội dung

Hệ quản trị cơ sở dữ liệu Phương pháp mở rộng siêu khối

Phương pháp mở rộng siêu cầu

Hệ thống trả lời truy vấn linh hoạt

Phướng pháp truy xuất đa chiều

Biểu diễn tọa độ số

Ngôn ngữ truy vấn cấu trúc

Hệ thống thông tin bất động sản

Ngôn ngữ truy vấn mờ

Hệ thống truy vấn mờ

Cơ sở dữ liệu quan hệ

Truy vấn thông tin

Cơ sở dữ liệu mờ

Trang 6

DANH MỤC CÁC HÌNH VẼ

Hình 2.1 Các kiểu truy vấn Nearest neighbor 10

Hình 2.2 Quan hệ không tương tự được định nghĩa trên thuộc tính Huong 11

Hình 2.3 Kiến trúc tổng quan của QBIC 17

Hình 3.1 Ví dụ bảng NCR về các tên màu 27

Hình 3.2 Việc bình thường hóa sử dụng đường kính có ảnh hưởng 29

Hình 3.3 Mô tả chính thức của ngôn ngữ VQL 31

Hình 3.4 Một ví dụ về sử dụng các bảng NCR 32

Hình 3.5 Sơ đồ kiến trúc tổng quát của hệ thống [4] 34

Hình 3.6 Mẫu dữ liệu bất động sản 39

Hình 3.7 Khung nhìn được chuẩn bị cho ứng dụng VQS 40

Hình 3.8 Các bảng NCR trong dữ liệu mẫu về hệ thống thông tin bất động sản 43

Hình 3.9 Minh họa về việc ánh xạ các bảng NCR đến các trường mờ 44

Hình 3.10 Tập kết quả đã được sắp xếp của truy vấn mẫu 47

Hình 3.11 Tập kết quả đã được sắp xếp với độ ưu tiên về vị trí địa lý 48

Hình 3.12 Tập kết quả được sắp xếp của một truy vấn với các điều kiện cố định 50

Hình 3.13 PIS-VQL Adapter với các khả năng truy vấn mờ 52

Hình 3.14 Mô tả chính thức của ngôn ngữ VQL mở rộng 55

Hình 3.15: Cú pháp mở rộng ngôn ngữ truy vấn mờ 58

Hình 3.16 : Bảng 1 - thông tin KHACH_SAN 60

Hình 3.17 Bảng 2 - Tập kết quả 61

Hình 4.1 Các quan hệ và các bảng miêu tả tọa độ số 68

Hình 4.2 Khung nhìn làm nguồn dữ liệu chính 69

Trang 7

Hình 4.4 Giao diện thực thi ngôn ngữ VQL 73 Hình 4.5 Kết quả của truy vấn mờ 74

Trang 8

CHƯƠNG 1: GIỚI THIỆU

1 Lý do chọn đề tài:

Trong suốt nhiều thập kỉ qua, mô hình cơ sở dữ liệu quan hệ đã chiếm lĩnh thị trường và rất thành công trong việc thỏa mãn phần lớn các yêu cầu của các ứng dụng Thành công này có thể là do sự tinh tế, đơn giản của mô hình quan hệ và những ý tưởng phát triển như: các giao dịch, kiểm soát và khôi phục sự đồng bộ, cơ sở dữ liệu phân tán, đặc biệt là ngôn ngữ truy vấn cấu trúc SQL Mặc dù thành công, nhưng các cơ sở dữ liệu ngày nay đang đối mặt với những thách thức mới trong giai đọan mà khoa học máy tính phát triển một cách nhanh chóng Một trong những thách thức đang nổi lên trong thế giới thương mại là làm thế nào để việc

xử lý những truy vấn của người dùng không chỉ hiệu quả mà còn phải linh hoạt Vì thực tế thì trong mô hình xử lý truy vấn của các hệ quản trị cơ sở

dữ liệu truyền thống (Relational Database Management Systems - RDBMSs) thường trả về một kết quả trùng khớp với truy vấn của người dùng một cách tuyệt đối, điều này không đủ đáp ứng nhu cầu của người dùng và đặc biệt không có tính linh hoạt Rõ nghĩa hơn là, khi dữ liệu có sẵn trong một cơ sở dữ liệu quan hệ mà không trùng khớp với những truy vấn của người dùng một cách tuyệt đối thì hệ thống quản trị cơ sở dữ liệu quan hệ sẽ trả về cho người dùng tập kết quả rỗng và do đó điều này làm hạn chế khả năng ứng dụng của các hệ quản trị cơ sở dữ liệu truyền thống

Trong nhiều lĩnh vực ứng dụng, người dùng không chỉ mong muốn những kết quả chính xác một cách tuyệt đối theo truy vấn mà họ cũng muốn có những kết quả khác có liên quan hoặc gần đúng với yêu cầu của họ trong

một ý nghĩa nhất định[1] Những ứng dụng này thường xuất hiện thực tế

trên thế giới như xử lý hình ảnh, hệ thống CAD/CAM, hệ thống thông tin

Trang 9

địa lý, hệ thống thông tin du lịch, hệ thống thông tin thời gian, thư viện

số, truy vấn thông tin hiện đại IR (modern Information Retrieval), thương mại điện tử và các ứng dụng khác

Lĩnh vực thương mại bất động sản là một trong những lĩnh vực kinh doanh “nóng bỏng nhất hiện nay ở Việt Nam” với nhu cầu mua, bán, cho thuê bất động sản thu hút sự quan tâm của nhiều người Mặc dù có nhiều trang web đã cung cấp nhiều thông tin với công cụ hỗ trợ tìm kiếm, nhưng đến nay vẫn chưa có một hệ thống hỗ trợ tìm kiếm nào đáp ứng tốt được nhu cầu thông tin cho người dùng Điều đó cho thấy cần phải có một sự đầu tư đúng mức trong việc xây dựng dịch vụ hỗ trợ tìm kiếm thực sự hiệu quả, đồng thời thực tế cho nhu cầu hiện tại và tương lai

Bài tóan đặt ra: khi một khách hàng tìm kiếm thông tin của một sản phẩm: ví dụ tìm kiếm thông tin về bất động sản để mua một căn nhà diện tích 100m2, kích thước mặt tiền 5m hướng đông với giá 1.000đ thuộc khu vực Quận 2, người khách hàng này sẽ không tìm thấy trong hệ thống quản

lý cơ sở dữ liệu truyền thống nếu như không có căn nhà nào như vậy Và khi đó, hệ thống sẽ trả về một kết quả rỗng và dĩ nhiên người khách hàng cảm thấy hơi thất vọng Trên thực tế thì người khách hàng này có lẽ chấp nhận một thông tin rằng có ít nhất một căn nhà có diện tích lớn hơn hoặc nhỏ hơn 100m2, hoặc giá bán lớn hơn hoặc nhỏ hơn 1.000đ, thậm chí cũng chấp nhận thông tin rằng căn nhà đó có địa chỉ không thuộc quận 2 mà thuộc quận khác

Để giải quyết bài tóan này, giải pháp là: biểu diễn lại các giá trị không phải là số trong cơ sở dữ liệu bằng các tọa độ số trong không gian đặc trưng và thông tin này được lưu trữ trong các bảng biểu diễn tọa độ

số Từ đó việc xác định độ tương tự về ngữ nghĩa được tính toán trên các bảng biểu diễn tọa độ số được dễ dàng và có độ chính xác cao, nhất là

Trang 10

trong không gian dữ liệu nhiều đặc trưng, nhiều chiều Đồng thời sử dụng

hệ thống hỗ trợ trực tiếp khả năng truy vấn mờ VRC (Vague Retrieval Capabilities) để xây dựng một hệ thống hỗ trợ tìm kiếm một cách linh

hoạt Khi đó, một cơ sở dữ liệu hay hệ thống thông tin mà hỗ trợ cho giải

pháp này được gọi là hệ thống trả lời truy vấn linh họạt FQAS (Flexible

Query Answering System)

Từ thực tế, cụ thể là bài tóan đã nêu trên, chúng tôi thấy rằng trong

hệ thống thương mại điện tử ngày nay, hệ thống FQAS trở nên ngày càng

quan trọng Bởi vì, những khách hàng chưa cần tiếp cận thực tế các mặt hàng (chẳng hạn xe hơi, quần áo, bất động sản, điện thoại ) , nhưng họ cần thấy thông tin của những hàng hóa bằng việc sử dụng máy tính trước khi quyết định mua/thuê chúng hay không Nếu hệ thống không hỗ trợ

trực tiếp khả năng truy vấn mờ VRC thì người dùng hệ thống buộc phải

thử đi thử lại nhiều lần câu truy vấn cụ thể khác (với sự thay đổi nhỏ) cho đến khi họ có được dữ liệu thỏa đáng và nếu người dùng không có bất kỳ

sự điều chỉnh nào về những câu truy vấn của họ thì giải pháp này trở nên

không khả thi [2] Như vậy, kết quả là việc phát triển các hệ thống FQASs

sẽ mang đến những giải pháp đối với những vấn đề cần thiết và không thể thiếu được cho sự phát triển của khoa học máy tính

2 Mục đích nghiên cứu:

Dữ liệu được lưu trữ trong hệ quản trị cơ sở dữ liệu khá đa dạng, với

dữ liệu đa chiều, nhiều đặc trưng Việc xử lý thông tin từ nguồn dữ liệu này để đưa ra các kết quả đáp ứng nhu cầu tìm kiếm nhiều chiều của người sử dụng một cách linh hoạt là mục đích cần đặt ra

Trang 11

Trong luận văn này chúng tôi tập trung vào các kỹ thuật tìm kiếm tương tự: xử lý các truy vấn và kết nối mờ, các truy vấn xấp xỉ, truy vấn lân cận gần nhất qua các không gian đặc trưng và tích hợp các khả năng này vào các hệ quản trị cơ sở dữ liệu Bên cạnh đó, hệ thống VQS sẽ được giới thiệu khá rõ trong [4] là một sự mở rộng của các hệ quản trị cơ sở dữ liệu (DBMS) trước đây, hệ thống VQS có thể tự động vận hành "on top" trước khi DBMS truy tìm dữ liệu nhằm vừa đáp ứng nhu cầu thông tin (từ VQS) và nhu cầu dữ liệu (từ DBMS) cho người sử dụng Luận văn nhằm tận dụng các khả năng tìm kiếm của hệ thống VQS đã được xây dựng trong [4] để mở rộng thêm toán tử so sánh tương tự cho ngôn ngữ SQL chuẩn, gọi là ngôn ngữ VQL (Vague Query Language), từ đó chúng tôi sẽ lựa chọn giải pháp đơn giản và hiệu quả nhất để tích hợp khả năng tìm kiếm của VQS vào hệ quản trị cơ sở dữ liệu SQL Server 2008, phục vụ nhu cầu tìm kiếm cho hệ thống thông tin bất động sản nói riêng và các hệ thống truy tìm thông tin hiện đại nói chung

Đề tài còn xây dựng mô đun quản trị và mô đun thực thi các truy vấn

mờ "on top" để trả lời các câu hỏi linh hoạt hơn, từ đó mở rộng dịch vụ tìm kiếm và tích hợp khả năng này vào hệ quản trị SQL Server 2008 sao cho hệ thống phải đảm bảo được tính ổn định, vận hành trơn tru và dễ sử dụng, đáp ứng được nhu cầu tìm kiếm hiện tại của người dùng muốn tìm kiếm thông tin về bất động sản

Luận văn này cũng đi vào việc giới thiệu thêm những nghiên cứu mới cho việc thiết lập lại về mặt toán học cho khái niệm VQS theo nghĩa của quan hệ mờ

Trang 12

3 Đối tượng và phạm vi nghiên cứu:

Đối tượng nghiên cứu là cơ sở dữ liệu lưu tất cả các thông tin cần tìm kiếm liên quan đến bất động sản: phòng trọ, nhà, căn hộ, đất, mặt bằng ;

hệ quản trị cơ sở dữ liệu SQL Server 2008 Các giải thuật về tính khoảng cách, tìm kiếm lân cận gần nhất dựa vào ngữ nghĩa

Đề tài được thực hiện trên việc khai thác dữ liệu từ hệ thống cơ sở dữ liệu của các trang thông tin mua bán cho thuê bất động sản trên Internet

và các phòng giao dịch bất động sản

4 Phương pháp nghiên cứu:

Các phương pháp nghiên cứu được sử dụng để thực hiện đề tài:

- Khảo sát, thu thập dữ liệu: tập hợp các nguồn dữ liệu liên quan đến bất động sản từ hệ thống cơ sở dữ liệu của các trang thông tin mua bán cho thuê bất động sản trên Internet và các phòng giao dịch bất động sản

- Phân tích và thiết kế hệ thống: đặc tả các yêu cầu của người sử dụng, thiết kế các chức năng để giao tiếp và xử lý

- Mô hình hóa: đưa ra mô hình hệ thống kiến trúc lưu trữ siêu dữ liệu

hỗ trợ cho việc tìm kiếm tương tự

- Phương pháp thực nghiệm: Cài đặt và vận hành thử nghiệm phần mềm tích hợp vào SQL Server 2008

Trang 13

CHƯƠNG 2: TỔNG QUAN VỀ CÁC HỆ

THỐNG TRẢ LỜI TRUY VẤN LINH HOẠT

Chương này chúng tôi giới thiệu một số phương pháp, giải pháp liên quan đến các truy vấn mờ, các truy vấn xấp xỉ và truy vấn lân cận gần nhất Bên cạnh đó, chúng tôi cũng giới thiệu một số hệ thống hỗ trợ tìm kiếm linh hoạt, trong đó sẽ tập trung các đặc trưng chính và khía cạnh hiệu quả của hệ thống

1 Một số nghiên cứu liên quan

Các mô hình truy vấn mờ được tác giả Josef Kung và Jurgen Palkoska giới thiệu trong VQS – A Vague Query System Prototype [15] Trong tài liệu này, mức độ mờ được phân loại theo bốn cấp độ khác nhau, bao gồm: Dữ liệu chính xác, truy vấn chính xác và kết quả chính xác; Dữ liệu chính xác, truy vấn mờ và kết quả mờ; Dữ liệu mờ, truy vấn mờ và kết quả mờ và Dữ liệu chính xác, truy vấn chính xác và kết quả mờ

+ Dữ liệu chính xác, truy vấn chính xác và kết quả chính xác (Crisp Data, Crisp Query, and Crisp Result – CDCQ_CR): Đây là một hệ cơ sở

dữ liệu quan hệ điển hình Ở dạng này, chỉ các giá trị chính xác được lưu trữ trong cơ sở dữ liệu, chỉ các truy vấn chính xác được nhập vào và cũng chỉ các tập kết quả chính xác được trả về cho người dùng mà thôi Điều này có nghĩa là tập kết quả chỉ bao gồm dữ liệu hoàn toàn trùng khớp với truy vấn tương ứng

Trang 14

+ Dữ liệu chính xác, truy vấn mờ và kết quả mờ (Crisp Data, Fuzzy Query, and Fuzzy Result – CDFQ_FR): Mô hình này khác với CDCQ_CR ở các truy vấn và tập kết quả Với mô hình này hệ thống sẽ cho phép các giá trị mờ chẳng hạn như "dài", "ngắn", "cao", "thấp" Chẳng hạn chúng ta có thể thực hiện một truy vấn liên quan đến học sinh một trường học như tìm các học sinh có điểm số cao, và truy vấn có thể được biểu diễn như sau: "Tìm tất cả các học sinh có điểm cao" Trong trường hợp này, tìm điểm cao là một truy vấn mờ và do đó tập kết quả là

mờ

+ Dữ liệu mờ, truy vấn mờ và kết quả mờ (Fuzzy Data, Fuzzy Query, and Fuzy Result – FDFQ_FR): Đây là một đặc điểm đặc trưng của một hệ thống cơ sở dữ liệu mờ cơ bản, hệ thống có thể lưu trữ các kiểu dữ liệu không chính xác khác nhau, ví dụ: tuổi của Long trẻ, dáng người của Minh là cao, v.v Trong các hệ thống này, việc định nghĩa các thuộc tính

mờ ("trẻ", "cao") và các phép so sánh mờ ("lớn hơn nhiều") được cung cấp để cho phép người sử dụng có thể xác định các truy vấn mờ

+ Dữ liệu chính xác, truy vấn chính xác và kết quả mờ (Crisp Data, Crisp Query, and Fuzzy Result – CDCQ_FR): Các hệ thống làm cho phù hợp với mô hình này có thể trả về các kết quả cho một truy vấn chính xác nhưng các kết quả phù hợp với truy vấn chỉ là xấp xỉ Một truy vấn minh họa cho các hệ thống như thế này có thể được diễn đạt như sau: "Tìm các căn hộ có giá khoảng 1000" Ở đây "khoảng" là yếu tố mờ trong truy vấn, tuy nhiên nó không phải là một giá trị mờ mà chỉ là một toán tử mờ

Trang 15

1.2 Các giải pháp dựa trên nền tảng mờ (Fuzzy Based Solutions)

Trong thời gian qua đã có rất nhiều nghiên cứu và ứng dụng dựa trên

Lý thuyết Tập mờ (Fuzzy-Sets) [20], [21], trong đó phải kể đến những đề tài như: Extentions of SQL được thực hiện bởi Bosc, Galibourg và Hamom [17], The Fuzzy Database – Query Language bởi tác giả Wong và Leung [18] và Fuzzy Base được giới thiệu bởi Gazzotti, Piancastelli, Sartori và Beneventano [19] Hầu hết những nghiên cứu này đều thuộc mô hình FDCQ_FR, tức là dữ liệu mờ, truy vấn chính xác và hệ thống trả về kết quả mờ Điều này có nghĩa là các tác giả đã sử dụng dữ liệu mờ FD (fuzzy data), trong khi dạng dữ liệu này không tương thích với hầu hết các dạng cơ sở dữ liệu hiện hành

Như đã đề cập ở trên, trong khi hầu hết các giải pháp được cho là sử dụng FD thì cách tiếp cận của Fuzzy Based là thuộc mô hình CDCQ_FR Với cách tiếp cận này thì hệ thống cũng có thể thực hiện được những truy vấn chính xác, và kể cả trong trường hợp kết quả là rỗng thì hệ thống cũng tự xây dựng và thực hiện một chuỗi các truy vấn Chuỗi truy vấn này cũng từng bước được tăng lên cho đến khi những kết quả truy vấn đầu tiên được trả về cho người dùng

Neighbors)

Với phương pháp lân cận gần nhất (Nearest Neighbors), các bảng ghi

và các truy vấn cơ sở dữ liệu được xem như các điểm (chẳng hạn các vector đặc trưng) trong một không gian đa chiều S với một độ đo MS

(khoảng cách Ơ-clit) Ví dụ, trong cơ sở dữ liệu ảnh, người sử dụng có thể

Trang 16

đưa ra một truy vấn tìm ảnh tương tự nhất với một ảnh đã cho Phương pháp này còn được hiểu như là một dạng truy vấn lân cận gần nhất [6] Hai dạng truy vấn lân cận gần nhất quan trọng nhất trong cơ sở dữ liệu, đó là truy vấn theo khoảng ɛ và truy vấn k lân cận gần nhất

 Truy vấn theo khoảng ɛ: Người sử dụng chỉ rõ một đối tượng truy vấn qϵS và một bán kính ɛ Hệ thống tìm tất cả các đối tượng từ cơ sở

dữ liệu DB Scó một khoảng cách từ q không vượt quá ɛ Đơn giản hơn, tập kết quả q

RQ được định nghĩa như sau: }

) , (

) ' , ( )

, ( ,

\ ' , t DB NN M q t M q t NN

k q





Trang 17

1 ɛ-Range Query (b) 5-Nearest Neighbor Query

Hình 2.1 Các kiểu truy vấn Nearest neighbor Một giải pháp đơn giản để trả lời truy vấn lân cận gần nhất đã cho là quét qua toàn bộ cơ sở dữ liệu và thử cho mỗi đối tượng nằm trong các kết quả Rõ ràng, giải pháp này rất tốn kém và không hiệu quả cho tập đối tượng rất lớn Nhiều cấu trúc chỉ mục đa chiều đã được đề cập để có thể được cắt bớt phần lớn các không gian tìm kiếm Phổ biến nhất là R-Tree

và các biến thể của nó R*-Tree, X-Tree, SS-Tree, v.v

Dù các phương pháp mô tả ở trên khác biệt về các chi tiết thực hiện, nhưng nhìn tổng thể thì mục đích là giống nhau, đó là cho phép hệ thống

cơ sở dữ liệu trả về các câu trả lời truy vấn không chính xác, hơn là trả về kết quả rỗng

Trang 18

2 Một số hệ thống hỗ trợ khả năng tìm kiếm linh hoạt

ARES (Associative Information Retrieval) [3, 14] giới thiệu một toán

tử có tên là 'similar-to' để định nghĩa cho phép tương đương (≈), theo đó thay vì sử dụng toán tử bằng (=) thì phép tương đương có thể được sử

dụng như một toán tử so sánh, chẳng hạn như A≈v sẽ lựa chọn các giá trị của một thuộc tính A tương tự với một hằng số v Cách hiểu toán tử ≈

được dựa trên các mối quan hệ khác nhau trên từng miền khác nhau Một quan hệ không tương tự DRA(A1, A2, Distance) trên miền DA của thuộc tính A chứa các cặp có dạng (v1,v2, dist), trong đó v1ϵ DA, v2ϵ DA và dist biểu diễn giá trị khoảng cách (sự khác nhau) giữa v1 và v2 (giá trị dist nhỏ hơn nghĩa là v1 và v2 tương tự nhau hơn) Bảng sau đây minh họa một ví dụ về quan hệ không tương tự cho thuộc tính Huong của một quan

Trang 19

Với ví dụ trên “Tất cả các bất động sản có hướng tương tự với hướng Bắc” sẽ được trả về là các hướng Bắc, Đông Bắc, Tây Bắc với điều kiện

độ mờ dist được thiết đặt đến 1

Trong một truy vấn, các điều kiện truy vấn mờ (chẳng hạn các điều kiện liên quan đến toán tử tương tự ≈) được thực hiện theo trình tự Trước hết, với mỗi điều kiện mờ, người sử dụng cho một giá trị khoảng cách được chấp nhận tối đa Sau đó hệ thống ARES truy xuất các quan hệ không tượng tự để đưa ra một truy vấn luận lý được xử lý bởi hệ thống cơ

sở dữ liệu trước đây

Ví dụ, điều kiện mờ A≈v được chuyển sang một phép luận lý:

Aϵ {xϵDA|(v,x,dist)ϵ DRA &dist≤t}, với t là khoảng cách cho phép tối đa bởi người sử dụng trên miền DA

Nói cách khác, x và v được xem xét đến mức dist có thể, dist≤t Truy vấn được đưa ra sau đó sẽ lựa chọn các cặp chấp nhận được cho khoảng cách chung được tính toán, bằng việc tính tổng trên các khoảng cách từng phần ứng với mỗi điều kiện mờ trong truy vấn Cuối cùng, các cặp được sắp xếp theo thứ tự tăng dần theo các giá trị khoảng cách chung và hệ thống sẽ cho ra nhiều cặp có thể có trong giới hạn được chỉ rõ bởi người

Trang 20

2.2 VAGUE

Bên cạnh mối quan hệ đại số của ARES được mở rộng bởi toán tử

“similar - to” thì Amihai Motro đã giới thiệu VAGUE [5] như là một cách tiếp cận mới nhằm nâng cao tính hiệu quả của cơ sở dữ liệu VAGUE là một sự mở rộng nhắm đến mô hình dữ liệu quan hệ với các độ đo dữ liệu (data metrics) và ngôn ngữ SQL sử dụng phép so sánh ~ Mô hình đã sử dụng cấu trúc là mỗi thuộc tính tương ứng với một miền, mỗi miền có ít nhất một độ đo xác định Và dưới đây là bốn dạng độ đo khác nhau:

+ Computation metric: là một độ đo dữ liệu khi nhận được kết quả từ việc tính toán bằng máy tính

+ Tabular metric: độ đo dữ liệu thuộc dạng bảng nếu kết quả khoảng cách nhận được qua việc truy xuất từ cơ sở dữ liệu mà không thông qua bất kỳ khâu tính toán trung gian nào bằng máy tính Khoảng cách giữa bất

kỳ hai giá trị nào cũng sẽ được lưu trữ trong một bảng, do đó độ đo chỉ tìm kiếm từ bảng đó Ví dụ bảng chứa thông tin khoảng cách địa lý giữa

hai địa điểm được xem là một dạng bảng Tabular metric

+ Referential metric: là độ đo được tính toán trong trường hợp một thuộc tính là một khóa được ánh xạ đến một quan hệ khác, khi đó độ đo giữa 2 giá trị bất kỳ của thuộc tính này được nhận từ sự kết hợp của các khoảng cách giữa các phần tử tương ứng trong quan hệ ánh xạ

+ Default metric: khi một miền không thể cung cấp cho một độ đo phù hợp thì độ đo mặc định sẽ được sử dụng và trở thành miền trong cơ sở dữ liệu quan hệ truyền thống

𝐷𝐸𝐹𝐴𝑈𝐿𝑇(𝑥, 𝑦) = {0 𝑛ế𝑢 𝑥 = 𝑦

1 𝑛ế𝑢 𝑥 ≠ 𝑦

Trang 21

Như vậy, mỗi miền thuộc tính D được gán cho một độ đo MD để định

nghĩa khoảng cách (sự không tương tự) giữa các giá trị MD là một ánh xạ

từ tích đề-các DxD sang tập hợp các số thực không âm như sau:

 Phản xạ: MD (x,x)=0, với mọi giá trị x trong D

 Đối xứng: MD (x,y)=MD (y,x), với mọi giá trị x và y trong D

 Bắt cầu: MD (x,y)<=MD (x,z)+MD (z,y), với mọi giá trị x,y,z trong

đó thực hiện quá trình sắp xếp dựa vào việc tính toán các khoảng cách (trung bình của các độ đo kết hợp) cho các điều kiện mờ từng phần Khoảng cách gộp gắn liền với một cặp được lựa chọn trong trường hợp của một truy vấn tách rời là khoảng cách nhỏ nhất liên quan tới mỗi điều kiện mờ Khoảng cách gộp được sử dụng như là căn bậc hai của tổng các bình phương (chẳng hạn độ đo Ơ-clit) của các khoảng cách ứng với mỗi điều kiện mờ

Trong VAGUE, người sử dụng không thể đưa ra các điểm bắt đầu có tính tương tự đối với mỗi điều kiện truy vấn, nhưng khi một điều kiện truy vấn không cho ra dữ liệu phù hợp, VAGUE sẽ tìm kiếm trong phạm vi bán kính kép Vì vậy việc thực hiện tìm kiếm có thể xấu đi đáng kể

Trang 22

2.3 VQS (Vague Query System)

Là hệ thống được cho là dựa trên những ý tưởng của ARES và VAGUE, VQS có thể tự động vận hành "on top" trước khi DBMS truy tìm

dữ liệu nhằm vừa đáp ứng nhu cầu thông tin (từ VQS) và nhu cầu dữ liệu (từ DBMS) cho người sử dụng Đây là một loại của hệ thống trả lời truy vấn linh hoạt (FQASs) dựa trên ngữ nghĩa Đặc trưng chính của VQS là khái niệm về các bảng biểu diễn tọa độ số NCR (Numeric-Coordinate-Representation) lưu trữ các thuộc tính siêu thông tin về ngữ nghĩa (semantic meta-information) Các thuộc tính có kiểu dữ liệu bất kỳ trong một khung nhìn hoặc quan hệ truy vấn được tham chiếu đến các không gian Ơ-clit và được lưu giữ bởi các bảng NCR Khi không tìm thấy dữ liệu phù hợp cho một truy vấn q trong cơ sở dữ liệu quan hệ, hệ thống sẽ tìm kiếm trên các bảng NCR tương ứng với các điều kiện truy vấn của q và trả về kết quả phù hợp nhất với q Về trực quan, các bảng NCR trong VQS tương đương với các không gian vector

Để hiểu rõ thêm chúng tôi xin dành một chương (chương 3) để trình bày rõ hơn về mặt phương pháp cho hệ thống truy vấn mờ VQS này cùng với sự tích hợp của hệ thống vào hệ thống thông tin bất động sản đã tồn tại trước đó để thấy rõ hơn khả năng làm việc "on top"

2.4 QBIC (Query By Image Content)

Tìm kiếm dựa vào nội dung hình ảnh (Query By Image Content) được phát triển bởi Trung tâm nghiên cứu IBM Almaden Hệ thống QBIC cho phép các truy vấn trên cơ sở dữ liệu video và hình ảnh lớn dựa trên các hình ảnh mẫu Trong phương pháp trước đây, các video và hình ảnh được xử lý

để rút trích các đặc trưng mô tả nội dung của chúng như màu sắc, kết cấu,

Trang 23

hình dạng, vị trí của một đối tượng, và các đặc trưng được lưu trữ trong cơ

sở dữ liệu Trong phương pháp sau này, người sử dụng có thể đưa ra một truy vấn sử dụng một giao diện người dùng trực quan sinh động Các đặc trưng được rút trích từ truy vấn và đưa vào bộ máy tìm kiếm để tìm các hình ảnh và video từ cơ sở dữ liệu với các đặc trưng tương tự Chú ý rằng QBIC nhận biết giữa các hình ảnh và các đối tượng Một hình ảnh (hay một cảnh)

là một hình màu hoặc một trạng thái của video và một đối tượng là một phần của hình ảnh hay cảnh Ví dụ, một con mèo trong một hình ảnh cố định Hình sau đây chỉ ra toàn bộ cấu trúc hệ thống QBIC [4]

Trang 24

Hình 2.3 Kiến trúc tổng quan của QBIC Trong QBIC, các truy vấn tương tự được thực hiện dựa vào cơ sở dữ liệu

của các đặc trưng rút trích trước đó sử dụng các hàm tương tự hoặc khoảng

cách tương ứng giữa các đặc trưng Các hàm khoảng cách này được bình

thường hóa để chúng có thể được kết hợp một cách có ý nghĩa Hầu hết các

hàm được dựa trên khoảng cách Ơ-clit mở rộng trong không gian đặc trưng

lọc, chỉ mục

Hình ảnh, Video Rút trích đặc trưng

Cơ sở dữ liệu

Bộ máy tìm kiếm Giao diện truy

vấn

Các kết quả tốt nhất trả về theo thứ tự tương

tự

Người

sử dụng

Trang 25

tương ứng Các độ rộng được biến đổi nghịch đảo mỗi thành phần qua các mẫu trong cơ sở dữ liệu Hình 2.3 chỉ ra bộ máy tìm kiếm bao gồm tập hợp tất cả các hàm khoảng cách như màu sắc, kết cấu, hình dạng, đa đối tượng, bản phát thảo, vị trí, văn bản, cử động của đối tượng, cử động của camera và các hàm do người sử dụng định nghĩa Bộ máy tìm kiếm tương tác với mô-đun lọc hoặc chỉ mục để hỗ trợ các phương pháp tìm kiếm nhanh như kỹ thuật đánh chỉ mục QBIC được coi là một trong những hệ thống chỉ mục đặc trưng đa chiều Với các không gian đặc trưng có số chiều thấp, các phương pháp truy xuất đa chiều chẳng hạn như R-trees hoặc R*-trees có thể được sử dụng một cách trực tiếp Đối với các không gian đặc trưng có số chiều lớn, QBIC sử dụng biến đổi Karhunen-Loeve1 để thực hiện việc thu nhỏ số chiều và sau đó sử dụng các cấu trúc chỉ mục Ngoài ra, người sử dụng QBIC tương tác với giao diện truy vấn để sinh ra một truy vấn cụ thể, cho kết quả trong các đặc trưng để định nghĩa truy vấn được xác thực và xử

lý bởi bộ máy tìm kiếm

Nhìn chung, mẫu hệ thống và các kỹ thuật sử dụng trong QBIC đã được nghiên cứu nhiều trên các hệ thống truy tìm hình ảnh sau này Các ứng dụng điển hình của QBIC gồm y khoa, tranh ảnh và nhiều lĩnh vực khác như mỹ thuật, thời trang, công nghiệp,

3 Kết luận chương:

Qua nội dung đã trình bày ở phần trên, chúng tôi đã giới thiệu một số phương pháp truy vấn linh hoạt Cụ thể đã đề cập đến cách phân loại các

1 Karhunen-Loeve là phép biến đổi theo khối tối ưu cho nén dữ liệu, nó có thể giải tương quan một cách tối ưu tín hiệu ảnh trong miền phép biến đổi (bằng cách tập trung hầu hết thông tin ảnh vào một số hệ

số của phép biến đổi), nó có thể tối thiểu hoá sai số bình phương trung bình giữa ảnh khôi phục và ảnh gốc

Trang 26

mô hình truy vấn mờ, các phương pháp Fuzzy Based Solutions và Nearest Neighbors Bên cạnh đó, chúng tôi cũng đã giới thiệu một số hệ thống hỗ trợ khả năng tìm kiếm linh hoạt như ARES, VAGUE, VQS và QBIC, qua

đó chỉ ra các đặc trưng của từng hệ thống

Ở chương tiếp theo (Chương 3) chúng tôi sẽ giới thiệu chi tiết về mô hình kiến trúc của Hệ Thống Truy Vấn Mờ và một vài nghiên cứu mở rộng được thực hiện gần đây nhằm nâng cao tính hiệu quả của VQS

Trang 27

CHƯƠNG 3: HỆ THỐNG TRUY VẤN MỜ

VQS (Vague Query System)

Chương này dành cho việc mô tả chi tiết hệ thống VQS [4], một mẫu thể hiện của hệ thống trả lời truy vấn linh hoạt dựa vào ngữ nghĩa Chương này cũng sẽ trình bày những thành tựa và kết quả mà những người phát triển đã thu được trước đó trước khi vận dụng các kết quả nghiên cứu vào luận văn này

1 Giới thiệu:

Các cơ sở dữ liệu quan hệ chỉ trả về cho người dùng các kết quả trùng khớp với nội dung truy vấn một cách tuyệt đối Theo đó, nếu không có bản ghi nào thỏa mãn các điều kiện truy vấn, hệ thống sẽ trả về một kết quả rỗng (null) Điều này có thể thỏa mãn người dùng trong nhiều trường hợp, ví dụ như chúng ta muốn tìm kiếm tên nhân viên Nguyen Van A, và

hệ thống trả về một kết quả rỗng trong trường hợp tên nhân viên này không được lưu trong cở sở dữ liệu Tuy nhiên trong một ví dụ khác, một người muốn tìm mua một căn hộ toạ lạc tại Quận 2, Thành phố Hồ Chí Minh có diện tích 100m2 với giá 1000đ Trong trường hợp hệ thống trả về một kết quả rỗng, thì anh ta có thể sẽ thử lại truy vấn với mức giá 1100đ

và tìm được căn hộ 100m2 với mức giá này Như vậy anh ta có thể bỏ sót những căn hộ có giá thấp hơn 1000đ với cùng diện tích Rõ ràng trong trường hợp này thì hệ thống tìm kiếm truyền thống hoàn toàn bất lợi đối với những lĩnh vực mà người dùng có thể chấp nhận một kết quả không hoàn toàn trùng khớp với truy vấn

Trang 28

Trong ngữ cảnh trên, một hệ thống tìm kiếm linh hoạt được giới thiệu bởi Josef Kung và Jurgen Palkoska có tên gọi Vague Query System (VQS) [15] Hệ thống này được thiết kế để một ứng dụng không phụ thuộc vào việc sử dụng hệ thống với một cơ sở dữ liệu quan hệ nào Nghĩa

là việc sử dụng hệ thống VQS vào cơ sở dữ liệu bất kỳ không làm thay

đổi cấu trúc sẵn có của chúng

2 Tìm kiếm tương tự dựa vào ngữ nghĩa:

Một hệ thống mẫu tìm kiếm tương tự dựa vào ngữ nghĩa [4] được xây

dựng tại học viện FAW gọi là hệ thống VQS Mục đích chính của việc phát triển hệ thống VQS là để nâng cấp các hệ quản trị cơ sở dữ liệu hiện nay với khả năng trả lời các truy vấn linh hoạt Bởi vì trong các hệ quản trị cơ sở dữ liệu hiện nay chưa có các khả năng truy tìm thông tin mang tính linh hoạt cao

Dù VQS có thể trả lời các truy vấn mờ nhưng không có nghĩa là VQS được thiết kế chỉ để làm việc với dữ liệu mờ của cơ sở dữ liệu mờ Điều khác biệt là phương pháp của VQS giả định rằng các cơ sở dữ liệu chỉ lưu trữ thông tin chính xác và các giải pháp của VQS được sử dụng kết hợp với kỹ thuật cơ sở dữ liệu trước đây: các cơ sở dữ liệu hiện nay có thể được khuyếch trương với siêu thông tin ngữ nghĩa của các thuộc tính và các hệ quản trị cơ sở dữ liệu hiện nay có thể được mở rộng để sử dụng các truy vấn mờ Mục đích chung cũng giống với hệ thống VAGUE và ARES, tuy nhiên phương pháp tiếp cận và ý đồ của VQS là hoàn toàn khác biệt Việc dựa trên lý thuyết về tập mờ và xác suất, có nhiều công việc được thực hiện để làm cho các hệ quản trị cơ sở dữ liệu hiện nay thuận tiện hơn với các khả năng truy tìm thông tin linh hoạt, chẳng hạn như việc

Trang 29

mở rộng của ngôn ngữ SQL cho phép biểu diễn một phạm vi rộng các truy vấn mềm dẻo dựa trên lý thuyết tập mờ hoặc một sự mở rộng của phép toán phân chia, trong ngữ cảnh của các hệ quản trị cơ sở dữ liệu, cho đến các quan hệ mờ, v.v Hầu hết các phương pháp này có thể được phân loại sang mô hình CDFQ_FR bởi vì chúng sử dụng dữ liệu mờ trong các truy vấn hoặc trong suốt quá trình xử lý truy vấn Mặt khác, VQS được phân loại sang mô hình CDCQ_FR VQS sử dụng một toán tử mờ "IS" ("similar to"), nhưng hoàn toàn không phải là các giá trị mờ Điểm chính của VQS là việc giới thiệu một khái niệm mới gọi là bảng biểu thị tọa độ

số NCR-Tables (Numeric-Coordinate- Representation-Tables) và sử dụng các thuộc tính siêu thông tin ngữ nghĩa Trên thực tế thông tin số biểu diễn các thuộc tính ngữ nghĩa của các quan hệ trước đây được lưu trữ trong các bảng NCR để được sử dụng về sau trong việc xử lý truy vấn Trong hệ thống mẫu VQS, thông tin ngữ nghĩa là dạng số và việc ánh

xạ ngữ nghĩa chỉ ở mức đầu tiên Ở đây thông tin ngữ nghĩa dạng số được xuất phát từ một giá trị thuộc tính của một bộ trong một quan hệ biểu diễn

ý nghĩa đặc trưng của giá trị thuộc tính này Ví dụ, xét một quan hệ đơn giản TT_BDS với hai thuộc tính: MA_BDS (mã bất động sản), MA_KH (mã khách hàng), QUAN (vị trí bất động sản) và DT (diện tích bất động sản) Cho hai bộ (1, DN01, QUẬN 1, 100) và (3, TP09, QUẬN 2, 500) từ quan hệ này Khi đó thông tin ngữ nghĩa của các quận tên QUẬN 1, QUẬN 2 có thể được hiểu như các tọa độ địa lý của chúng hoặc là diện tích, hoặc thậm chí là khoảng cách của quận so với Chợ Bến Thành, v.v

Sự tạo lập, biểu diễn và sử dụng thông tin ngữ nghĩa trong VQS rất giống với việc tạo lập, biểu diễn và sử dụng các vector đặc trưng trong các hệ thống truy tìm thông tin đa phương tiện hoặc hình ảnh hiện đại (ví

Trang 30

dụ: hình dạng, kết cấu, gram màu, ) Các đặc trưng khác nhau tương ứng

với các biểu diễn khác nhau của nội dung đối tượng Ví dụ đặc trưng gam màu là khác với đặc trưng về hình dạng trong việc xác định nội dung của một hình ảnh (ví dụ: hai hình ảnh có thể có hình dạng tương tự nhau nhưng khác nhau về màu sắc) Điều này chỉ đúng cho việc ánh xạ ngữ

nghĩa khác nhau trong VQS (nghĩa là các bảng NCR khác nhau) của một thuộc tính trong một bộ Điều đó có nghĩa là việc ánh xạ khác nhau của một thuộc tính cho ra các nghĩa khác nhau Như chúng ta thấy, tất cả các thuật toán tìm kiếm chúng tôi giới thiệu trong luận văn này còn phù hợp với các hệ thống truy tìm thông tin đa phương tiện/hình ảnh Bên cạnh đó,

sự tương tự của hai bộ thường được đánh giá bởi nhiều thuộc tính liên quan trong các bộ, nhưng không chỉ bằng một thuộc tính đặc trưng cố định Nhìn chung, không có đặc trưng đơn nào của các đối tượng (thuộc tính đơn của các bộ) có thể làm mẫu tốt nhất cho các đối tượng (các bộ) từ mỗi miền và mọi miền Hơn nữa, khái niệm tìm kiếm tương tự và ngữ nghĩa còn là một vấn đề cần quan tâm lớn trong các miền ứng dụng hiện đại chẳng hạn như web ngữ nghĩa, tìm kiếm trên internet, các hệ thống trả lời truy vấn cộng tác,

Bằng việc mở rộng và quan điểm chung đó, chúng tôi giới thiệu một định nghĩa chính thức cho các hệ thống tìm kiếm dựa vào ngữ nghĩa như sau [4]:

Định nghĩa 3.1 (Các hệ thống tìm kiếm dựa vào ngữ nghĩa): Một hệ

thống truy vấn được gọi là một hệ thống tìm kiếm dựa vào ngữ nghĩa nếu

nó sử dụng thông tin ngữ nghĩa, hệ thống có thể được biểu diễn bởi các dạng khác nhau các đối tượng phức tạp trong suốt quá trình xử lý truy vấn

Trang 31

Định nghĩa 3.1 là định nghĩa tổng quát của các hệ thống tìm kiếm dựa vào ngữ nghĩa Thông tin ngữ nghĩa có thể là dữ liệu số, văn bản hoặc các dạng phức tạp khác Tuy nhiên, ở đây chúng tôi phải chú ý rằng trong một vài trường hợp thông tin ngữ nghĩa của các đối tượng không được trích ra, nhưng nó có giá trị cho hệ thống, chẳng hạn các bảng NCR logic trong hệ thống VQS Trong các trường hợp này, việc sử dụng thông tin ngữ nghĩa là một sự hiểu ngầm bên trong hệ thống Dưới đây chúng tôi xin giới thiệu một định nghĩa rõ ràng hơn về các hệ thống tìm kiếm tương

tự dựa vào ngữ nghĩa [4]:

Định nghĩa 3.2 (các hệ thống tìm kiếm tương tự dựa vào ngữ nghĩa):

Một hệ thống truy vấn được gọi là một hệ thống tìm kiếm tương tự dựa vào ngữ nghĩa nếu (1) nó là một hệ thống tìm kiếm dựa vào ngữ nghĩa và (2) nó có thể trả về các kết quả tương tự về mặt ngữ nghĩa với đối tượng truy vấn trong một khả năng nào đó

Rõ ràng, các hệ thống giống như VQS vậy có thể được đặt tên là các

hệ thống tìm kiếm tương tự dựa vào ngữ nghĩa Tuy vậy, dù các thuật toán của chúng tôi giới thiệu trong luận văn này có thể được áp dụng cho các

hệ thống truy tìm hình ảnh dựa vào nội dung (CBIR) hiện nay, về cơ bản các hệ thống CBIR không thể được phân vào kiểu hệ thống tìm kiếm dựa vào ngữ nghĩa vì nội dung của một hình ảnh không có nghĩa là ngữ nghĩa của nó

Trang 32

3 Các khái niệm cơ bản và kiến trúc tổng quan của hệ thống VQS:

Nói chung, động cơ chính của VQS là để giải quyết có hiệu quả và linh hoạt vấn đề các tập kết quả rỗng trong các hệ quản trị cơ sở dữ liệu trước đây Tuy nhiên, mục đích của nó tương tự với một hệ quản trị cơ sở

dữ liệu hay một hệ thống truy tìm thông tin tích hợp như chúng tôi sẽ trình bày sau đây Về bản chất, các hệ thống trả lời truy vấn giống như VQS nhằm mục đích đáp ứng nhu cầu thông tin của người sử dụng mà các

hệ thống hiện nay còn thiếu Trên thực tế, các hệ quản trị cơ sở dữ liệu có thể cung cấp đầy đủ nhu cầu dữ liệu cho người sử dụng và vì thế các hệ thống mở rộng, ví dụ như các DBMS hiện nay với VQS làm việc "on top", có thể đáp ứng cho người sử dụng cả hai nhu cầu dữ liệu và nhu cầu thông tin Lợi ích của việc mở rộng một DBMS với khả năng đáp ứng nhu cầu thông tin của người sử dụng là muôn màu muôn vẻ bởi vì các DBMS được sử dụng rộng rãi trong nhiều miền ứng dụng; kiến trúc và các đặc điểm của các thành phần trong một DBMS cơ bản được nhiều người biết đến; và các DBMS rất mạnh trong việc quản lý dữ liệu được lưu trữ Trên thực thế, việc sử dụng các lợi thế có sẵn để xây dựng các hệ thống trả lời truy vấn mạnh hơn và hiệu quả hơn còn là một trong những ý tưởng chính của các DBMS hay các hệ thống truy tìm thông tin tích hợp [13]

Đặc trưng chính của VQS là khái niệm về các bảng biểu diễn tọa độ

số NCR (Numeric-Coordinate-Representation) lưu trữ các thuộc tính siêu thông tin về ngữ nghĩa (semantic meta-information) Các thuộc tính có kiểu dữ liệu bất kỳ trong một khung nhìn hoặc quan hệ truy vấn được

Trang 33

tham chiếu đến các không gian Ơ-clit và được lưu giữ bởi các bảng NCR Khi không tìm thấy dữ liệu phù hợp cho một truy vấn Q trong cơ sở dữ liệu quan hệ, VQS sẽ tìm kiếm trên các bảng NCR tương ứng với các điều kiện truy vấn của Q và trả về kết quả phù hợp nhất với Q Về trực quan, các bảng NCR trong VQS tương đương với các không gian vector

Sau đây là các ý tưởng cơ bản của hệ thống VQS:

CÁC BẢNG MÔ TẢ TỌA ĐỘ SỐ (NCR_Tables): CÁC BẢNG

SIÊU THÔNG TIN

Trong VQS, các giá trị không phải là số có thể được biểu diễn bởi các tọa độ số trong các không gian đặc trưng và thông tin này được lưu trữ trong các bảng NCR Thuộc tính được ánh xạ gọi là khóa (NCR-Key) trong bảng NCR tương ứng Các cột NCR trong một bảng NCR biểu diễn các chiều trong không gian đặc trưng Bên cạnh đó, các thuộc tính được ánh xạ đến bảng NCR được gọi là các trường mờ (Fuzzy Fields) Bảng sau đây đưa ra một ví dụ bảng NCR về chuỗi các tên màu Trong bảng NCR này, thuộc tính Name là khóa, thuộc tính "Red", "Green", và "Blue"

là các cột NCR (NCR-Columns)

Trang 34

Colors Name Red Green Blue

từ qua thời gian

ĐỘ ĐO TƯƠNG TỰ

Một câu hỏi hiện tại là hệ thống VQS có thể làm việc nhiều với việc xây dựng các bảng NCR để thỏa mãn mục đích chính chung đó là: việc truy vấn một quan hệ hoặc khung nhìn và trả về một số bản ghi cho người

sử dụng tương tự hoặc gần với một truy vấn đã cho trong một khả năng nào đó Vấn đề chính đó là chúng ta có thể theo dõi cách mà VQS có thể

Trang 35

tính toán độ tượng tự như thế nào giữa các bản ghi Với khái niệm của bảng NCR trong VQS, sự tương tự của hai giá trị thuộc tính số được định nghĩa như khoảng cách giữa hai giá trị được ánh xạ trong bảng NCR tương ứng VQS sử dụng độ đo Ơ-Clit để đo khoảng cách giữa các giá trị của bảng NCR (*) Ví dụ khoảng cách giữa hai tên màu black và blue trong

bảng trên sẽ được tính toán như sau:

) 255 0 ( ) 0 0 ( ) 0 0

Để ý rằng trong trường hợp các thuộc tính số, khoảng cách có thể còn được xuất phát từ các giá trị số của chính nó và bảng NCR là không cần thiết

Ngoài ra, ví dụ trên là đúng cho việc tính toán sự tương tự giữa hai thuộc tính giá trị Độ đo tương tự giữa hai bản ghi khá phức tạp Chúng ta hãy xem xét một truy vấn ví dụ sau đây: "Tìm một nhà ở gần quận 2 và giá khoảng 1.000 đồng" Câu trả lời cho truy vấn này có thể gặp hai điều kiện,

vị trí căn nhà (gần quận 2) và giá (khoảng 1000)

Hơn nữa, các khoảng cách được tính toán trong hai miền này là hoàn toàn khác biệt Vì vậy, việc bình thường hóa các khoảng cách là để làm cho chúng có ý nghĩa trong toàn bộ quá trình xử lý truy vấn Trong VQS, việc bình thường hóa dựa trên đường kính của không gian siêu thông tin

có ảnh hưởng Cụ thể, cho mỗi chiều trong một bảng NCR, các giá trị tối thiểu và cực đại được tính toán trước tiên

(*) Độ đo Ơ-clit là một trường hợp đặc biệt độ đo Minkowski phổ biến (khi p=2): khỏang cách giữa hai điểm X(x1, x2, xn) và Y(y1, y2, … yn) trong không gian n chiều được định nghĩa như sau:

dp(X, Y)= (|x1-y1|p + |x2-y2|p + … + |x n -yn|p)1/p.

Trang 36

Các giá trị này định nghĩa một siêu hình chữ nhật, việc biểu diễn không gian có ảnh hưởng cho siêu thông tin có sẵn trong bảng NCR đó Đường kính của siêu hình chữ nhật là khoảng cách có thể lớn nhất giữa hai đối tượng trong bảng NCR Tất các các khoảng cách được tính toán được bình thường hóa bằng cách chia cho đường kính này và khoảng cách được bình thường hóa thuộc đoạn [0,1] Hình dưới đây chỉ ra một biểu đồ trên việc bình thường hóa trong ví dụ trên ở không gian ba chiều

Hình 3.2 Việc bình thường hóa sử dụng đường kính có ảnh hưởng Sau việc bình thường hóa, khoảng cách từ truy vấn đến toàn bộ bản ghi có thể được xác định bởi các hàm tỉ số gộp VQS tính toán khoảng cách này sử dụng hàm tính tổng mở rộng của các khoảng cách đã bình thường hóa theo mỗi điều kiện truy vấn Khoảng cách cuối cùng gọi là khoảng cách gộp chỉ nằm trong khoảng [0,1] và nó có thể được sử dụng như một giá trị đo để đánh giá sự tương tự của truy vấn và một bản ghi của quan hệ truy vấn/khung nhìn Bản ghi gần hơn là bản ghi có khoảng cách gộp nhỏ hơn

Y

X

Đường kính

Giá trị có sẵn Giá trị truy vấn

Trang 37

Trong trường hợp các thuộc tính không phải kiểu số mà không có các bảng NCR tương ứng, VQS có thể sử dụng một hàm khoảng cách chuẩn giống như hệ thống VAGUE đã giới thiệu

Hàm khoảng cách chuẩn này sẽ trả về giá trị 0 khi một giá trị truy vấn và một giá trị thuộc tính phù hợp với nhau, ngược lại sẽ trả về giá trị

1 Với hàm này, mọi thuộc tính không phải là số có thể được sử dụng trong mệnh đề WHERE của VQS

Language)

VQS được thiết kế như một sự mở rộng các DBMS hiện nay và mục đích cuối cùng của nó là để mang lại các khả năng tìm kiếm tương tự cho các hệ thống này VQS cố gắng làm sao cho các hệ thống hiện nay bị thay đổi càng ít càng tốt Với lý do này, để hiểu rõ khái niệm của một toán tử

so sánh tương tự cho một ngôn ngữ truy vấn, nó được mở rộng nhỏ từ ngôn ngữ truy vấn chính thức SQL, gọi là ngôn ngữ VQL VQL là một phiên bản mở rộng của SQL với một toán tử so sánh có tên là "IS", nghĩa

là "tương tự với" Hình sau đây trình bày một định nghĩa chính thức của VQL

Trang 38

Hình 3.3 Mô tả chính thức của ngôn ngữ VQL Như được mô tả ở hình trên, DataSource có thể là một bảng hoặc

khung nhìn hoặc thậm chí là một câu lệnh SQL nào đó DataSource là đầu

vào cho câu lệnh SELECT FROM của VQL, câu lệnh mà toán tử IS có thể

được sử dụng cho các trường mờ trong điều kiện WHERE Với hệ thống

VQL nguyên thủy, một điều kiện giống như "vị trí Bất động sản IS trung

tâm quận 1" làm cho hệ thống sắp xếp tất cả các bản ghi của DataSource

VQLExpression = “SELECT FROM” DataSource

Conditions = columnName “IS” ValueExpression

[“AND” columnName “IS” ValueExpression]

ValueExpression = (“ ‘ “ alphanumericValue “ ‘ “) |

Trang 39

trên khoảng cách gộp, vì vậy các bản ghi với khoảng cách gộp nhỏ hơn được thể hiện trước

Hệ thống VQL gốc chỉ hổ trợ bổ sung toán tử logic AND trong việc kết nối các biểu thức so sánh bởi toán tử IS (ví dụ: tìm một căn nhà gần với Quận 2 và giá khỏang 1.000) Tùy chọn WEIGHTED BY cho phép người sử dụng thiết lập độ rộng cho mỗi điều kiện truy vấn Giá trị mặc định của mỗi độ rộng là 1 Bên cạnh đó, kết quả của câu lệnh VQL được lưu trữ trong một bảng của cơ sở dữ liệu quan hệ được định nghĩa với mệnh đề INTO Chúng ta hãy xét một ví dụ minh họa sau:

Hình 3.4 Một ví dụ về sử dụng các bảng NCR

Để làm sáng tỏ, chúng ta xem ví dụ ở trên, ở đây có một quan hệ Cars và thuộc tính Color là trường mờ (giá trị của nó được ánh xạ sang bảng NCR có tên Colors với ba cột NCR là Red, Green và Blue) Bây giờ

Accord09 Honda black

Civic Honda blue

Camry Toyota red

Trường mờ Khóa của NCR Các cột của NCR

Trang 40

xem xét một ví dụ đơn giản với ngôn ngữ VQL cho một truy vấn như sau:

"Tìm các xe hơi có màu tương tự như màu đỏ" Với sự tham chiếu như hình trên, truy vấn này có thể được biểu diễn bởi một câu lệnh VQL như sau:

SELECT FROM Cars

WHERE Color IS ‘red’

cho

3.3 Kiến trúc tổng quan của hệ thống VQS

Hệ thống truy vấn mờ - VQS

Mô-đun thực thi truy vấn mờ Mô-đun quản trị

truy vấn mờ

Siêu dữ liệu

Trình phiên dịch ngôn ngữ truy vấn mờ

Đơn vị xử lý truy vấn mờ

Các định nghĩa mô tả tọa độ số

Thông tin từ điển dữ liệu

Ngôn ngữ truy vấn mờ Kết quả hệ thống VQS

SQL Kết quả dữ liệu

Tiêu đề	Vận Dụng Khả Năng Tìm Kiếm Của Hệ Thống Truy Vấn Mở Để Xây Dựng Môdun Tích Hợp Vào SQL Server Nhằm Hỗ Trợ Cho Hệ Thống Trả Lời Truy Vấn Luận Văn Thạc Sĩ
Người hướng dẫn	PGS.TS Đặng Trần Khánh
Trường học	Trường Đại Học Khoa Học Tự Nhiên
Thể loại	Luận văn

Định dạng
Số trang	84
Dung lượng	1,65 MB