Giải pháp “Thiết kế hệ thống truy vấn tài liệu” đã đưa ra một giải pháp tổng thể, mang tính hệ thống cho việc quản lý thông tin ngữ nghĩa liên quan đến nội dung tài liệu và hỗ trợ biểu d
Trang 1BÁO CÁO LUẬN VĂN THẠC SĨ
NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ
HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA
TRÊN KHO TÀI LIỆU KHMT
HỌC VIÊN: CHÂU KIM HÙNG HƯỚNG DẪN KHOA HỌC: PGS TS ĐỖ VĂN NHƠN
Trang 2Kết luận và hướng pháp triển
Trang 41.1
Giải pháp “Thiết kế hệ thống truy vấn tài liệu” đã đưa ra một giải pháp tổng thể, mang tính hệ thống cho việc quản lý thông tin ngữ nghĩa liên quan đến nội dung tài liệu và hỗ trợ biểu diễn ngữ nghĩa và xử lý trong truy vấn tài liệu
Kết quả:
Hệ thống tổng hợp tin tức trực
tuyến
Ứng dụng quản lý kho tài liệu học tập lĩnh vực CNTT
Khả năng biểu diễn ngữ nghĩa và tri thức cho lĩnh vực của ontology hiện tại còn nhiều hạn chế, việc biểu diễn nội dung của tài liệu và các kỹ thuật xử lý ngữ nghĩa còn khá đơn giản:
- Kỹ thuật tính toán và so khớp các đồ thị keyphrase
- Thuật giải xử lý các câu truy vấn
Trang 51.2 Mục tiêu đề tài
Ứng dụng: thừa kế và xây dựng hệ thống quản lý tài nguyên học tập lĩnh vực KHMT trong phạm vi của một trường đại học
Với 2 tác vụ chính: tổ chức quản lý lưu trữ và tìm kiếm
(giới hạn trong phạm vi kho tài liệu tiếng Anh)
Nghiên cứu đề xuất một mô hình
ontology cải tiến dựa trên việc định
nghĩa thành phần lớp có mô tả cấu
trúc thông tin và xây dựng tập các
luật phổ biến trên miền tri thức của
lĩnh vực:
- Mở rộng việc xử lý câu truy vấn
- Cải tiến kỹ thuật tính toán và so
khớp các đồ thị keyphrase
Trang 62 Cải tiến mô hình CK-ONTO
Trang 72.1 Vai trò của ontology trong giải pháp
Mô hình cơ sở tài liệu có ngữ nghĩa (Semantic Document Base - SDB)
Tập hợp các tài liệu, mỗi tài liệu tương ứng một tập tin
Mô hình lưu trữ kho tài liệu theo
Trang 82.1 Vai trò của ontology trong giải pháp
Ontology là thành phần quan trọng nhất trong mô hình tổng thể Khả năng biểu diễn ngữ nghĩa và tri thức cho lĩnh vực của ontology quyết định toàn bộ hiệu quả của hệ thống, ảnh hưởng đến hầu hết các kỹ thuật xử lý:
Biểu diễn ngữ nghĩa cho tài liệu
Đo lường mức độ liên quan ngữ nghĩa giữa tài liệu và câu truy vấn
Trang 9 R KK : tập hợp các quan hệ giữa các keyphrase
label : hàm gán nhãn phân loại keyphrase
Trang 102.2
Mô hình CK-ONTO (tt)
Ontology là thành phần quan trọng nhất trong mô hình tổng thể của hệ thống nhưng chủ yếu dựa trên tập keyphrase và tập lớp; mà mỗi lớp chỉ chứa các keyphrase, các quan hệ thuộc về giữa keyphrase và lớp, và quan hệ phân cấp giữa các lớp
=> Vì vậy, khả năng thể hiện ngữ nghĩa và kiến thức cho lĩnh vực của ontology hiện tại còn hạn chế; việc biểu diễn nội dung của tài liệu và các kỹ thuật xử lý ngữ nghĩa còn khá đơn giản Chẳng hạn như giải thuật tính độ liên quan
về mặt ngữ nghĩa giữa hai keyphrase trong kỹ thuật tính toán và so khớp các đồ thị keyphrase còn khá chậm và nhiều trường hợp có độ chính xác chưa cao
Trang 112.3 Mô hình CK-ONTO cải tiến
Trang 122.3 Mô hình CK-ONTO cải tiến
(tt)
Ứng dụng ontology trong các hệ thống tìm kiếm
Chức năng Tập trung vào Đặc điểm kỹ thuật ontology
Truy vấn tài liệu Khái niệm Khái niệm, tính phân cấp Duyệt tri thức Cấu trúc của ontology Thuộc tính và quan hệ Đưa ra sự phản hồi Suy luận Lôgíc và ràng buộc
Trong các hệ thống hỗ trợ giáo dục, ontology được sử dụng chủ yếu cho 3 mục đích: (1) biểu diễn và lưu trữ tri thức về các lĩnh vực cũng như các đối tượng cần thiết trong ứng dụng; (2) xây dựng các mô hình tổ chức lưu trữ, biểu diễn ngữ nghĩa, biểu diễn tài liệu, lập chỉ mục cho các tài liệu (3) xây dựng các chiến lược tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu
Trang 132.3 Mô hình CK-ONTO cải tiến
Mô hình CK-ONTO cải tiến là một hệ thống gồm 5 thành phần
(K, C, R, Rules, label)
trong đó, các thành phần được mô tả như sau:
R : tập hợp các quan hệ giữa các đối tượng
Rules : tập hợp các luật suy diễn
label : hàm gán nhãn phân loại keyphrase
Trang 142.3 Mô hình CK-ONTO cải tiến
Một đơn vị ngôn ngữ học cấu trúc như một từ, một từ kép,
một ngữ
Sử dụng các keyphrase làm yếu tố đơn vị để mô tả tri thức trong lĩnh vực hay nội dung tài liệu
Ví dụ: “image processing”, “database programming”
Trang 16Định nghĩa: keyphrase nền là keyphrase thể hiện ngữ nghĩa quan trọng hình
thành nên định nghĩa của một khái niệm ở dạng ngôn ngữ tự nhiên; trong đó, tên khái niệm cũng chính là tên của lớp
Ví dụ: Xét định nghĩa của khái niệm “a programming language”:
“A programming language is an artificial language designed to communicate
instructions to a machine, particularly a computer Programming languages can
be used to create programs that control the behavior of a machine and/or to
express algorithms”
Trang 172.3 (K, C , R, Rules, label)
Tập hợp Attr các thuộc tính
Thuộc tính là thành phần thể hiện tính đặc trưng cho lớp, mô tả cấu trúc bên
trong của khái niệm Trong đó, tên thuộc tính là tên của keyphrase hoặc là tên của lớp
Một số kiểu giá trị của thuộc tính như: String, Number, Boolean, Instance
Giả sử, ta có lớp B là lớp dẫn xuất của lớp A, khi đó:
AttrA AttrB Trong đó:
- AttrA là tập thuộc tính của lớp A
- AttrB là tập thuộc tính của lớp B
Trang 182.3 (K, C , R, Rules, label)
Tập hợp Inst các thực thể
Một thực thể là một đối tượng cụ thể của lớp Tên của thực thể là tên của một
keyphrase k K và thực thể có cấu trúc là cấu trúc của lớp mà nó thể hiện
Giả sử, ta có lớp B là lớp dẫn xuất của lớp A, khi đó:
InstB InstA Trong đó:
- InstA là tập thực thể của lớp A
- InstB là tập thực thể của lớp B
Ví dụ: BINARY SEARCH ALGORITHM là một thể hiện của lớp ALGORITHM
INSTANCE NAME PROPERTY VALUE
Binary Search Algorithm
Trang 192.3 (K, C, R , Rules, label)
Một tập hợp quan hệ giữa các lớp
Một tập hợp quan hệ giữa keyphrase và lớp
Một tập hợp quan hệ giữa keyphrase và keyphrase
Trang 202.3 (K, C, R , Rules, label)
Tập hợp R CC quan hệ giữa các lớp
RCC = {r | r ⊆ C × C}
Trong phạm vi đề tài, ta xét RCC gồm 3 quan hệ: {rHYP ,rRE , rPART_OF}
Quan hệ phân cấp trên lớp rHYP
SuperClass SubClass
ALGORITHM SEARCHING ALGORITHM ALGORITHM SORTING ALGORITHM SEARCHING
ALGORITHM SHORTEST PATH SEARCH ALGORITHM SEARCHING
ALGORITHM CYCLE DETECTION ALGORITHM SEARCHING
ALGORITHM MINIMUN SPANNING TREE ALGORITHM SORTING ALGORITHM INTERNAL SORTING ALGORITHM
SORTING ALGORITHM EXTERNAL SORTING ALGORITHM
Trang 212.3 (K, C, R , Rules, label)
Quan hệ A-Part-of giữa các lớp rPART_OF
Partial class Entire class
Quan hệ “có liên quan” giữa các lớp Rre
Related Class Intermediary Class Class
Quan hệ Related giữa keyphrase và lớp thể hiện mối quan hệ ngữ nghĩa giữa bộ phận của một lớp với một lớp khác Một keyphrase a được gọi là có quan hệ
Related với lớp B khi và chỉ khi tồn tại một lớp A, mà ở đó keyphrase a có quan hệ A-Part-of với lớp A và lớp A có quan hệ A-Part-of với lớp B
Trang 222.3 (K, C, R , Rules, label)
Tập hợp R KC quan hệ giữa các lớp
RKC = {r | r ⊆ K × C}
Trong phạm vi đề tài, ta xét RKC gồm 3 quan hệ: {rHYP ,rRE , rPART_OF}
Quan hệ A-Part-of giữa keyphrase và lớp rPART-OF
Property Keyphrase Class
heuristic ALGORITHM “is a part of”
type checking PROGRAMMING LANGUAGE “is a part of”
operator DATA TYPE “is a part of”
Quan hệ “thiết lập” giữa keyphrase và lớp rESTAB
Establishing Keyphrase Class
artificial language PROGRAMMING LANGUAGE “establishing”
procedure ALGORITHM “establishing”
Quan hệ “có liên quan” giữa keyphrase và lớp rPART-OF
Related Keyphrase Intermediary Class Class
operator DATA TYPE ALGORITHM “related”
function LIBRARY PROGRAMMING LANGUAGE “related”
Trang 232.3 (K, C, R , Rules, label)
Tập hợp R KK quan hệ giữa các keyphrase
RKK = {r | r ⊆ K × K}
Trong ontology của lĩnh vực KHMT,
Nhóm quan hệ tương đương
Nhóm quan hệ phân cấp
25 1
Trang 242.3 (K, C, R , Rules, label)
Nhóm quan không phân cấp
r6 Extension ex A là mở rộng của B
r7 Same class Sacl A cùng lớp với B
r8 Relation re A có liên quan với B
r9 Cause cause A là nguyên nhân gây ra B
r10 Influence inf A ảnh hưởng đến B
r11 Instrument inst A được sử dụng như là một phương tiện công cụ cho B
r12 Make make A tạo ra B
r13 Possession poss A sở hữu B
r14 Source source A có xuất xứ từ B
r15 Aim aim Thực hiện A để mà/với mục đích B
r16 Location loc Quan hệ vị trí/ không gian
r17 Temporal temp Quan hệ thời gian
r18 Manner manner A là cách thức mà B xảy ra
r19 Support support A xây dựng trên nền tảng B
r20 Beneficiary benef A hưởng lợi ích từ B
r21 Property pro A là một thuộc tính của B
r22 Agent agent A là tác nhân của B, quan hệ chủ thể - hành động
r23 Circumstance circ A là một trường hợp/tình huống của B
r24 Person pers Liên quan đến con người/tổ chức
r25 Application app A được ứng dụng trong B
Trang 252.3 (K, C, R, Rules , label)
Tập hợp Rules các luật suy diễn
Rules là tập hợp các luật suy diễn trên các sự kiện liên quan đến tính chất của quan hệ hoặc sự kiện liên quan đến các keyphrase và các lớp
Có 2 loại sự kiện chính: sự kiện về tính chất của quan hệ và sự kiện về quan hệ giữa 2 đối tượng (giữa k và k’, giữa c và c’, hoặc giữa k và c)
Định nghĩa: (các loại sự kiện)
(1) Sự kiện thông tin về tính chất của quan hệ: [<relation>, <property_of_relation>]
Ví dụ: [Rsym , “Đối xứng”]
(2) Sự kiện về quan hệ giữa 2 đối tượng: [<obj1>, <relation>, <obj2>]
a Sự kiện về quan hệ giữa keyphrase và keyphrase [k1, Rsyn, k2]
b Sự kiện về quan hệ giữa lớp và lớp [c1, RRE, c2]
c Sự kiện về quan hệ giữa keyphrase và lớp [k, Rpart_of, c]
Trang 262.3 (K, C, R, Rules , label)
Trong mô hình CK-ONTO hiện tại chúng tôi định nghĩa một tập gồm 12 luật
1 if PORR=”đối xứng” && k1 R k2 then k2 R k1
2 if PORR = “bắc cầu” && k1 R k2 && k2 R k3 then k1 R k3
3 if k1 Rnsyn k2 && k2 Racr k3 then k1 Rnsyn k3
4 if k1 Rsyn k2 && k3 Racr k2 then k1 Rsyn k3
5 if k1 Rnsyn k2 && k2 Rsyn k3 then k1 Rnsyn k3
6 if k1 Rsyn k2 && k2 Rpart-of k3 then k1 Rpart_of k3
7 if k1 Rpart-of k3 && k2 Rkind-of k3 then k1 Rpart_of k2
8 if k1 Rsyn k2 && k2 Rkind-of k3 then k1 Rkind_of k3
9 if k1 Rkind-of k2 && k2 Rsyn k3 then k1 Rkind_of k3
10 if PORR=”đối xứng” && c1 R c2 then c2 R c1
11 if PORR = “bắc cầu” && c1 R c2 && c2 R c3 then c1 R c3
12 if k1 Rpart_of c && k2 Rpart_of c then k1 RSacl k2
Trang 27Cho Labels là tập các nhãn phân loại
Labels = {“Ngành”, “Chuyên ngành”, “Môn học”, “chuyên đề”, “chủ đề”, “thuật ngữ chuyên môn”}
Hàm label: K (Labels)
Ví dụ: “Computer Vision” {“Thuật ngữ chuyên môn”, “Chuyên ngành”}
Tập hợp R KK quan hệ giữa các keyphrase
Trang 282.3
Chuyển đổi thành phần C trong mô hình CK-ONTO
Gán nhãn chủ đề cho
các keyphrase cùng tên với tên chủ đề gọi
là keyphrase chủ đề
Chuyển quan hệ thuộc về giữa keyphrase và lớp thành quan hệ thuộc về giữa keyphrase chủ đề và keyphrase thuộc về chủ
đề
Chuyển quan hệ phân cấp cha con giữa các lớp thành quan hệ phân cấp cha con giữa các keyphrase chủ đề
Trang 292.3
Ví dụ: chuyển đổi lớp DATA STRUCTURE bằng việc gán nhãn keyphrase data
structure là keyphrase chủ đề, tạo các quan hệ thuộc về giữa keyphrase data
structure và các keyphrase thuộc về chủ đề DATA STRUCTURE như {stack, queue, linked list, hash table, graph, tree, strictly binary tree, AVL tree, Red Black tree, Bubble sort, Merge sort,… } và quan hệ cha con giữa keyphrase chủ đề data
structure và các keyphrase chủ đề con của nó như graph, tree, sorting, …
Trang 302.3
Mô hình CK-ONTO cải tiến giữ lại toàn bộ các thành phần được
định nghĩa trong mô hình cũ (K, C, RKK, RKC, RCC, label) và bổ sung thêm các thành phần mới:
Chuyển đổi tập lớp keyphrase C và hai tập quan hệ RKC và RCC
thành các keyphrase chủ đề và quan hệ trên các keyphrase
Định nghĩa mới tập các lớp khái niệm C
Định nghĩa lại tập quan hệ R gồm RKK, RKC và RCC (trong đó RKC
và RCC được xác định dựa trên tập lớp mới)
Bổ sung tập các luật suy diễn Rules
Sử dụng hàm label cho việc gán nhãn các keyphrase chủ đề
Những thay đổi trên mô hình ontology
Trang 312.3
Việc thay đổi mô hình ontology sẽ tác động đến các kỹ thuật xử lý ngữ nghĩa
1 So khớp đồ thị keyphrase, trên cơ sở đó đo lường mức độ liên quan ngữ nghĩa giữa tài liệu và câu truy vấn
Ontology
Đo sự giống nhau
về mặt ngữ nghĩa giữa 2 keyphrase
(α (k, k’))
Tính mức độ liên quan ngữ nghĩa giữa tài liệu và câu truy vấn
Gọi hàm:
α : K × K → [0, 1]
đo sự giống nhau về mặt ngữ nghĩa giữa 2 keyphrase
Trang 322.3 Mô hình CK-ONTO cải tiến
(tt)
Xác định giá trị α theo kỹ thuật cũ:
Cho k, k’ K, ta định nghĩa một quan hệ hai ngôi P trên K, gọi là quan hệ “tồn tại một dẫn xuất từ k đến k’” như sau: P (k,k’)
=> giá trị của V và thuộc [0,1]
Trang 332.3 Mô hình CK-ONTO cải tiến
(tt)
Tính độ tương quan về mặt ngữ nghĩa giữa hai đồ thị keyphrase
Cho một phép chiếu từ đồ thị keyphrase H = (KH, RH, EH) tới đồ thị keyphrase
G = (KG, RG, EG) là một cặp có thứ tự П = ( f , g) của 2 ánh xạ f : RH → RG,
g : KH → KG thỏa điều kiện:
( , ( )) ( , ( )) ( ) k KH r RH
k g k r f r v
Trang 342.3 Mô hình CK-ONTO cải tiến
Giai đoạn
xử lý
3 Xác định thư mục lưu trữ cho một tài liệu mới cập nhật vào kho
Trang 353 Các vấn đề và thuật giải cải tiến
Cho trước một CK-ONTO cải tiến gồm tập các keyphrase, các lớp, các quan hệ ngữ nghĩa và các luật suy diễn, và hai keyphrase Yêu các tính độ tương đồng giữa hai keyphrase này dựa vào kỹ thuật xác định mối quan hệ ngữ nghĩa giữa chúng
Kỹ thuật cũ: tìm những dãy dẫn xuất từ k đến k’
- Tìm mối quan hệ ngữ nghĩa giữa hai keyphrase
- Tính độ tương đồng dựa vào trọng số được gán cho mỗi loại quan hệ
Trang 363 Các vấn đề và thuật giải cải tiến
Cho trước một CK-ONTO cải tiến và một câu truy vấn của người dùng Yêu cầu phân tích ngữ nghĩa của câu truy vấn để làm rõ ý muốn tìm kiếm của người dùng Sau đó, từ kết quả trả về ta tiến hành xử lý câu truy vấn tương tự như quá trình xử lý tài liệu bao gồm thao tác rút trích tự động keyphrase và thiết lập đồ thị keyphrase cho câu truy vấn
Kỹ thuật cũ: biến đổi trực tiếp câu truy vấn thành đồ thị keyphrase
Tiếp cận mới:
Bước 1: Nhận dạng câu truy vấn đặc biệt và biến đổi sang tập truy vấn mới Bước 2: Biểu diễn tập truy vấn thành các đồ thị keyphrase
Trang 37Vấn đề 1: Đo độ tương đồng ngữ nghĩa
Mô tả: giả sử ban đầu ta có một tập các quan hệ ngữ nghĩa liên quan đến keyphrase và lớp, và hai keyphrase cần xác định mối quan hệ ngữ nghĩa Dựa vào tính chất của các quan hệ ngữ nghĩa này và tập các luật suy diễn được định nghĩa trong ontology, hệ thống sẽ thực hiện suy diễn để tìm ra mối quan hệ ngữ nghĩa giữa hai keyphrase này
Tập các sự kiện ban đầu:
(1) Sự kiện thông tin về tính chất của quan hệ:
(2) Sự kiện về quan hệ giữa hai keyphrase
[k, Rsyn, k’], [k, Racr, k’], [k, Rnsyn, k’], [k, Rex, k’], [k, Rre, k’], [k, RpartOf, k’], [k, RkindOf, k’], [k, RSacl, k’]
[Rre, “đối xứng”], [Rsyn, “đối xứng”], [Rnsyn, “đối xứng”], [RSacl, “đối xứng”], [RpartOf, “bắc cầu”], [RkindOf, “bắc cầu”], [Rsyn, “bắc cầu”], [RSacl, “bắc cầu”]