1. Trang chủ
  2. » Giáo án - Bài giảng

NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT

53 342 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 53
Dung lượng 2,37 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Giải pháp “Thiết kế hệ thống truy vấn tài liệu” đã đưa ra một giải pháp tổng thể, mang tính hệ thống cho việc quản lý thông tin ngữ nghĩa liên quan đến nội dung tài liệu và hỗ trợ biểu d

Trang 1

BÁO CÁO LUẬN VĂN THẠC SĨ

NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ

HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA

TRÊN KHO TÀI LIỆU KHMT

HỌC VIÊN: CHÂU KIM HÙNG HƯỚNG DẪN KHOA HỌC: PGS TS ĐỖ VĂN NHƠN

Trang 2

Kết luận và hướng pháp triển

Trang 4

1.1

Giải pháp “Thiết kế hệ thống truy vấn tài liệu” đã đưa ra một giải pháp tổng thể, mang tính hệ thống cho việc quản lý thông tin ngữ nghĩa liên quan đến nội dung tài liệu và hỗ trợ biểu diễn ngữ nghĩa và xử lý trong truy vấn tài liệu

Kết quả:

Hệ thống tổng hợp tin tức trực

tuyến

Ứng dụng quản lý kho tài liệu học tập lĩnh vực CNTT

Khả năng biểu diễn ngữ nghĩa và tri thức cho lĩnh vực của ontology hiện tại còn nhiều hạn chế, việc biểu diễn nội dung của tài liệu và các kỹ thuật xử lý ngữ nghĩa còn khá đơn giản:

- Kỹ thuật tính toán và so khớp các đồ thị keyphrase

- Thuật giải xử lý các câu truy vấn

Trang 5

1.2 Mục tiêu đề tài

Ứng dụng: thừa kế và xây dựng hệ thống quản lý tài nguyên học tập lĩnh vực KHMT trong phạm vi của một trường đại học

Với 2 tác vụ chính: tổ chức quản lý lưu trữ và tìm kiếm

(giới hạn trong phạm vi kho tài liệu tiếng Anh)

Nghiên cứu đề xuất một mô hình

ontology cải tiến dựa trên việc định

nghĩa thành phần lớp có mô tả cấu

trúc thông tin và xây dựng tập các

luật phổ biến trên miền tri thức của

lĩnh vực:

- Mở rộng việc xử lý câu truy vấn

- Cải tiến kỹ thuật tính toán và so

khớp các đồ thị keyphrase

Trang 6

2 Cải tiến mô hình CK-ONTO

Trang 7

2.1 Vai trò của ontology trong giải pháp

Mô hình cơ sở tài liệu có ngữ nghĩa (Semantic Document Base - SDB)

Tập hợp các tài liệu, mỗi tài liệu tương ứng một tập tin

Mô hình lưu trữ kho tài liệu theo

Trang 8

2.1 Vai trò của ontology trong giải pháp

Ontology là thành phần quan trọng nhất trong mô hình tổng thể Khả năng biểu diễn ngữ nghĩa và tri thức cho lĩnh vực của ontology quyết định toàn bộ hiệu quả của hệ thống, ảnh hưởng đến hầu hết các kỹ thuật xử lý:

 Biểu diễn ngữ nghĩa cho tài liệu

 Đo lường mức độ liên quan ngữ nghĩa giữa tài liệu và câu truy vấn

Trang 9

R KK : tập hợp các quan hệ giữa các keyphrase

label : hàm gán nhãn phân loại keyphrase

Trang 10

2.2

Mô hình CK-ONTO (tt)

Ontology là thành phần quan trọng nhất trong mô hình tổng thể của hệ thống nhưng chủ yếu dựa trên tập keyphrase và tập lớp; mà mỗi lớp chỉ chứa các keyphrase, các quan hệ thuộc về giữa keyphrase và lớp, và quan hệ phân cấp giữa các lớp

=> Vì vậy, khả năng thể hiện ngữ nghĩa và kiến thức cho lĩnh vực của ontology hiện tại còn hạn chế; việc biểu diễn nội dung của tài liệu và các kỹ thuật xử lý ngữ nghĩa còn khá đơn giản Chẳng hạn như giải thuật tính độ liên quan

về mặt ngữ nghĩa giữa hai keyphrase trong kỹ thuật tính toán và so khớp các đồ thị keyphrase còn khá chậm và nhiều trường hợp có độ chính xác chưa cao

Trang 11

2.3 Mô hình CK-ONTO cải tiến

Trang 12

2.3 Mô hình CK-ONTO cải tiến

(tt)

Ứng dụng ontology trong các hệ thống tìm kiếm

Chức năng Tập trung vào Đặc điểm kỹ thuật ontology

Truy vấn tài liệu Khái niệm Khái niệm, tính phân cấp Duyệt tri thức Cấu trúc của ontology Thuộc tính và quan hệ Đưa ra sự phản hồi Suy luận Lôgíc và ràng buộc

Trong các hệ thống hỗ trợ giáo dục, ontology được sử dụng chủ yếu cho 3 mục đích: (1) biểu diễn và lưu trữ tri thức về các lĩnh vực cũng như các đối tượng cần thiết trong ứng dụng; (2) xây dựng các mô hình tổ chức lưu trữ, biểu diễn ngữ nghĩa, biểu diễn tài liệu, lập chỉ mục cho các tài liệu (3) xây dựng các chiến lược tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu

Trang 13

2.3 Mô hình CK-ONTO cải tiến

Mô hình CK-ONTO cải tiến là một hệ thống gồm 5 thành phần

(K, C, R, Rules, label)

trong đó, các thành phần được mô tả như sau:

R : tập hợp các quan hệ giữa các đối tượng

Rules : tập hợp các luật suy diễn

label : hàm gán nhãn phân loại keyphrase

Trang 14

2.3 Mô hình CK-ONTO cải tiến

Một đơn vị ngôn ngữ học cấu trúc như một từ, một từ kép,

một ngữ

Sử dụng các keyphrase làm yếu tố đơn vị để mô tả tri thức trong lĩnh vực hay nội dung tài liệu

Ví dụ: “image processing”, “database programming”

Trang 16

Định nghĩa: keyphrase nền là keyphrase thể hiện ngữ nghĩa quan trọng hình

thành nên định nghĩa của một khái niệm ở dạng ngôn ngữ tự nhiên; trong đó, tên khái niệm cũng chính là tên của lớp

Ví dụ: Xét định nghĩa của khái niệm “a programming language”:

“A programming language is an artificial language designed to communicate

instructions to a machine, particularly a computer Programming languages can

be used to create programs that control the behavior of a machine and/or to

express algorithms

Trang 17

2.3 (K, C , R, Rules, label)

Tập hợp Attr các thuộc tính

Thuộc tính là thành phần thể hiện tính đặc trưng cho lớp, mô tả cấu trúc bên

trong của khái niệm Trong đó, tên thuộc tính là tên của keyphrase hoặc là tên của lớp

Một số kiểu giá trị của thuộc tính như: String, Number, Boolean, Instance

Giả sử, ta có lớp B là lớp dẫn xuất của lớp A, khi đó:

AttrA  AttrB Trong đó:

- AttrA là tập thuộc tính của lớp A

- AttrB là tập thuộc tính của lớp B

Trang 18

2.3 (K, C , R, Rules, label)

Tập hợp Inst các thực thể

Một thực thể là một đối tượng cụ thể của lớp Tên của thực thể là tên của một

keyphrase k  K và thực thể có cấu trúc là cấu trúc của lớp mà nó thể hiện

Giả sử, ta có lớp B là lớp dẫn xuất của lớp A, khi đó:

InstB  InstA Trong đó:

- InstA là tập thực thể của lớp A

- InstB là tập thực thể của lớp B

Ví dụ: BINARY SEARCH ALGORITHM là một thể hiện của lớp ALGORITHM

INSTANCE NAME PROPERTY VALUE

Binary Search Algorithm

Trang 19

2.3 (K, C, R , Rules, label)

Một tập hợp quan hệ giữa các lớp

Một tập hợp quan hệ giữa keyphrase và lớp

Một tập hợp quan hệ giữa keyphrase và keyphrase

Trang 20

2.3 (K, C, R , Rules, label)

Tập hợp R CC quan hệ giữa các lớp

RCC = {r | r ⊆ C × C}

Trong phạm vi đề tài, ta xét RCC gồm 3 quan hệ: {rHYP ,rRE , rPART_OF}

 Quan hệ phân cấp trên lớp rHYP

SuperClass SubClass

ALGORITHM SEARCHING ALGORITHM ALGORITHM SORTING ALGORITHM SEARCHING

ALGORITHM SHORTEST PATH SEARCH ALGORITHM SEARCHING

ALGORITHM CYCLE DETECTION ALGORITHM SEARCHING

ALGORITHM MINIMUN SPANNING TREE ALGORITHM SORTING ALGORITHM INTERNAL SORTING ALGORITHM

SORTING ALGORITHM EXTERNAL SORTING ALGORITHM

Trang 21

2.3 (K, C, R , Rules, label)

 Quan hệ A-Part-of giữa các lớp rPART_OF

Partial class Entire class

 Quan hệ “có liên quan” giữa các lớp Rre

Related Class Intermediary Class Class

Quan hệ Related giữa keyphrase và lớp thể hiện mối quan hệ ngữ nghĩa giữa bộ phận của một lớp với một lớp khác Một keyphrase a được gọi là có quan hệ

Related với lớp B khi và chỉ khi tồn tại một lớp A, mà ở đó keyphrase a có quan hệ A-Part-of với lớp A và lớp A có quan hệ A-Part-of với lớp B

Trang 22

2.3 (K, C, R , Rules, label)

Tập hợp R KC quan hệ giữa các lớp

RKC = {r | r ⊆ K × C}

Trong phạm vi đề tài, ta xét RKC gồm 3 quan hệ: {rHYP ,rRE , rPART_OF}

 Quan hệ A-Part-of giữa keyphrase và lớp rPART-OF

Property Keyphrase Class

heuristic ALGORITHM “is a part of”

type checking PROGRAMMING LANGUAGE “is a part of”

operator DATA TYPE “is a part of”

 Quan hệ “thiết lập” giữa keyphrase và lớp rESTAB

Establishing Keyphrase Class

artificial language PROGRAMMING LANGUAGE “establishing”

procedure ALGORITHM “establishing”

 Quan hệ “có liên quan” giữa keyphrase và lớp rPART-OF

Related Keyphrase Intermediary Class Class

operator DATA TYPE ALGORITHM “related”

function LIBRARY PROGRAMMING LANGUAGE “related”

Trang 23

2.3 (K, C, R , Rules, label)

Tập hợp R KK quan hệ giữa các keyphrase

RKK = {r | r ⊆ K × K}

Trong ontology của lĩnh vực KHMT,

 Nhóm quan hệ tương đương

 Nhóm quan hệ phân cấp

  25 1

Trang 24

2.3 (K, C, R , Rules, label)

 Nhóm quan không phân cấp

r6 Extension ex A là mở rộng của B

r7 Same class Sacl A cùng lớp với B

r8 Relation re A có liên quan với B

r9 Cause cause A là nguyên nhân gây ra B

r10 Influence inf A ảnh hưởng đến B

r11 Instrument inst A được sử dụng như là một phương tiện công cụ cho B

r12 Make make A tạo ra B

r13 Possession poss A sở hữu B

r14 Source source A có xuất xứ từ B

r15 Aim aim Thực hiện A để mà/với mục đích B

r16 Location loc Quan hệ vị trí/ không gian

r17 Temporal temp Quan hệ thời gian

r18 Manner manner A là cách thức mà B xảy ra

r19 Support support A xây dựng trên nền tảng B

r20 Beneficiary benef A hưởng lợi ích từ B

r21 Property pro A là một thuộc tính của B

r22 Agent agent A là tác nhân của B, quan hệ chủ thể - hành động

r23 Circumstance circ A là một trường hợp/tình huống của B

r24 Person pers Liên quan đến con người/tổ chức

r25 Application app A được ứng dụng trong B

Trang 25

2.3 (K, C, R, Rules , label)

Tập hợp Rules các luật suy diễn

Rules là tập hợp các luật suy diễn trên các sự kiện liên quan đến tính chất của quan hệ hoặc sự kiện liên quan đến các keyphrase và các lớp

Có 2 loại sự kiện chính: sự kiện về tính chất của quan hệ và sự kiện về quan hệ giữa 2 đối tượng (giữa k và k’, giữa c và c’, hoặc giữa k và c)

Định nghĩa: (các loại sự kiện)

(1) Sự kiện thông tin về tính chất của quan hệ: [<relation>, <property_of_relation>]

Ví dụ: [Rsym , “Đối xứng”]

(2) Sự kiện về quan hệ giữa 2 đối tượng: [<obj1>, <relation>, <obj2>]

a Sự kiện về quan hệ giữa keyphrase và keyphrase [k1, Rsyn, k2]

b Sự kiện về quan hệ giữa lớp và lớp [c1, RRE, c2]

c Sự kiện về quan hệ giữa keyphrase và lớp [k, Rpart_of, c]

Trang 26

2.3 (K, C, R, Rules , label)

Trong mô hình CK-ONTO hiện tại chúng tôi định nghĩa một tập gồm 12 luật

1 if PORR=”đối xứng” && k1 R k2 then k2 R k1

2 if PORR = “bắc cầu” && k1 R k2 && k2 R k3 then k1 R k3

3 if k1 Rnsyn k2 && k2 Racr k3 then k1 Rnsyn k3

4 if k1 Rsyn k2 && k3 Racr k2 then k1 Rsyn k3

5 if k1 Rnsyn k2 && k2 Rsyn k3 then k1 Rnsyn k3

6 if k1 Rsyn k2 && k2 Rpart-of k3 then k1 Rpart_of k3

7 if k1 Rpart-of k3 && k2 Rkind-of k3 then k1 Rpart_of k2

8 if k1 Rsyn k2 && k2 Rkind-of k3 then k1 Rkind_of k3

9 if k1 Rkind-of k2 && k2 Rsyn k3 then k1 Rkind_of k3

10 if PORR=”đối xứng” && c1 R c2 then c2 R c1

11 if PORR = “bắc cầu” && c1 R c2 && c2 R c3 then c1 R c3

12 if k1 Rpart_of c && k2 Rpart_of c then k1 RSacl k2

Trang 27

Cho Labels là tập các nhãn phân loại

Labels = {“Ngành”, “Chuyên ngành”, “Môn học”, “chuyên đề”, “chủ đề”, “thuật ngữ chuyên môn”}

Hàm label: K   (Labels)

Ví dụ: “Computer Vision”  {“Thuật ngữ chuyên môn”, “Chuyên ngành”}

Tập hợp R KK quan hệ giữa các keyphrase

Trang 28

2.3

Chuyển đổi thành phần C trong mô hình CK-ONTO

Gán nhãn chủ đề cho

các keyphrase cùng tên với tên chủ đề gọi

là keyphrase chủ đề

Chuyển quan hệ thuộc về giữa keyphrase và lớp thành quan hệ thuộc về giữa keyphrase chủ đề và keyphrase thuộc về chủ

đề

Chuyển quan hệ phân cấp cha con giữa các lớp thành quan hệ phân cấp cha con giữa các keyphrase chủ đề

Trang 29

2.3

dụ: chuyển đổi lớp DATA STRUCTURE bằng việc gán nhãn keyphrase data

structure là keyphrase chủ đề, tạo các quan hệ thuộc về giữa keyphrase data

structure và các keyphrase thuộc về chủ đề DATA STRUCTURE như {stack, queue, linked list, hash table, graph, tree, strictly binary tree, AVL tree, Red Black tree, Bubble sort, Merge sort,… } và quan hệ cha con giữa keyphrase chủ đề data

structure và các keyphrase chủ đề con của nó như graph, tree, sorting, …

Trang 30

2.3

Mô hình CK-ONTO cải tiến giữ lại toàn bộ các thành phần được

định nghĩa trong mô hình cũ (K, C, RKK, RKC, RCC, label) và bổ sung thêm các thành phần mới:

 Chuyển đổi tập lớp keyphrase C và hai tập quan hệ RKC và RCC

thành các keyphrase chủ đề và quan hệ trên các keyphrase

 Định nghĩa mới tập các lớp khái niệm C

 Định nghĩa lại tập quan hệ R gồm RKK, RKC và RCC (trong đó RKC

và RCC được xác định dựa trên tập lớp mới)

 Bổ sung tập các luật suy diễn Rules

 Sử dụng hàm label cho việc gán nhãn các keyphrase chủ đề

Những thay đổi trên mô hình ontology

Trang 31

2.3

Việc thay đổi mô hình ontology sẽ tác động đến các kỹ thuật xử lý ngữ nghĩa

1 So khớp đồ thị keyphrase, trên cơ sở đó đo lường mức độ liên quan ngữ nghĩa giữa tài liệu và câu truy vấn

Ontology

Đo sự giống nhau

về mặt ngữ nghĩa giữa 2 keyphrase

(α (k, k’))

Tính mức độ liên quan ngữ nghĩa giữa tài liệu và câu truy vấn

Gọi hàm:

α : K × K → [0, 1]

đo sự giống nhau về mặt ngữ nghĩa giữa 2 keyphrase

Trang 32

2.3 Mô hình CK-ONTO cải tiến

(tt)

 Xác định giá trị α theo kỹ thuật cũ:

Cho k, k’  K, ta định nghĩa một quan hệ hai ngôi P trên K, gọi là quan hệ “tồn tại một dẫn xuất từ k đến k’” như sau: P (k,k’)

=> giá trị của V và  thuộc [0,1]

Trang 33

2.3 Mô hình CK-ONTO cải tiến

(tt)

Tính độ tương quan về mặt ngữ nghĩa giữa hai đồ thị keyphrase

Cho một phép chiếu từ đồ thị keyphrase H = (KH, RH, EH) tới đồ thị keyphrase

G = (KG, RG, EG) là một cặp có thứ tự П = ( f , g) của 2 ánh xạ f : RH → RG,

g : KH → KG thỏa điều kiện:

( , ( )) ( , ( )) ( ) k KH r RH

k g k r f r v

Trang 34

2.3 Mô hình CK-ONTO cải tiến

Giai đoạn

xử lý

3 Xác định thư mục lưu trữ cho một tài liệu mới cập nhật vào kho

Trang 35

3 Các vấn đề và thuật giải cải tiến

Cho trước một CK-ONTO cải tiến gồm tập các keyphrase, các lớp, các quan hệ ngữ nghĩa và các luật suy diễn, và hai keyphrase Yêu các tính độ tương đồng giữa hai keyphrase này dựa vào kỹ thuật xác định mối quan hệ ngữ nghĩa giữa chúng

Kỹ thuật cũ: tìm những dãy dẫn xuất từ k đến k’

- Tìm mối quan hệ ngữ nghĩa giữa hai keyphrase

- Tính độ tương đồng dựa vào trọng số được gán cho mỗi loại quan hệ

Trang 36

3 Các vấn đề và thuật giải cải tiến

Cho trước một CK-ONTO cải tiến và một câu truy vấn của người dùng Yêu cầu phân tích ngữ nghĩa của câu truy vấn để làm rõ ý muốn tìm kiếm của người dùng Sau đó, từ kết quả trả về ta tiến hành xử lý câu truy vấn tương tự như quá trình xử lý tài liệu bao gồm thao tác rút trích tự động keyphrase và thiết lập đồ thị keyphrase cho câu truy vấn

Kỹ thuật cũ: biến đổi trực tiếp câu truy vấn thành đồ thị keyphrase

Tiếp cận mới:

Bước 1: Nhận dạng câu truy vấn đặc biệt và biến đổi sang tập truy vấn mới Bước 2: Biểu diễn tập truy vấn thành các đồ thị keyphrase

Trang 37

Vấn đề 1: Đo độ tương đồng ngữ nghĩa

Mô tả: giả sử ban đầu ta có một tập các quan hệ ngữ nghĩa liên quan đến keyphrase và lớp, và hai keyphrase cần xác định mối quan hệ ngữ nghĩa Dựa vào tính chất của các quan hệ ngữ nghĩa này và tập các luật suy diễn được định nghĩa trong ontology, hệ thống sẽ thực hiện suy diễn để tìm ra mối quan hệ ngữ nghĩa giữa hai keyphrase này

Tập các sự kiện ban đầu:

(1) Sự kiện thông tin về tính chất của quan hệ:

(2) Sự kiện về quan hệ giữa hai keyphrase

[k, Rsyn, k’], [k, Racr, k’], [k, Rnsyn, k’], [k, Rex, k’], [k, Rre, k’], [k, RpartOf, k’], [k, RkindOf, k’], [k, RSacl, k’]

[Rre, “đối xứng”], [Rsyn, “đối xứng”], [Rnsyn, “đối xứng”], [RSacl, “đối xứng”], [RpartOf, “bắc cầu”], [RkindOf, “bắc cầu”], [Rsyn, “bắc cầu”], [RSacl, “bắc cầu”]

Ngày đăng: 18/05/2015, 20:47

HÌNH ẢNH LIÊN QUAN

Đồ thị  keyphrase biểu  diễn ngữ nghĩa - NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT
th ị keyphrase biểu diễn ngữ nghĩa (Trang 34)
Sơ đồ quy trình xử lý câu truy vấn thông qua hai bước - NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT
Sơ đồ quy trình xử lý câu truy vấn thông qua hai bước (Trang 41)
Bảng so sánh độ chính - NGHIÊN CỨU CẢI TIẾN GIẢI PHÁP THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM THEO NGỮ NGHĨA TRÊN KHO TÀI LIỆU KHMT
Bảng so sánh độ chính (Trang 47)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w