1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG hệ THỐNG hỗ TRỢ tìm KIẾM tài LIỆU THEO NGỮ NGHĨA CHO THƯ VIỆN TRƯỜNG cđ KTKT TP HCM

61 204 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 6,56 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xuất phát từ mục tiêu áp dụng công nghệ tri thức vào thực tiễn, kết hợp với nhu cầu cần cải thiện hệ thống tra cứu thông tin cho thư viện Trường Cao đẳng KTKT TP.HCM, tôi đã chọn đề tài

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của bản thân Các số liệu, kết quả trình bày trong khóa luận này là trung thực Những tư liệu được sử dụng trong khóa luận có nguồn gốc và trích dẫn rõ ràng, đầy đủ

Người thực hiện

Lê Thị Thu Thảo

Trang 3

MỤC LỤC

Trang

Mục lục 1

Danh mục các bảng 4

Danh mục các hình vẽ 5

Danh mục các ký hiệu, chữ viết tắt 6

Mở đầu 7

CHƯƠNG 1 TỔNG QUAN 8

1.1 Giới thiệu tổng quan về vấn đề nghiên cứu 8

1.1.1 Thực trạng và nhu cầu xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo ngữ nghĩa cho thư viện Trường CĐ KTKT TP.HCM 8

1.1.2 Khảo sát một số giải pháp và ứng dụng tìm kiếm tài liệu trong thư viện hiện nay 13

1.2 Mục tiêu nghiên cứu 15

1.3 Đối tượng nghiên cứu 15

1.4 Phạm vi nghiên cứu 16

1.5 Ý nghĩa thực tiễn của đề tài 16

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 17

2.1 Hệ thống tìm kiếm thông tin 17

2.1.1 Cấu trúc của một hệ thống tìm kiếm thông tin 17

2.1.2 Phân loại hệ thống tìm kiếm thông tin 18

2.1.2.1 Hệ thống tìm kiếm thông tin dựa trên từ khóa 18

2.1.2.2 Hệ thống tìm kiếm thông tin dựa trên khái niệm hay ngữ nghĩa 18

2.1.3 Các phương pháp tìm kiếm thông tin 19

2.1.3.1 Tìm kiếm thông tin theo hướng tiếp cận thống kê 19

2.1.3.2 Tìm kiếm thông tin theo hướng ngữ nghĩa 20

2.1.4 Đánh giá một hệ thống tìm kiếm thông tin 21

2.2 Ontology 22

2.2.1 Khái niệm Ontology 22

Trang 4

2.2.2 Định nghĩa Ontology 22

2.2.3 Thành phần của một Ontology 23

2.2.4 Phân loại ontology 24

2.2.5 Vai trò của Ontology 24

2.2.6 Các hướng tiếp cận xây dựng ontology 25

2.2.7 Phương pháp xây dựng Ontology 26

2.2.7.1 Xây dựng Ontology 26

2.2.7.2 Ngôn ngữ xây dựng Ontology 26

CHƯƠNG 3 MÔ HÌNH VÀ CÔNG CỤ PHÁT TRIỂN 28

3.1 Mô hình Ontology cho ngữ nghĩa của các tài liệu 28

3.1.1 Tập hợp K các keyphrase 28

3.1.2 Tập hợp C các lớp keyphrase 28

3.1.3 Tập hợp RKC các quan hệ giữa keyphrase và lớp 29

3.1.4 Tập hợp RCC các quan hệ giữa các lớp 29

3.1.5 Tập hợp RKK các quan hệ giữa các keyphrase 30

3.2 Công cụ xây dựng ontology 31

3.3 Thư viện Lucene 32

3.4 Công cụ tách từ tiếng Việt vnTokenizer 35

3.5 Công cụ gán nhãn từ loại tiếng Việt vnTagger 37

CHƯƠNG 4 CÀI ĐẶT ỨNG DỤNG 38

4.1 Thiết kế hệ thống 38

4.1.1 Mục tiêu ứng dụng 38

4.1.2 Yêu cầu và chức năng của hệ thống 38

4.1.2.1 Yêu cầu đối với hệ thống 38

4.1.2.2 Chức năng của hệ thống 38

4.1.3 Cấu trúc hệ thống 39

4.2 Cài đặt ứng dụng 40

4.2.1 Môi trường cài đặt 40

4.2.1.1 Phần cứng 40

4.2.1.2 Phần mềm 40

4.2.2 Xây dựng Ontology 40

Trang 5

4.2.2.1 Thiết kế lớp 41

4.2.2.2 Thuộc tính lớp 43

4.2.2.3 Các mối quan hệ 43

4.2.2.4 Xây dựng các thực thể 48

4.2.3 Xây dựng thành phần tạo chỉ mục 48

4.2.4 Xây dựng thành phần truy vấn 48

4.3 Giao diện chương trình 52

4.3.1 Màn hình tìm kiếm chính xác 52

4.3.2 Màn hình tìm kiếm theo ngữ nghĩa 52

4.4 Kết quả thử nghiệm 54

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 56

5.1 Kết quả đạt được 56

5.2 Hạn chế 56

5.3 Hướng phát triển 57

TÀI LIỆU THAM KHẢO 58

Trang 6

DANH MỤC CÁC BẢNG

1 Bảng 3.1 Ví dụ quan hệ “thuộc về”

2 Bảng 3.2 Mối quan hệ giữa các lớp trong sơ đồ phân cấp

3 Bảng 3.3 Các loại quan hệ giữa các keyphrase

Trang 7

DANH MỤC CÁC HÌNH VẼ

1 Hình 1.1 Trang web tra cứu tài liệu của thư viện trường CĐ KTKT TPHCM

2 Hình 1.2 Phiếu đăng ký mượn sách dành cho học sinh sinh viên

3 Hình 1.3 Phiếu đăng ký mượn sách dành cho cán bộ, giáo viên, nhân viên

4 Hình 1.4 Màn hình kết quả tra cứu sách

5 Hình 2.1 Cấu trúc của một hệ thống tìm kiếm thông tin

6 Hình 2.2 Các phương pháp tìm kiếm thông tin

7 Hình 3.1 Ví dụ sơ đồ phân cấp

8 Hình 3.2 Các thành phần cơ bản của một ứng dụng tìm kiếm

9 Hình 3.3 Tiến trình lập chỉ mục

10 Hình 3.4 Qui trình chuyển đổi nội dung tìm kiếm

11 Hình 3.5 Tiến trình phân tích trong quá trình lập chỉ mục

12 Hình 3.6 Quy trình tách từ

13 Hình 4.1 Cấu trúc tổng quát của hệ thống

14 Hình 4.2 Minh họa các lớp trong Ontology

15 Hình 4.3 Minh họa các quan hệ phân cấp trên lớp

16 Hình 4.4 Quy trình xử lý hệ thống tìm kiếm

17 Hình 4.5 Màn hình tìm kiếm chính xác

18 Hình 4.6 Màn hình tìm kiếm theo ngữ nghĩa

19 Hình 4.7 Màn hình tìm kiếm theo ngữ nghĩa dùng toán tử AND

20 Hình 4.8 Màn hình tìm kiếm theo ngữ nghĩa dùng toán tử OR

Trang 8

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

CĐ KTKT: Cao đẳng kinh tế kỹ thuật

CNTT : Công nghệ thông tin

CSDL : Cơ sở dữ liệu

IR : Information Retrieval

Trang 9

MỞ ĐẦU

Ngày nay, cùng với sự vận động và phát triển không ngừng của ngành khoa học máy tính, việc đưa tri thức con người vào máy tính là một vấn đề đang được rất nhiều người quan tâm Ngày càng có nhiều hệ thống được xây dựng để hỗ trợ hoặc ngay cả thay thế con người trong nhiều lĩnh vực khác nhau như giáo dục, y học, toán học, công nghệ, hóa học, địa chất, khoa học máy tính, tài chính, kinh doanh, quốc phòng Xuất phát từ mục tiêu áp dụng công nghệ tri thức vào thực tiễn, kết hợp với nhu cầu cần cải thiện hệ thống tra cứu thông tin cho thư viện Trường Cao đẳng KTKT TP.HCM, tôi đã chọn đề tài “Xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo ngữ nghĩa cho thư viện Trường Cao đẳng KTKT TP.HCM” để làm khóa luận tốt nghiệp Thạc sĩ của mình

Xin chân thành cảm ơn quý thầy cô trường Đại học Công Nghệ Thông Tin đã tận tình dạy bảo và cung cấp cho tôi nhiều kiến thức bổ ích trong suốt thời gian học tập tại trường

Đặc biệt, tôi xin chân thành cảm ơn Phó giáo sư tiến sĩ Đỗ Văn Nhơn, người thầy đã tận tâm, nhiệt tình hướng dẫn và chỉ bảo cho tôi trong suốt quá trình thực hiện

Trang 10

Chương 1 Tổng quan

CHƯƠNG 1 TỔNG QUAN

1.1 Giới thiệu tổng quan về vấn đề nghiên cứu

1.1.1 Thực trạng và nhu cầu xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo

ngữ nghĩa cho thư viện Trường CĐ KTKT TP.HCM

Cùng với sự phát triển mạnh mẻ của công nghệ thông tin, hệ thống giáo dục trong những năm qua cũng đã có những đổi mới và phát triển đáng kể Các ứng dụng của công nghệ thông tin vào lĩnh vực giáo dục phải kể đến như:

- Ứng dụng trong quản lý giáo dục: quản lý sinh viên, quản lý giảng viên, quản lý hồ sơ, quản lý trang thiết bị, quản lý thư viện, …

- Các ứng dụng hỗ trợ giảng dạy, học tập

- Các lớp học trực tuyến, các chương trình đào tạo từ xa

- Các kho chứa tài nguyên học tập

- …

Trong một nền giáo dục tiến bộ thì thư viện không thể tách rời với dạy và học Thư viện là nơi bổ sung, cập nhật những kiến thức mới, mở rộng cho sinh viên về các lĩnh vực tri thức hơn so với khuôn khổ qui định về nội dung, chương trình và

kế hoạch đào tạo của nhà trường Thư viện là cầu nối giữa thông tin và người sử dụng Thư viện là một yếu tố căn bản và quan trọng, là thước đo đánh giá vai trò, chức năng, nhiệm vụ, hiệu quả đào tạo của trường học Do đó trong trường học công tác thông tin thư viện giữ vai trò đặc biệt quan trọng và không thể thiếu Việc khai thác hiệu quả thông tin thư viện đã trở thành một trong những nhiệm vụ hàng đầu trong công tác thư viện của bất kỳ một trường học nào [1]

Qua khảo sát thực tế tại Trường CĐ KTKT TP.HCM, thư viện có trên 18000 đầu sách với hơn 58000 quyển sách thuộc nhiều chuyên ngành, số lượng học sinh sinh viên và cán bộ giáo viên đến mượn sách hoặc tra cứu thông tin tài liệu tại thư viện trường hàng ngày khá đông Tuy có quy mô như vậy, nhưng hầu hết mọi việc quản lý tại thư viện đều lại được thực hiện thủ công hoặc bán thủ công

Trang 11

Chương 1 Tổng quan

Cụ thể như sau:

Quy trình mượn sách:

o Người dùng thư viện (độc giả):

1 Tra cứu tài liệu trong sổ danh mục của thư viện hoặc trên trang web tra cứu tài liệu của thư viện trường theo địa chỉ: http://ktkthcm.edu.vn/index.php/thuvien/book

Hình 1.1 Trang web tra cứu tài liệu của thư viện trường CĐ KTKT TP.HCM

2 Điền đầy đủ các thông tin lên Phiếu đăng ký mượn sách

Hình 1.2 Phiếu đăng ký mượn sách dành cho học sinh sinh viên

Trang 12

Chương 1 Tổng quan

Hình 1.3 Phiếu đăng ký mượn sách dành cho cán bộ, giáo viên, nhân viên

3 Mang Phiếu đăng ký mượn sách tới bàn phục vụ

o Nhân viên thư viện:

1 Kiểm tra Thẻ Thư viện (đối với người dùng là sinh viên)

2 Vào kho tìm tài liệu + Nếu có tài liệu trong kho: làm thủ tục cho mượn

+ Nếu không có tài liệu trong kho: định hướng bạn đọc tới những tài liệu có nội dung tương tự

3 Làm thủ tục cho mượn tài liệu

4 Giao tài liệu và ghi nhận vào sổ mượn tài liệu của thư viện

• Thực trạng kho sách thư viện:

Kho sách thư viện trường được tổ chức theo kho đóng

Kho đóng là kho mà người dùng thư viện đến mượn tài liệu, phải tra cứu

hệ thống tài liệu mục lục truyền thống (sổ danh mục, mục lục phiếu) hoặc mục lục trên máy tính, phải ghi phiếu yêu cầu và mượn qua nhân viên thư viện (thủ thư) Người dùng không được trực tiếp vào kho tài liệu

Trang 13

Chương 1 Tổng quan

Do không được tiếp xúc trực tiếp nên độ chính xác tìm tài liệu bị hạn chế Người dùng mất thời gian tra cứu, chờ đợi nhân viên thư viện tìm và trả tài liệu theo yêu cầu

• Thực trạng việc tra cứu tài liệu:

Việc tra cứu tài liệu tại thư viện trường còn rất nhiều hạn chế, có hai hình thức tra cứu:

- Tra cứu từ sổ danh mục: sổ danh mục phân loại sách theo các chủ

đề và được trình bày theo dạng bảng Thông tin các quyển sách gồm: ký hiệu phân loại, ký hiệu xếp giá, tên sách, tác giả, nhà xuất bản, năm xuất bản

Các chủ đề trong danh mục gồm:

+ Âm nhạc + An ninh quốc phòng + Chính trị

+ CNKT Điện - Điện tử viễn thông + Cơ khí - Tự động hóa

+ Công nghệ thông tin + Giáo dục - Đào tạo + Hồ Chí Minh + Khoa học kỹ thuật - Công nghệ + Khoa học tự nhiên

+ Kinh tế - Kế toán + Lịch sử- Địa lý + May - Thiết kế thời trang + Nghệ thuật

+ Ngôn ngữ - Tiếng Anh + Nữ công gia chánh + Pháp luật

+ SGK và tham khảo THPT

Trang 14

Hình 1.4 Màn hình kết quả tra cứu sách

Với cách tìm kiếm này, khi người dùng có nhu cầu tìm những quyển sách có liên quan đến tin học văn phòng như: “Bài tập Excel và Word - 450 vấn đề và giải pháp”, “Bài tập thực hành Windows 95, Word 97, Excel 97”,… thì không thể thực hiện được Đây cũng chính là cách thức tìm kiếm tài liệu – tìm những tài liệu có

Trang 15

Chương 1 Tổng quan

liên quan đến nội dung cần tìm - mà người dùng là những người có nhu cầu nghiên cứu, giảng dạy như sinh viên, giảng viên mong muốn được hệ thống hỗ trợ Qua đó cho thấy, với phương pháp tìm kiếm hiện tại của hệ thống tra cứu tài liệu của thư viện nhà trường chưa đáp ứng được nhu cầu tìm kiếm tài liệu của người dùng Do đó, cần phải tăng cường ứng dụng công nghệ thông tin vào hệ thống để cải thiện chất lượng phục vụ, đảm bảo hoàn thành được nhiệm vụ trọng tâm của công tác quản lý thư viện là hỗ trợ hiệu quả người dùng trong việc tiếp cận thông tin

Từ những thực trạng khảo sát trên cho thấy việc xây dựng một hệ thống tìm kiếm thông tin mới hiệu quả hơn thay thế cho hệ thống kiếm truyền thống vốn có nhiều hạn chế mà thư viện nhà trường đang sử dụng là điều thực sự cần thiết Đó cũng chính là lý do để tôi chọn đề tài “Xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo ngữ nghĩa cho thư viện Trường Cao đẳng KTKT TP.HCM” làm khóa luận tốt nghiệp Thạc sĩ của mình

1.1.2 Khảo sát một số giải pháp và ứng dụng tìm kiếm tài liệu trong thư viện

hiện nay

Với xu hướng toàn cầu hoá và xu hướng hiện đại hoá trong phạm vi lĩnh vực hoạt động thư viện, hiện nay các thư viện công cộng, phòng tư liệu, thư viện ở các trường học lớn, … đã dần sử dụng hệ quản trị thư viện tích hợp mã nguồn mở Koha ILS - là một phần mềm thư viện hiện đại, đầy đủ tính năng, áp dụng các chuẩn quốc

tế, có nhiều tính năng nổi trội, tiện ích trong hệ thống thư viện tích hợp [3] Trong

đó OPAC (Online Public Access Catalog) là một phân hệ với chức năng hỗ trợ người dùng tìm kiếm tài liệu với hai hình thức: tìm chi tiết và tìm nâng cao với nhiều tiêu chí như: Nhan đề; Tác giả; Nơi xuất bản; Năm xuất bản; Chỉ số phân loại; Từ khoá; Tiêu đề đề mục; Ngôn ngữ, … cho độ chính xác tương đối cao dù vậy mối quan hệ ngữ nghĩa giữa các từ khóa trong hệ thống này vẫn chưa được xem xét

Như vậy, ngoài việc cung cấp cho người dùng các chức năng tìm kiếm thông thường khi tìm kiếm thông tin, thì hầu hết các hệ thống quản lý thư viện hiện nay

Trang 16

Chương 1 Tổng quan

còn hỗ trợ thêm cho người dùng tìm kiếm tài liệu theo từ khóa (keywords) Tuy nhiên, hạn chế của phương pháp này là cho độ chính xác của kết quả tìm kiếm không cao

Theo [2] với phương pháp tìm kiếm theo từ khóa gặp hai vấn đề chính sau đây:

- Mỗi từ khóa tìm kiếm có thể có nhiều ý nghĩa tùy theo từng ngữ cảnh và

hệ thống tìm kiếm không thể hiện mối quan hệ giữa các từ khóa với nhau

- Các thông tin cùng ý nghĩa với từ khóa tìm kiếm của người dùng sẽ không tồn tại trong kết quả tìm

Tài liệu [2] cũng đã chỉ ra rằng sử dụng công nghệ ngữ nghĩa trong tìm kiếm

để khắc phục những hạn chế này Sử dụng công nghệ ngữ nghĩa cho phép mô tả được các đối tượng, thiết lập được các lược đồ trong các dạng của ontology cho các định danh của các đối tượng với mục tiêu là làm cho thao tác giữa các phần có thể xử lý thông minh, nhất quán, mạch lạc Việc ứng dụng ontology trong quản lý tài liệu trong thư viện không những thực hiện lưu trữ dữ liệu mô tả để mô tả hệ thống thư mục mà còn mô tả được nội dung của nó

Việc sử dụng công nghệ ngữ nghĩa với cách biểu diễn dựa trên các ontology hiện nay được xem là cách tiếp cận hiện đại và phù hợp cho việc thiết kế biểu diễn,

xử lý nội dung và ý nghĩa của các tài liệu Đã có nhiều nghiên cứu xây dựng các

hệ thống phục vụ cho giáo dục theo cách tiếp cận sử dụng ontology được đề cập trong các nghiên cứu [4, 5, 6, 7, 8, 12]

Theo hướng tiếp cận hiện đại trên, nhiều công cụ hỗ trợ cho việc xây dựng

và phát triển các ứng dụng xử lý ngôn ngữ tự nhiên cũng ra đời, tiêu biểu như Lucene, GATE, …

Trong phạm vi đề tài “Xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo ngữ nghĩa cho thư viện Trường CĐ KTKT TP.HCM”, đề tài đã đặt mục tiêu nghiên cứu tìm hiểu các kỹ thuật tìm kiếm theo ngữ nghĩa và từ đó xây dựng một ứng dụng tìm kiếm theo ngữ nghĩa trên cơ sở vận dụng các tính năng hỗ trợ của Lucene nhằm mục đích cải thiện hiệu quả công việc tìm kiếm tài liệu tại thư viện cũng như nâng cao chất lượng học tập, nghiên cứu tại trường của sinh viên

và giảng viên

Trang 17

Chương 1 Tổng quan

1.2 Mục tiêu nghiên cứu

Nghiên cứu lý thuyết về các kỹ thuật và công cụ để xây dựng hệ thống tìm kiếm thông tin theo ngữ nghĩa Qua đó, xây dựng ứng dụng hỗ trợ tìm kiếm tài liệu chuyên ngành CNTT theo ngữ nghĩa cho thư viện Trường CĐ KTKT TP.HCM

Đề tài tập trung nghiên cứu và giải quyết các vấn đề sau:

- Nghiên cứu một số mô hình biểu diễn tri thức, trong đó có mô hình Ontology mô tả tri thức lĩnh vực, cùng với đó là các phương pháp biểu diễn ngữ nghĩa liên quan đến nội dung tài liệu

- Nghiên cứu một số công cụ hỗ trợ xây dựng hệ thống tìm kiếm theo ngữ nghĩa, công cụ xử lý ngôn ngữ tự nhiên

Trên cơ sở đó, đề tài sẽ xây dựng một hệ thống hỗ trợ tìm kiếm tài liệu chuyên ngành CNTT theo ngữ nghĩa cho thư viện Trường CĐ KTKT TP.HCM Hệ thống đáp ứng các chức năng chính sau:

- Hỗ trợ tìm kiếm theo ngữ nghĩa các tài liệu có trong cơ sở dữ liệu Việc tìm kiếm bao gồm các chức năng:

+ Tìm kiếm so trùng chính xác tất cả các từ do người dùng nhập vào Kết quả trả về là các tài liệu mà trong phần tựa đề, tên tác giả, tên nhà xuất bản hay trong tập từ khóa của nội dung tài liệu có chứa các từ trùng với các từ ở câu truy vấn của người dùng

+ Tìm kiếm không so trùng một cách chính xác những gì người dùng nhập vào Hệ thống sẽ thực hiện việc xử lý tách câu, tách từ tiếng Việt, chọn lọc từ khóa cho câu truy vấn Kết quả trả về là các tài liệu mà trong phần tựa đề, tên tác giả, tên nhà xuất bản hay trong tập từ khóa của nội dung tài liệu có chứa các cụm từ trùng với các từ khóa ở câu truy vấn của người dùng sau khi được hệ thống xử lý

1.3 Đối tượng nghiên cứu

- Đối tượng nghiên cứu lý thuyết: phương pháp tìm kiếm thông tin theo ngữ nghĩa, biểu diễn tri thức bằng ontology

- Đối tượng nghiên cứu ứng dụng: thông tin tài liệu chuyên ngành CNTT tại thư viện Trường CĐ KTKT TP.HCM

Trang 18

Chương 1 Tổng quan

1.4 Phạm vi nghiên cứu

Đề tài tập trung nghiên cứu về phương pháp biểu diễn tri thức bằng ontology

và phương pháp tìm kiếm thông tin theo ngữ nghĩa để ứng dụng vào xây dựng hệ thống tìm kiếm sách (sách in) chuyên ngành CNTT theo ngữ nghĩa cho thư viện của Trường CĐ KTKT TP.HCM

1.5 Ý nghĩa thực tiễn của đề tài

Xuất phát từ yêu cầu thực tiễn tại Trường Cao đẳng KTKT TP.HCM nêu trên cho thấy việc xây dựng hệ thống hỗ trợ tìm kiếm tài liệu theo ngữ nghĩa cho thư viện tại Trường là vấn đề hết sức cần thiết hiện nay Điều này không những mang lại lợi ích thiết thực cho sinh viên, giảng viên trong việc tìm kiếm tài liệu phục vụ công tác học tập nghiên cứu mà còn góp phần nâng cao chất lượng đào tạo và hiệu quả nghiên cứu khoa học của nhà trường

Trang 19

Chương 2 Cơ sở lý thuyết

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

Cơ sở lý thuyết về hệ thống tìm kiếm thông tin, biểu diễn tri thức bằng ontology được đề cập trong các tài liệu [4, 9, 10, 11, 12, 17, 19, 20, 21]

2.1 Hệ thống tìm kiếm thông tin (Information Retrieval - IR)

Mục tiêu của tìm kiếm thông tin là tìm kiếm và đưa ra các thông tin liên quan nhất với nhu cầu thông tin của người dùng

Một hệ thống tìm kiếm thông tin có nhiệm vụ của tương tự như nhiệm vụ tổ chức phân loại tài liệu và phục vụ việc tra cứu thông tin của một thư viện

2.1.1 Cấu trúc của một hệ thống tìm kiếm thông tin

Một hệ thống tìm kiếm thông tin có hai chức năng chính: lập chỉ mục (indexing) và tra cứu (interrogation)

- Lập chỉ mục: phân tích tài liệu nhầm xác định các chỉ mục biểu diễn nội dung của tài liệu Có hai cách lập chỉ mục:

+ Lập chỉ mục dựa vào một cấu trúc phân lớp có sẵn Các chỉ mục tồn tại trước và độc lập với tài liệu Cách làm này tương tự cách làm của các nhân viên thư viện, phân loại tài liệu theo một bộ phân loại cho trước

+ Lập chỉ mục từ việc rút trích các chỉ mục từ nội dung của các tài liệu trong kho tài liệu

Kết thúc giai đoạn này nội dung của các tài liệu có trong kho tài liệu sẽ được biểu diễn bên trong bằng tập các chỉ mục

- Tra cứu: hệ thống nhận yêu cầu thông tin từ người dùng thông qua câu hỏi (query) Hệ thống tiến hành phân tích và biểu diễn thành một dạng biểu diễn trong sau đó sử dụng một hàm so khớp để so khớp biểu diễn của câu hỏi với các biểu diễn của các tài liệu để tìm ra các tài liệu có liên quan

Trang 20

Chương 2 Cơ sở lý thuyết

Hình 2.1 Cấu trúc của một hệ thống tìm kiếm thông tin

2.1.2 Phân loại hệ thống tìm kiếm thông tin:

2.1.2.1 Hệ thống tìm kiếm thông tin dựa trên từ khóa

Tìm kiếm theo từ khóa là tìm kiếm các tài liệu mà những từ trong câu truy vấn xuất hiện nhiều nhất Trong một tài liệu, nếu số từ khoá của câu truy vấn xuất hiện càng nhiều trong một tài liệu thì tài liệu đó càng được ưu tiên chọn

2.1.2.2 Hệ thống tìm kiếm thông tin dựa trên khái niệm hay ngữ nghĩa

Tìm kiếm thông tin dựa trên khái niệm hay ngữ nghĩa là tìm kiếm mà trong

đó một tập các khái niệm hay một cấu trúc khái niệm được dùng để mô tả cho nội dung của một đối tượng thông tin Để rút trích được các khái niệm từ đối tượng thông tin, hệ thống cần sử dụng đến nguồn tri thức về lĩnh vực thuộc đối tượng thông tin đó

Các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công nghệ ontology được

đề xuất sử dụng trong hệ thống tìm kiếm thông tin này

Trang 21

Chương 2 Cơ sở lý thuyết

2.1.3 Các phương pháp tìm kiếm thông tin

Có hai hướng tiếp cận chính trong việc nguyên cứu các hệ thống tìm kiếm thông tin là tìm kiếm thông tin theo hướng tiếp cận thống kê và tìm kiếm thông tin theo hướng ngữ nghĩa [22]

Hình 2.2 Các phương pháp tìm kiếm thông tin 2.1.3.1 Tìm kiếm thông tin theo hướng tiếp cận thống kê

Tìm kiếm thông tin theo hướng tiếp cận thống kê với ý tưởng là dùng một danh sách các từ khóa, thuật ngữ xuất hiện trong tài liệu hoặc trong câu truy vấn làm dạng biểu diễn của nội dung tài liệu, câu truy vấn đó

Một số mô hình tiêu biểu:

Mô hình Boolean

Boolean là một mô hình cổ điển được xây dựng dựa trên kiến thức toán học Đây là mô hình đơn giản, dễ triển khai được sử dụng nhiều trong các hệ thống trước đây

Trang 22

Chương 2 Cơ sở lý thuyết

- Các tài liệu trả về không được sắp xếp (ranking)

- Kết quả trả về có thể là rất ít hoặc rất nhiều tài liệu

- Gây khó khăn cho người dùng do khó biểu diễn câu truy vấn đúng định dạng của biểu thức Boolean

Mô hình Boolean mở rộng (Advanced Boolean Model)

Để giải quyết vấn đề sắp xếp kết quả trả về ở mô hình tìm kiếm Boolean, mô hình tìm kiếm Boolean mở rộng ra đời với ý tưởng cơ bản

là đánh trọng số cho mỗi từ trong truy vấn và trong tài liệu

Mô hình Không gian vector (Vector Space Model)

Mô hình không gian vector là một mô hình đại số, biểu diễn thông tin văn bản bằng một vector, các phần tử của vector này thể hiện mức độ quan trọng của một từ trong một tài liệu

Ý tưởng chính mô hình là dựa trên ý nghĩa của một tài liệu thì phụ thuộc vào các từ được sử dụng bên trong nó

Độ tương quan giữa tài liệu và câu truy vấn được tính toán dựa trên vector tài liệu và vector câu truy vấn Độ tương quan càng lớn cho thấy tài liệu đó càng liên quan nhiều đến tới câu truy vấn

Mô hình xác suất (Probability Model)

Mô hình tìm kiếm xác suất tính toán độ tương quan giữa tài liệu và câu truy vấn dựa vào xác suất mà tài liệu đó liên quan đến câu hỏi

Ý tưởng chính của mô hình tìm kiếm xác suất là tính xác suất của mỗi từ có trong câu truy vấn và sau đó sử dụng chúng để tính xác suất

mà tài liệu liên quan đến câu truy vấn

2.1.3.2 Tìm kiếm thông tin theo hướng ngữ nghĩa

Khái niệm tìm kiếm ngữ nghĩa:

Tìm kiếm ngữ nghĩa là một kỹ thuật tìm kiếm dữ liệu trong đó một câu truy vấn tìm kiếm không chỉ nhắm đến tìm các từ khóa, mà còn để xác định mục đích và ý nghĩa theo ngữ cảnh của những từ mà người dùng

sử dụng để tìm kiếm

Không giống như các thuật toán tìm kiếm điển hình, tìm kiếm ngữ nghĩa được dựa trên ngữ cảnh, nội dung, khái niệm của cụm từ tìm kiếm

Trang 23

Chương 2 Cơ sở lý thuyết

Về mặt ngôn ngữ học, thì tìm kiếm ngữ nghĩa còn kết hợp vị trí xuất hiện của từ trong câu, từ đồng nghĩa, biến thể từ và các yếu tố ngôn ngữ tự nhiên khác như là một phần của tìm kiếm

Các hướng tiếp cận cho việc tìm kiếm thông tin theo hướng ngữ nghĩa là: sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công nghệ ontology

Hướng tiếp cận Ontology

Biểu diễn ngữ nghĩa dựa trên các ontology là cách biểu diễn phù hợp cho việc biểu diễn nội dung, ý nghĩa, mối liên hệ giữa các tài liệu Với cách biểu diễn này giúp xây dựng lên mạng lưới ngữ nghĩa, bộ từ điển chung về một lĩnh vực chuyên môn, tạo ra mối liên hệ giữa chúng và tạo

ra khả năng kế thừa giữa các đối tượng

2.1.4 Đánh giá một hệ thống tìm kiếm thông tin

Các tiêu chuẩn dùng đánh giá hiệu quả của một hệ thống tìm kiếm thông tin như sau [4]:

Để đánh giá hiệu quả truy tìm của hệ thống ta dùng độ chính xác và độ bao phủ

- Gọi S là tập các tài liệu được tìm thấy (liên quan theo hệ thống)

- Gọi U là tập các tài liệu liên quan (theo đánh giá của người dùng)

Ta có công thức tính độ chính xác và độ bao phủ như sau:

Trang 24

Chương 2 Cơ sở lý thuyết

o Độ chính xác: là sự tương ứng giữa số tài liệu mà hệ thống tìm thấy có liên quan đến câu truy vấn theo người dùng trên tổng số các tài liệu tìm thấy của hệ thống

o Độ bao phủ: là sự tương quan giữa số tài liệu hệ thống tìm thấy được đánh giá là liên quan theo người dùng trên tổng số các tài liệu có liên quan theo người dùng

2.2 Ontology

2.2.1 Khái niệm Ontology

Ontology gồm những khái niệm về một lĩnh vực cụ thể và các mối quan

Trong lĩnh vực Trí tuệ nhân tạo

Có nhiều cách định nghĩa khác nhau về ontology trong lĩnh vực trí tuệ nhân tạo, một số định nghĩa như sau:

- Theo Gruber (1993) ontology như “một đặc tả tường minh của sự khái niệm hóa trong một lĩnh vực”

- Theo Borst (1997): ontology là “ sự đặc tả hình thức của sự khái niệm hóa được chia sẻ”

- Theo Motta (1999) định nghĩa “ontology là đặc tả một phần của tập hợp các khái niệm được sử dụng hình thức hóa các tri thức của một lĩnh vực cần quan tâm Vai trò cơ bản của một ontology là nhằm chia sẽ và sử dụng lại tri thức”

Trang 25

Chương 2 Cơ sở lý thuyết

- Theo Uschold và Jasper (1999): “ontology chứa các định nghĩa và quan hệ giữa các khái niệm, hình thành một cấu trúc lĩnh vực và giới hạn ngữ nghĩa của thuật ngữ trong từ vựng”

- Theo Weiss (1999): “ontology là một đặc tả của các khái niệm và quan hệ trong lĩnh vực quan tâm Ontology không chỉ là phân cấp các lớp mà còn mô tả các quan hệ”

- Theo Hendler (2001): “ontology là một tập hợp các thuật ngữ tri thức (knowledge term), bao gồm từ vựng, các quan hệ ngữ nghĩa, một số luật suy diễn và logic trong một lĩnh vực đặc thù”

Ontology được sử dụng trong nhiều lĩnh vực khác nhau như: trí tuệ nhân tạo, Semantic Web, các hệ thống kỹ thuật, kỹ thuật phần mềm, tin học y sinh

2.2.3 Thành phần của một Ontology

Các thành phần cơ bản của Ontology bao gồm:

- Các lớp (classes, tương ứng với concept - khái niệm): mô tả các khái niệm trong miền lĩnh vực, thường được tổ chức phân cấp và áp dụng kỹ thuật thừa kế Một lớp có thể chứa các lớp khác (lớp con), các thực thể hoặc chứa cả hai

- Các thuộc tính (properties): khái niệm được mô tả thông qua các thuộc tính, của chúng Mỗi thuộc tính đều có tên và giá trị Giá trị của thuộc tính là một kiểu dữ liệu Một thuộc tính có thể có các thuộc tính con và các ràng buộc trên nó

- Các quan hệ (relations): Biểu diễn các kiểu quan hệ giữa các khái niệm Mỗi quan hệ đều có tên và giá trị, tuy nhiên giá trị của quan hệ là một khái niệm

- Thực thể hay thể hiện (instance): là thành phần cơ bản, nền tảng của một ontology, biểu diễn các phần tử riêng biệt của khái niệm, là các thể hiện của lớp

- Hàm (function): Là một loại thuộc tính hay quan hệ đặc biệt, trong đó phần tử thứ n là duy nhất đối với n-1 phần tử còn lại

Trang 26

Chương 2 Cơ sở lý thuyết

- Các tiền đề (axioms): Biểu diễn các phát biểu luôn đúng mà không cần phải chứng minh hay giải thích, được dùng để kiểm chứng sự nhất quán của ontology

- Luật (rules): Mỗi luật cho một quy tắc suy diễn để từ các sự kiện giả thiết ban đầu suy ra sự kiện mới thông qua quy tắc nào đó

- Sự kiện (Facts): Mỗi sự kiện thể hiện một tính chất hay liên hệ nào đó trên các đối tượng hay trên thuộc tính của đối tượng

2.2.4 Phân loại ontology

- Ontology biểu diễn tri thức (Knowledge representation Ontology) dựa trên cách biểu diễn tri thức truyền thống được dùng để chuẩn hóa tri thức trong một mô hình biểu diễn tri thức Ví dụ: Frame-Ontology của Gruber

- Ontology tổng quát (Generic Ontology) bao gồm các từ vựng liên quan tới mọi thứ, sự kiện, sự vật, hiện tượng, không gian, thời gian,… không dùng riêng cho một lĩnh vực nào Ví dụ: WordNet

- Metadata ontology bao gồm các từ vựng dùng để mô tả nội dung của các nguồn thông tin trực tuyến

- Ontology lĩnh vực (Domain Ontology) bao gồm các từ vựng của các khái niệm và các mối quan hệ trong một lĩnh vực

- Ontology tác vụ (Task Ontology) bao gồm các từ vựng của các thuật ngữ

để giải quyết các vấn đề kết hợp liên quan đến nhiệm vụ mà có thể cùng hoặc không cùng lĩnh vực ứng dụng cụ thể

- Ontology lĩnh vực - tác vụ (Domain – Task Ontology) là các ontology về tác vụ có thể tái sử dụng trong một lĩnh vực nào đó

- …

2.2.5 Vai trò của Ontology

- Chia sẻ sự hiểu biết chung giữa các ứng dụng và con người

- Cho phép sử dụng lại tri thức

- Đưa ra các giả thiết rõ ràng về miền tri thức giúp tìm hiểu ngữ nghĩa của các từ trong lĩnh vực quan tâm một cách dễ dàng

- Phân tách hay tri thức lĩnh vực với tri thức xử lý

Trang 27

Chương 2 Cơ sở lý thuyết

- Phân tích tri thức: cần thiết cho việc tái sử dụng và mở rộng ontology

2.2.6 Các hướng tiếp cận xây dựng ontology

Có nhiều phương pháp khác nhau để xây dựng ontology: xây dựng ontology thủ công, tự động hoặc bán tự động Phương pháp xây dựng ontology tự động hoặc bán tự động ít tốn chi phí hơn so với việc xây dựng ontology thủ công, tuy nhiên chất lượng lại phụ thuộc khá nhiều vào các yếu

tố như: thuật giải, nguồn dữ liệu, lĩnh vực, … mà phương pháp sử dụng

Các hướng xây dựng ontology:

- Rút trích ontology từ các nguồn dữ liệu khác nhau sử dụng các phương pháp máy học, xử lý ngôn ngữ tự nhiên, phương pháp thống kê

+ Xây dựng ontology sử dụng việc xử lý ngôn ngữ tự nhiên: các khái niệm và các mối quan hệ về mặt ngữ nghĩa giữa các khái niệm trong một miền được tạo ra dựa trên việc phân tích từ vựng, cú pháp của các văn bản thuộc về miền đó

+ Xây dựng ontology sử dụng phương pháp thống kê: rút trích các khái niệm từ các nguồn dữ liệu bằng phương pháp thống kê

+ Xây dựng ontology sử dụng phương pháp máy học: rút ra các đặc trưng từ các nguồn dữ liệu để tạo khuôn mẫu và tập luật phục vụ cho việc rút trích ontology

- Rút trích ontology từ dữ liệu web: nguồn thông tin rút trích có sẵn trên internet, đa dạng, phong phú

Các loại dữ liệu nguồn rút trích ontology:

- Xây dựng các ontology dựa vào các nguồn dữ liệu đã có cấu trúc như từ ontology đã xây dựng sẵn, từ database schema, từ WordNet, …

- Xây dựng các ontology dựa vào các nguồn dữ liệu bán cấu trúc: các từ điển, các văn bản HTML, XML

- Xây dựng các ontology dựa vào các nguồn dữ liệu không có cấu trúc: để xây dựng được ontology từ nguồn này cần phải thực hiện việc xử lý ngôn ngữ tự nhiên Đây là nguồn dữ liệu khó rút trích nhất

Trang 28

Chương 2 Cơ sở lý thuyết

2.2.7 Phương pháp xây dựng Ontology

- Xem xét việc kế thừa từ các ontology có sẵn

- Liệt kê các thuật ngữ quan trọng

Liệt kê các thuật ngữ chuyên ngành để xây dựng thành các lớp trong ontology tương ứng

- Xác định các lớp và phân cấp của các lớp

Bao gồm các việc như: xác định các lớp từ ngữ nghĩa của các thuật ngữ đã có, loại bỏ lớp ra khỏi ontology nếu nằm ngoài phạm vi của ontology, hợp nhất với các lớp đã có nếu có nhiều thuật ngữ có ngữ nghĩa trùng nhau, xác định phân cấp của các lớp

- Xác định các thuộc tính

Dựa vào danh sách các thuật ngữ đã được liệt kê xác định thuộc tính các lớp

- Xác định ràng buộc của các thuộc tính

Xác định các ràng buộc về kiểu dữ liệu, miền giá trị, lực lượng, …

- Tạo các thực thể (thể hiện)

Tạo ra các thực thể của các lớp Việc tạo thực thể cho một lớp chính

là việc đưa thông tin vào các thuộc tính của lớp đó

2.2.7.2 Ngôn ngữ xây dựng Ontology

RDFS (RDF-Schema): là một ngôn ngữ Ontology cơ bản, được mở rộng

từ RDF và bổ sung thêm các tập từ vựng để hỗ trợ cho việc xây dựng các Ontology được dễ dàng

OWL (Ontology Web Language): là một ngôn ngữ ontology khá mạnh,

ra đời sau nên OWL kế thừa những ưu thế và khắc phục được những hạn chế

Trang 29

Chương 2 Cơ sở lý thuyết

từ ngôn ngữ RDFS trước đó OWL bổ sung thêm yếu tố logic cho thông tin

và khả năng phân loại

DAML + OIL (gọi tắt là DAML): là ngôn ngữ đánh dấu cho các tài nguyên trên Web, có hỗ trợ suy luận

Trang 30

Chương 3 Mô hình và công cụ phát triển

CHƯƠNG 3 MÔ HÌNH VÀ CÔNG CỤ PHÁT TRIỂN

Mô hình tổ chức lưu trữ tài liệu cùng với các phương pháp biểu diễn và xử

lý tri thức trình bày trong chương này được kế thừa từ tài liệu [4]

3.1 Mô hình Ontology cho ngữ nghĩa của các tài liệu

Theo tài liệu [4], một mô hình được đề xuất để biểu diễn trong hệ thống tìm kiếm theo ngữ nghĩa dựa trên ontology là mô hình CK-ONT (Classed Keyphrase based Ontology) Mô hình gồm có 6 thành phần:

RKK : tập hợp các quan hệ giữa các keyphrase

3.1.1 Tập hợp K các keyphrase

- Là thành phần chính hình thành nên các khái niệm của ontology

- Keyphrase trong mô hình này là những cụm từ hay thuật ngữ chuyên ngành CNTT

- Về mặt ngôn ngữ học thì Keyphrase có cấu trúc như một từ, một từ kép, một cụm từ

Ví dụ: các keyphrase “3D”, “Photoshop”, “Trí tuệ nhân tạo”, “ngôn ngữ lập trình”

K = {k| k là keyphrase thuộc về lĩnh vực CNTT}

3.1.2 Tập hợp C các lớp keyphrase

Ngày đăng: 23/12/2018, 06:16

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w