1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính

111 879 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 111
Dung lượng 1,97 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu KHMT.Cụ thể trong việc đóng góp cải tiến về mặt giải pháp thì đề tài tập trung nghiên cứucải tiến mô hình onto

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 3

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Trang 4

Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khácnhư đã ghi rõ trong luận văn, tất cả các công việc và kết quả nghiên cứu được trìnhbày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào củaluận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác.

Thành phố Hồ Chí Minh, ngày 15 tháng 12 năm 2014

Học viên

Châu Kim Hùng

Trang 5

Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến Phó giáo sư tiến sĩ ĐỗVăn Nhơn, người đã tận tình hướng dẫn, tạo mọi điều kiện thuận lợi để em hoànthành tốt đề tài luận văn Thầy đã định hướng cho em từ cách đặt vấn đề, phươngpháp nghiên cứu khoa học cho đến những công việc cụ thể nhất.

Em xin chân thành cảm ơn thầy Ngô Tuấn Kiệt và cô Nguyễn Thị DiễmThuý đã luôn hỗ trợ em trong suốt quá trình làm luận văn Chân thành cảm ơn côHuỳnh Thị Thanh Thương và thầy Phạm Nguyễn Trường An đã giúp đỡ, kiểm thử

và đưa ra những nhận xét hữu ích để đề tài được tốt hơn

Xin gửi lời cảm ơn đến gia đình, cảm ơn các anh chị, bạn bè, những ngườiluôn sát cánh, động viên tôi trên bước đường học tập cũng như trong cuộc sống Xinchân thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy cô tại trườngĐại học Công nghệ Thông tin Tất cả các kiến thức mà nhà trường và quý thầy cô

đã truyền đạt là hành trang to lớn để tôi mang theo trên con đường học tập, làm việc

và nghiên cứu cũng như trong quá trình hoàn thiện nhân cách của mình

Trang 6

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC BẢNG vi

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ vii

MỞ ĐẦU ix

CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI 1

1.1 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 1

1.1.1 Một số công cụ tìm kiếm và hệ thống quản lý tài nguyên thông dụng 2

1.1.2 Vấn đề truy tìm thông tin và biểu diễn ngữ nghĩa 4

1.1.3 Giải pháp “Thiết kế tổ chức lưu trữ kho tài liệu học tập lĩnh vực CNTT” 6

1.2 MỤC TIÊU VÀ PHẠM VI CỦA ĐỀ TÀI 7

1.3 PHƯƠNG PHÁP NGHIÊN CỨU 8

1.4 NỘI DUNG THỰC HIỆN 9

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 10

2.1 VẤN ĐỀ TRUY TÌM THÔNG TIN 10

2.1.1 Cấu trúc của một hệ thống truy tìm thông tin 10

2.1.2 Hệ thống tìm kiếm thông tin dựa trên khái niệm 11

2.1.3 Các phương pháp truy hồi thông tin 14

2.1.4 Đánh giá một hệ thống tìm kiếm thông tin 15

2.2 ONTOLOGY 16

2.3.1 Định nghĩa 17

2.3.2 Các thành phần của ontology 18

2.3.3 Phân loại ontology 19

2.3.4 Các ứng dụng dựa trên Ontology 20

2.3.5 Ứng dụng ontology trong các hệ thống tìm kiếm 22

2.3.6 Các hướng tiếp cận xây dựng ontology 25

2.3 GIẢI PHÁP “THIẾT KẾ VÀ TỔ CHỨC LƯU TRỮ KHO TÀI LIỆU HỌC TẬP LĨNH VỰC CNTT” 26

CHƯƠNG 3 CẢI TIẾN MÔ HÌNH ONTOLOGY TRONG GIẢI PHÁP TỔNG THỂ 30

3.1 MÔ HÌNH ONTOLOGY CẢI TIẾN 30

3.1.1 Định nghĩa thành phần K tập các keyphrase: 30

3.1.2 Định nghĩa thành phần C tập các lớp 31

Trang 7

3.1.4 Định nghĩa thành phần Rules tập các luật 42

3.1.5 Hàm gán nhãn phân loại keyphrase 49

3.1.6 Chuyển đổi thành phần C trong mô hình CK-ONTO 50

3.2 QUY TRÌNH XÂY DỰNG ONTOLOGY CHO LĨNH VỰC KHMT 52

3.2.1 Thu thập dữ liệu và tích hợp ontology 52

3.2.2 Làm giàu ontology từ các tài liệu Web 54

3.2.3 Xây dựng ontology từ văn bản 54

3.2.4 Chuẩn hóa ontology 57

3.3 CÁC VẤN ĐỀ MỞ RỘNG VÀ THUẬT GIẢI CẢI TIẾN 58

3.3.1 Xác định tự động mối quan hệ ngữ nghĩa giữa các đối tượng 58

3.3.2 Xử lý câu truy vấn 67

3.3.2.1 Ngôn ngữ đặc tả câu truy vấn 68

3.3.2.2 Quy trình xử lý câu truy vấn 69

CHƯƠNG 4 CÀI ĐẶT – THỬ NGHIỆM 75

4.1 MỤC TIÊU VÀ KIẾN TRÚC CỦA HỆ THỐNG 75

4.1.1 Mục tiêu ứng dụng 75

4.1.2 Kiến trúc của hệ thống 76

4.2 THIẾT KẾ - CÀI ĐẶT ỨNG DỤNG 78

4.2.1 Thiết kế xử lý 78

4.2.2 Cài đặt ứng dụng 82

4.3 KẾT QUẢ THỬ NGHIỆM 88

4.4 ĐÁNH GIÁ SO SÁNH 90

CHƯƠNG 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 92

5.1 KẾT QUẢ CỦA LUẬN VĂN 92

5.2 HẠN CHẾ CỦA ĐỀ TÀI 94

5.3 HƯỚNG PHÁT TRIỂN 95

TÀI LIỆU THAM KHẢO 96

Trang 8

CNTT : Công nghệ thông tin

KĐTNN : Keyphrase đặc trưng ngữ nghĩa

Trang 9

Bảng 3.1: Quan hệ giữa các keyphrase trong CK_ONTO 41Bảng 3.2 Trọng số được gán cho mỗi quan hệ 66Bảng 4.1 Thống kê kết quả tìm kiếm trên kho thử nghiệm gồm 500 tài liệu từ hệ thống hiện tại 89Bảng 4.2 Thống kê kết quả tìm kiếm trên kho thử nghiệm gồm 500 tài liệu từ hệ thống cũ 89Bảng 4.3 Bảng so sánh độ chính xác giữa hệ thống mới với hệ thống cũ 90Bảng 4.4 Bảng so sánh độ phủ giữa hệ thống mới với hệ thống cũ 90

Trang 10

Hình 2.1 Các phương pháp truy hồi thông tin 15

Hình 2.2 Ba loại ứng dụng của ontology trong truy vấn thông tin 22

Hình 2.3 Góc phần tư giá trị của ontology 23

Hình 3.1 Sơ đồ phân cấp lớp ALGORITHM 36

Hình 3.2 Qui trình xây dựng ngành KHMT 52

Hình 3.3: Bảng chú giải các thuật ngữ tin học từ trường Berkeley 53

Hình 3.4 Ví dụ sử dụng công cụ “SEO keyword analysis” online trong việc rút trích tự động các keyphrase từ các trang Web trên Internet 54

Hình 3.5 Ví dụ một form mô tả thông tin về một tài liệu 55

Hình 3.6 Thuật giải suy diễn luật tự động 62

Hình 3.7 Qui trình xử lý câu truy vấn 69

Hình 3.8 Qui trình biến đổi câu truy vấn thành đồ thị keyphrase 72

Hình 4.1 Mô hình kiến trúc hệ thống quản lý kho tài nguyên theo ngữ nghĩa 77

Hình 4.2 Biểu đồ phân cấp chức năng 78

Hình 4.3 Biểu đồ luồng dữ liệu xử lý chức năng người quản lý tổng quát 79

Hình 4.4 Biều đồ luồng dữ liệu xử lý tổ chức quản lý kho tài liệu và bảo quản 79

Hình 4.5 Biểu đồ luồng dữ liệu xử lý hỗ trợ và quản lý người dùng 80

Hình 4.6 Biều đồ luồng dữ liệu xư lý chức năng người sử dụng tổng quát 80

Hình 4.7 Biểu đồ luồng dữ liệu xử lý tìm kiếm theo hệ thống thư mục quy chuẩn.80 Hình 4.8 Biểu đồ luồng dữ liệu xư lý tìm kiếm theo từ khóa 81

Hình 4.9 Biểu đồ luồng dữ liệu xử lý tìm kiếm theo CSDL lưu trữ 81

Hình 4.10 Biểu đồ luồng dữ liệu xử lý tìm kiếm theo ngữ nghĩa 82

Hình 4.11 Sơ đồ các trang web trong ứng dụng 82

Hình 4.12 Giao diện trang chủ 83

Hình 4.13 Giao diện trang tìm kiếm tài liệu theo hệ thống thư mục quy chuẩn 84

Hình 4.14 Giao diện trang tìm kiếm và hiển thị kết quả 85

Trang 11

Hình 4.16 Trang quản lý ontology của hệ thống 86 Hình 4.17 Xấy định mối quan hệ ngữ nghĩa giữa các keyphrase 87

Trang 12

Hiện nay các hệ thống thư viện điện tử hay các hệ quản lý văn bản cũng nhưtài nguyên học tập hỗ trợ các xử lý liên quan tới ngữ nghĩa ở nước ta đang là mộthướng đi mới và nhiều tiềm năng Các tổ chức giáo dục đào tạo, các đơn vị nghiêncứu triển khai CNTT và đặc biệt là các trường đại học và viện nghiên cứu ngàycàng quan tâm nhiều đến lĩnh vực này Theo chủ trương của Bộ Giáo dục và Đàotạo, nhiều trường đại học đã đầu tư vào việc xây dựng và đổi mới các hệ thống hỗtrợ giảng dạy và học tập của giảng viên và học sinh Những đầu tư này nhằm đápứng được những tiêu chí giáo dục trong thời đại mới mà ở đó người học đóng vaitrò trung tâm và chủ động, có thể học mọi lúc, mọi nơi Các hệ thống này được xemnhư một công cụ mới hỗ trợ chính trong việc học tập và nghiên cứu Bên cạnh đó nócòn bổ sung và hỗ trợ cho các phương tiện đào tạo truyền thống, tạo ra nhiều cơ hộihọc tập cho đông đảo người học khác nhau và đặc biệt góp phần hiện đại hoá vànâng cao chất lượng giảng dạy.

Đã có một số công trình liên quan đến vấn đề tổ chức quản lý và xử lý tìmkiếm theo nội dung Tuy nhiên những kết quả đạt được vẫn còn hạn chế và chưa đủ

để đáp ứng cho nhu cầu khai thác thông tin của người dùng Các giải pháp cũng nhưcông nghệ phổ biến hiện này cũng đã có nhiều hỗ trợ cho các giải pháp và ứng dụngquản lý tài nguyên học tập, nhưng còn chủ yếu ở mức xử lý dữ liệu Do đó vẫn chưa

đủ khả năng diễn giải, kết hợp tài nguyên theo ngữ nghĩa nội dung hay tri thức liênquan Vì thế các tính năng của hệ thống chưa đủ đáp ứng các yêu cầu sử dụng ngàycàng cao, đặc biệt là việc tổ chức và xử lý tích hợp dữ liệu, thông tin và tri thức

Xuất phát từ nhu cầu thực tế và khả năng nghiên cứu phát triển giải phápcũng như ứng dụng Đề tài “Nghiên cứu mô hình tổ chức và kỹ thuật tìm kiếm cóngữ nghĩa trên kho tài nguyên học tập lĩnh vực CNTT” đã đưa ra một giải pháp tổngthể, mang tính hệ thống cho việc quản lý kho tài nguyên học tập về một chuyênngành, một lĩnh vực đặc biệt như CNTT Giải pháp cơ bản đã đáp ứng được ở mức

độ hệ thống hoàn chỉnh, nhưng vẫn còn nhiều vấn đề cần được cải thiện như: việcbiểu diễn thông tin và ngữ nghĩa cho lĩnh vực sâu hơn, xử lý được các dạng truy vấnphức tạp hơn, xây dựng bộ rút trích keyphrase tự động và cải tiến công thức tính độ

Trang 13

tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu KHMT.

Cụ thể trong việc đóng góp cải tiến về mặt giải pháp thì đề tài tập trung nghiên cứucải tiến mô hình ontology và một vài vấn đề liên quan về xử lý ngữ nghĩa để giúp hệthống biểu diễn tri thức của lĩnh vực sâu hơn và khả năng suy diễn ngữ nghĩa tốthơn Dựa vào đó xây dựng một ứng dụng quản lý tài nguyên học tập về lĩnh vựcKHMT (giới hạn trong phạm vi kho tài liệu tiếng Anh) với khả năng tìm kiếm tàiliệu dựa vào ngữ nghĩa đầy đủ và chính xác hơn để hỗ trợ việc học tập, giảng dạy vànghiên cứu

Các đóng góp từ kết quả nghiên cứu của đề tài:

• Đối với hệ thống giáo dục đề tài đã góp phần nâng cao hiệu quả công tác

tổ chức quản lý và chia sẽ các nguồn tài nguyên học tập; nâng cao chất lượng đàotạo và hiệu quả nghiên cứu khoa học; tiết kiệm thời gian học tập và làm việc; vàtăng cường khả năng hỗ trợ các đối tượng sử dụng có thể tra cứu, tìm kiếm các tàiliệu điện tử phục vụ cho việc học tập, giảng dạy và nghiên cứu

• Đối với lĩnh vực khoa học có liên quan đề tài đã đóng góp vào việc thúcđẩy nhu cầu ứng dụng CNTT phục vụ đào tạo; thúc đẩy sự phát triển CNTT tronglĩnh vực tìm kiếm tự động; có thể triển khai áp dụng rộng rãi cho nhiều trường học,

tổ chức khác và mở rộng phạm vi ứng dụng trong nhiều lĩnh vực như quản lý vănbản quy phạm pháp luật, quản lý văn bản hành chính, …

Bên cạnh việc nghiên cứu xây dựng ứng dụng đáp ứng nhu cầu thực tiễn, đềtài còn có những đóng góp phát triển, đề xuất mới về mặt mô hình và kỹ thuật cũngnhư giải pháp thiết kế tốt hơn từ những nhược điểm của giải pháp trước Việcnghiên cứu phát triển mô hình biểu diễn tri thức cùng với việc áp dụng các chiếnlược suy diễn tự động dựa trên luật có ý nghĩa lớn về mặt lý thuyết cũng như ứngdụng trong Trí tuệ nhân tạo, nhất là trong các hệ thống quản lý dựa trên tri thức Cáckết quả nghiên cứu liên quan sẽ là cơ sở và là công cụ cho việc xây dựng các hệ cơ

sở tri thức, hệ chuyên gia, các hệ thống thông minh nói chung và nhiều hệ thốngquản lý tài nguyên nói riêng như quản lý kho tài nguyên học tập tổng quát cho mọilĩnh vực, quản lý thư viện tổng hợp, quản lý văn bản hành chính, văn bản pháp luật

và các hệ thống số khác

Trang 14

Chương 1 giới thiệu tổng quan về đề tài bao gồm các nghiên cứu khảo sátthực trạng ứng dụng CNTT trong tổ chức lưu trữ và khai thác tài nguyên học tậpđiện tử của các hệ thống giáo dục trong và ngoài nước; phân tích đánh giá ưukhuyết điểm của giải pháp “Thiết kế tổ chức lưu trữ kho tài liệu học tập lĩnh vựcCNTT” Trình bày mục tiêu, phương pháp nghiên cứu, hướng tiếp cận giải quyếtvấn đề và nội dung thực hiện của đề tài.

Chương 2 trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề truy hồithông tin (bao gồm định nghĩa, mô tả cấu trúc và phân loại các hệ thống tìm kiếmthông tin, các phương pháp và mô hình tìm kiếm), các lý thuyết nền tảng vềontology và ứng dụng của ontology trong hệ thống tìm kiếm tài liệu

Chương 3 đề xuất một mô hình ontology cải tiến mô tả tri thức về một lĩnhvực đặc biệt trong đó sử dụng keyphrase và lớp là thành phần chính để hình thànhcác khái niệm của ontology và tập các luật suy diễn Trình bày sự đóng góp cải tiến

từ mô hình ontology mới và quy trình xây dựng ontology cho lĩnh vực KHMT.Cùng với các vấn đề kỹ thuật cần được giải quyết từ việc cải tiến mô hình ontologynhư xác định tự động các quan hệ ngữ nghĩa và xử lý câu truy vấn

Chương 4 xây dựng ứng dụng thử nghiệm là một hệ thống quản lý kho tàinguyên học tập về lĩnh vực KHMT trên kho tài liệu tiếng Anh Hệ thống cho phéptra cứu, tìm kiếm tài liệu trong kho lưu trữ theo nhiều chức năng như dựa trên từkhóa và trên CSDL lưu trữ, tìm kiếm theo hệ thống thư mục phân cấp, tìm kiếm dựatrên tri thức của lĩnh vực hay theo ngữ nghĩa Tiến hành thực nghiệm, so sánh vàđánh giá kết quả so mới giải pháp cũ trên các mẫu ví dụ cụ thể

Chương 5 tổng kết những kết quả đạt được, tóm tắt lại các vấn đề đã đặt ratrong luận văn và cách giải quyết, những đóng góp mới và những đề xuất mới vềmột số hướng phát triển của đề tài trong tương lai

Trang 15

CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI

Chương 1 giới thiệu tổng quan về đề tài bao gồm các nghiên cứu khảo sátthực trạng ứng dụng CNTT trong tổ chức lưu trữ và khai thác tài nguyên học tậpđiện tử của các hệ thống giáo dục trong và ngoài nước; phân tích đánh giá ưukhuyết điểm của giải pháp “Thiết kế tổ chức lưu trữ kho tài liệu học tập lĩnh vựcCNTT” Trình bày mục tiêu, giới hạn của đề tài, ý nghĩa lý luận và thực tiễn,phương pháp nghiên cứu, hướng tiếp cận giải quyết vấn đề và nội dung thực hiệncủa đề tài

1.1 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

Từ vài thập niên gần đây, sự tiến bộ của khoa học và công nghệ, đặc biệt củaCNTT và truyền thông, đã tác động mạnh mẽ tới sự thay đổi của thế giới mà thôngtin, tri thức được xem là nguồn lực chủ yếu đối với nền kinh tế và xã hội Với lượngthông tin bùng nổ như hiện nay, nhu cầu tìm kiếm thông tin trong vô vàn các thôngtin được lưu trữ là một yêu cầu hết sức cần thiết, đặc biệt nhu cầu quản lý tài liệuđiện tử và thông tin khoa học công nghệ phục vụ chia sẻ tri thức ngày càng trở nênquan trọng Chính vì vậy, đối với việc giảng dạy, học tập và nghiên cứu, không thểphủ nhận vai trò quan trọng của công tác nghiên cứu tài liệu Việc tìm kiếm các tàiliệu học tập hay tài nguyên giáo dục đang trở thành một nhu cầu khách quan, tất yếu

và thiết thực của mọi người Có thể nói, các hệ thống quản lý tài liệu học tập và thưviên điện tử là một trong những hệ thống quan trọng, có ý nghĩa to lớn trong việcứng dụng CNTT trong giáo dục và đào tạo Tuy nhiên, kết quả hiện tại vẫn còn hạnchế và cần phải được cải thiện hiệu quả hơn Các kho tài nguyên học tập ở cáctrường đại còn khá sơ xài, chủ yếu hỗ trợ các tính năng quản lý danh sách tài liệu vàtìm kiếm cơ bản Bên cạnh đó, các công trình trước đây cũng chỉ tập trung hầu hếtvào việc số hóa tài liệu và ứng dụng CNTT vào công tác quản lý thư viện, ít nghiêncứu tập trung chủ lực vào việc xây dựng giải pháp hoàn chỉnh để tổ chức lưu trữkho tài liệu học tập trên máy tính, đặc biệt chức năng quản lý, tìm kiếm liên quanđến thông tin tri thức hay nội dung tài liệu

Trang 16

Hiện nay ở nước ta, việc thực hiện các hệ thống các hệ quản lý tài nguyênhọc tập hay thư viện điện tử đang thu hút được sự quan tâm rất lớn của các trườngđại học , tổ chức giáo dục đào tạo, sở khoa học công nghệ và các đơn vị nghiên cứutriển khai ứng dụng CNTT Vì vây, nhiều trường học đã và đang đầu tư nghiên cứuvào việc xây dựng các hệ thống hỗ trợ giáo dục nhằm đáp ứng những tiêu chí giáodục mới trong đó người học đóng vai trò trung tâm và chủ động, và người học cóthể học ở bất cứ nơi đâu vào bất cứ lúc nào Do đó, các hệ thống này được xem như

là một phương tiện, công cụ mới hỗ trợ chính trong việc học bên cạnh các phươngpháp đào tạo truyền thống, tạo ra thêm cơ hội được học cho đông đảo tầng lớp xãhội và đặc biệt góp phần hiện đại hóa và nâng cao chất lượng giảng dạy

1.1.1 Một số công cụ tìm kiếm và hệ thống quản lý tài nguyên thông dụng

Các công cụ tìm kiếm thông tin trên máy tính hiện này đã trở nên phổ biến

và không ngừng phát triển Do đó có sự cạnh tranh khốc liệt giữa các động cơ tìmkiếm trên Internet mà dẫn đầu đang là Google thâu tóm hơn thành lớn thị phần tìmkiếm, tiếp theo là Yahoo, Bing, MSN, Ask v.v… Bên cạnh đó, với những lợi thế địaphương của quốc gia về ngôn ngữ, văn hóa và sự hỗ trợ của chính phủ, các quốc giacũng đầu tiên nghiên cứu và xây dựng các động cơ tìm kiếm riêng cho mình nhưBaidu của Trung Quốc hay Heeya của Hàn Quốc là những ví dụ thành công của cácđộng cơ tìm kiếm địa phương Ở Việt Nam, các động cơ tìm kiếm như Xalo(xalo.vn), Timnhanh (timnhanh.com), VinaSeek (vinaseek.net) cũng đang có nhữngđầu tư rất lớn để phục vụ cho việc tìm kiếm những trang Web tiếng Việt

Nếu bàn về khả năng tìm kiếm theo từ khóa, hiện nay Google là công cụ tìmkiếm phổ biến nhất trên Internet Tuy nhiên, nếu người dùng không biết rõ về từkhóa họ cần cung cấp cho máy tìm kiếm, họ cần máy tìm kiếm có thể hiểu được ýcủa họ thông qua ngữ nghĩa chứa đựng trong câu truy vấn để hỗ trợ tốt hơn trongnhu cầu tìm kiếm, đặc biệt là việc tìm kiếm liên quan tới các tài liệu học thuật Đây

là điểm mà các đối thủ của Google như Wolfram Alpha, Truevert, Hakia, Kosmix,Exalead, DeepDyve, Lexxe, Factbites, Evri, Swoogle, Kngine, DuckDuckGo,SenseBot và Cognition nhắm vào Với khả năng đoán được ý nghĩa của câu truyvấn, các động cơ tìm kiếm ngữ nghĩa kể trên có khả năng cho ra kết quả gần nhấtvới ý định tìm kiếm của người dùng Điều này sẽ tạo sự đột phá cho thị trường tìm

Trang 17

kiếm hiện nay

Nhìn chung, việc tìm kiếm ngữ nghĩa được xem như là một cách tiếp cận tốthơn để cung cấp cho người dùng thông tin họ mong muốn, đảm bảo kết quả trả về

có liên quan đến thông tin cần tìm hơn nhờ vào khả năng hiểu được nghĩa của từhoặc cụm từ đang được tìm kiếm Với các công nghệ ngữ nghĩa, máy tính sẽ hiểu rõhơn những mối quan hệ giữa nhiều thông tin khác nhau hơn là chỉ chuyển tiếp cácliên kết dựa trên từ khóa tìm kiếm Một ví dụ cụ thể để minh họa cho vấn đề này đó

là thử nghiệm với câu truy vấn “tìm kiếm tài liệu”, công cụ tìm kiếm theo từ khóa sẽtrả về các kết quả chứa các từ khóa như từ “tìm kiếm” hoặc “tài liệu” hoặc kết hợp

cả hai từ “tìm kiếm tài liệu” Trong khi các hệ thống tìm kiếm có hỗ trợ xử lý ngữnghĩa không chỉ trả về cho người dùng những website có chứa các từ khóa ở trên

mà còn hiển thị hàng loạt danh sách các website tìm kiếm, quản lý tài liệu và cácthông tin có liên quan tới kỹ thuật tìm kiếm tài liệu nhằm đáp ứng đầy đủ hơn chonhu cầu tìm kiếm của người dùng

Ngoài các động cơ tìm kiếm kể trên, đối với việc tìm kiếm tài liệu khoa học

kỹ thuật trên Internet, còn có nhiều nguồn thông tin khác nhau khá chuyên biệt vàđặc thù như:

- Các thư viện điện tử và trung tâm tài liệu

- Các CSDL

- Các danh bạ mạng

- Các nhà xuất bản khoa học và trung gian cung cấp tài liệu

- Các công thông tin chuyên đề

- Trào lưu Open Access

Hầu hết cơ chế hoạt động của các hệ thống quản lý và truy tìm tài nguyên kểtrên vẫn không thay đổi nhiều từ thời điểm cách đây vài thập niên Các tài liệu đượclưu trữ trong cơ sở dữ liệu và lập chỉ mục để hỗ trợ tìm kiếm nhanh, người dùng đặc

tả câu truy vấn bằng một tập hợp các từ và hệ thống trả về danh sách các tài liệu cóliên quan đến các từ này Tuy nhiên, các kỹ thuật tìm kiếm tài liệu cũng có nhiềuthay đổi và cải tiến, từ việc dựa trên cú pháp, cấu trúc, chuyển sang dựa vào ngữnghĩa, từ tìm kiếm trên từ khóa trở thành tìm kiếm trên khái niệm Vấn đề quantrọng nhất đối với các hệ thống này là tổ chức lưu trữ và tìm kiếm thông tin Đối với

Trang 18

việc lưu trữ tài liệu, các hệ thống sử dụng các chuẩn siêu dữ liệu như MARC, LOM,IMS, Dublin Core, … để hỗ trợ việc sắp xếp và tìm kiếm Tuy nhiên các chuẩn nàychủ yếu tạo siêu dữ liệu với các trường mô tả đơn giản như tiêu đề, nhà xuất bản,năm xuất bản, tác giả, và tập từ vựng riêng biệt còn hạn chế, do đó vẫn chưa đủkhả năng diễn giải, kết hợp các tài nguyên theo ngữ nghĩa hay nội dung Giải phápquản lý tài nguyên còn chủ yếu ở mức xử lý dữ liệu và vì thế các tính năng của hệthống còn nhiều hạn chế trong việc áp dụng các yêu cầu sử dụng ngày càng cao, đặcbiệt là việc tổ chức và xử lý tích hợp dữ liệu, thông tin và tri thức Chính nhượcđiểm này đòi hỏi hướng tiếp cận theo ngữ nghĩa mà theo đó các hệ thống phải đượcxây dựng hướng tới việc quản lý tri thức kết hợp với quản lý và xử lý các thông tinngữ nghĩa liên quan đến nội dung của tài liệu.

1.1.2 Vấn đề truy tìm thông tin và biểu diễn ngữ nghĩa

Nhìn chung, hầu hết các hệ thống tìm kiếm thông tin thực chất chỉ là hệthống tìm kiếm tài liệu, nghĩa là tìm xem trong số các tài liệu trong CSDL lưu trữ,tài liệu nào có nội dung phù hợp, liên quan và thỏa mãn đến nhu cầu thông tin củangười dùng, sau đó người dùng sẽ tìm kiếm thông tin họ cần trong các tài liệu liênquan đó Các hệ thống tìm kiếm này phần lớn vẫn dựa trên từ khóa và mức độ phổbiến của tài liệu Một danh sách các từ khóa là dạng biểu diễn sơ lược nhất của nộidung, nghĩa là mỗi tài liệu được biểu diễn bởi một tập từ hay cụm từ được rút trích

từ chính nội dung của tài liệu và do đó, cách biểu diễn này mang mức độ thông tincòn thấp Mối quan hệ ngữ nghĩa giữa các từ khóa hay nghĩa của các từ (cụm từ)không được xét đến Vấn đề khó khăn đối với người sử dụng những hệ thống tìmkiếm thông tin dựa trên từ khóa là ở khả năng mô tả nhu cầu thông tin bằng một số

từ khóa biểu diễn và chuyển nhu cầu này thành dạng thức truy vấn phù hợp với hệthống Đặc biệt đối với người sử dụng ít kinh nghiệm không thể đặc tả đúng từ khóacho vấn đề cần tìm kiếm Đó chính là những lý do cơ bản khiến cho các hệ thốngtìm kiếm hiện nay có kết quả trả về không phải lúc nào cũng thỏa mãn yêu cầu tìmkiếm của người sử dụng, như là độ chính xác không cao khi kết quả trả về quá nhiều

mà tỷ lệ số tài liệu hữu ích trên tổng số tài liệu trả về thấp, hoặc có thể không tìmthấy được những tài liệu liên quan khi chúng được mô tả với những từ khóa khácđồng nghĩa hoặc gần nghĩa với từ khóa mà người dùng tìm kiếm (độ bao phủ không

Trang 19

cao) Nhược điểm cơ bản này đã gây ra không ít khó khăn cho người sử dụng trongviệc tìm kiếm chính xác thông tin mình cần.

Từ những mô hình tìm kiếm đơn giản ban đầu như Boolean, nhiều tác giả đã

nỗ lực cải thiện hiệu quả của việc tìm kiếm thông qua các mô hình phức tạp hơnnhư mô hình không gian vector (Vector Space Model), các mô hình xác suất(Probabilitic Models), mô hình ngôn ngữ (Language Model), chỉ mục ngữ nghĩatiềm ẩn (Latent Semantic Indexing) Ngoài ra, nhiều tác giả còn sử dụng thuật ngữ(term) là các từ (word) hay cụm từ (phrase) thay vì chỉ dùng từ Hệ thống đã cho kếtquả chính xác hơn khi sử dụng thuật ngữ để tìm kiếm theo một miền nhất định nào

đó Nhiều nghiên cứu khác nhằm nỗ lực thay đổi cách đánh trọng số, đưa vào xử lýngôn ngữ tự nhiên, khử nhập nhằng, mở rộng tài liệu, mở rộng câu truy vấn, …cũng góp phần làm tăng hiệu quả tìm kiếm Mặc dù có nhiều cải tiến để cải thiện kếtquả, những hạn chế của việc sử dụng từ khóa vẫn chưa được khắc phục

Và hiện nay trong lĩnh vực của KHMT cũng có một sự chuyển hướng dầnđến những thứ mà có thể gọi là sự hướng tri thức hoặc xử lý ngữ nghĩa Theo đó,những hệ thống tìm kiếm dựa trên khái niệm được nghiên cứu phát triển nhằm thaythế cho những hệ thống truyền thống vốn đã bộc lộ nhiều khuyết điểm lớn Khônggiống như hệ thống tìm kiếm dựa trên từ khóa vốn so trùng một cách chính xácnhững gì người dùng cung cấp, hệ thống tìm kiếm dựa trên khái niệm tìm kiếmnhững gì người dùng nghĩ Việc tìm kiếm sẽ dựa trên không gian các khái niệm vàcác mối quan hệ ngữ nghĩa giữa chúng Những cách tiếp cận theo hướng ngữ nghĩahay theo cấu trúc khái niệm này hướng tới việc mô phỏng một cách tự nhiên cáchcon người giao tiếp, nghĩa là mô phỏng cấp độ hiểu về ý nghĩa của từ, cụm từ hayvăn bản mà người dùng cung cấp tương ứng với những gì người dùng nghĩ Nộidung của tài liệu được biểu diễn bởi những mô hình mang mức độ thông tin caohơn, giàu ngữ nghĩa hơn trong đó nổi bật nhất là các mô hình đồ thị như mạng ngữnghĩa, đồ thị khái niệm CGs, CGs cải tiến, đồ thị hình sao, đồ thị tần số, đồ thịkhoảng cách…Các mô hình này được đánh giá là có nhiều tiềm năng vì đã tận dụngđược các thông tin quan trọng về cấu trúc và các mối quan hệ ngữ nghĩa vốn khôngđược xét đến trong các mô hình truyền thống, do đó hàm chứa được nhiều hơnnhững suy nghĩ mà con người muốn diễn đạt, đồng thời nâng cao hiệu quả sử dụng

Trang 20

Hiện nay cách tiếp cận cho việc biểu diễn ngữ nghĩa dựa trên các ontologyđược xem là cách tiếp cận hiện đại và phù hợp nhất cho việc thiết kế biểu diễn, xử

lý nội dung và ý nghĩa của các tài liệu của con người Việc sử dụng Ontology và từđiển từ vựng làm tăng độ chính xác và khả năng vét cạn trong quá trình tìm kiếmthông tin theo hướng ngữ nghĩa Trong các hệ thống hỗ trợ giáo dục, ontology được

sử dụng chủ yếu cho 3 mục đích: (i) biểu diễn và lưu trữ tri thức về lĩnh vực cũngnhư các đối tượng cần thiết trong ứng dụng; (ii) xây dựng các mô hình tổ chức lưutrữ, biểu diễn ngữ nghĩa, biểu diễn tài liệu, lập chỉ mục cho các tài liệu (iii) xâydựng các chiến lược tìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu

1.1.3 Giải pháp “Thiết kế tổ chức lưu trữ kho tài liệu học tập lĩnh vực CNTT”

Trong luận văn thạc sĩ, tác giả Huỳnh Thị Thanh Thương [3] đã xây dựngđược một giải pháp thiết kế tổ chức lưu trữ kho tài liệu học tập lĩnh vực CNTTtrong đó có hỗ trợ biểu diễn và xử lý ngữ nghĩa trong tìm kiếm Giải pháp được đềxuất bao gồm một mô hình trong đó tích hợp các thành phần như: ontology mô tả trithức của lĩnh vực, CSDL của kho tài liệu, biểu diễn ngữ nghĩa cho các tài liệu và hệthống tập tin lưu trữ cùng với các vấn đề, kỹ thuật xử lý, tìm kiếm dựa trên các độ

đo tương quan về ngữ nghĩa Mô hình này làm cơ sở và là công cụ cho việc thiết kế

cơ sở tri thức, bộ suy diễn tìm kiếm tự động cũng như giao diện của hệ thống quản

lý kho tài nguyên nói chung và kho tài liệu học tập lĩnh vực CNTT nói riêng Các hệthống này cho phép quản lý các thông tin ngữ nghĩa liên quan đến nội dung của tàiliệu, cho phép tra cứu tìm kiếm tài liệu theo nhiều chức năng như hỗ trợ tìm kiếmdựa trên từ khóa, tìm kiếm theo hệ thống thư mục có quy chuẩn và hỗ trợ tìm kiếmtheo ngữ nghĩa

Về mặt lý thuyết, giải pháp “Thiết kế tổ chức lưu trữ kho tài liệu học tập lĩnhvực CNTT” đã góp phần trong việc phát triển các mô hình biểu diễn tri thức, biểudiễn tài liệu, các mô hình tổ chức cơ sở tài liệu mới Bên cạnh đó, giải pháp nàycũng nêu lên các ưu thế và lợi ích của việc nghiên cứu, phát triển các mô hình cùngvới các thuật giải tự động dựa trên tri thức thông qua việc thiết kế, cài đặt và xâydựng được một ứng dụng thử nghiệm là một hệ thống quản lý kho tài nguyên họctập về lĩnh vực CNTT trong phạm vi của một trường đại học với chức năng baogồm các tác vụ chính là tổ chức lưu trữ, quản lý và tìm kiếm

Trang 21

Trên cơ sở nhu cầu thực tế, giải pháp cơ bản đã đáp ứng được ở mức độ hệthống hoàn chỉnh, tuy nhiên vẫn còn nhiều vấn đề cần được cải thiện Một trongnhững hạn chế lớn của giải pháp là khả năng biểu diễn tri thức của ontology còn kháyếu, các thành phần của ontology khá đơn giản và chưa biểu diễn hết các tri thứctrong lĩnh vực Dẫn đến các xử lý kỹ thuật dựa trên ontology chưa được tốt như: kỹthuật xử lý câu truy vấn, tính độ tương đồng ngữ nghĩa giữa các khái niệm, v.v…Hiện tại ứng dụng được xây dựng dựa trên giải pháp chỉ có thể thử nghiệm trên cáctruy vấn đơn giản và tập kết quả trả về đạt ở mức có thể chấp nhận được.

1.2 MỤC TIÊU VÀ PHẠM VI CỦA ĐỀ TÀI

Những ý nghĩa thực tế, đóng góp cũng như hạn chế của giải pháp “Thiết kế

tổ chức lưu trữ kho tài liệu học tập lĩnh vực CNTT” được phân tích ở trên chính làđộng lực chính cho việc nghiên cứu phát triển của đề tài Với mục tiêu cải tiến giải

pháp thiết kế, đề tài chủ yếu tập trung nghiên cứu đề xuất một mô hình ontology

cải tiến dựa trên việc định nghĩa thành phần lớp có mô tả cấu thông tin và xây dựng

tập các luật phổ biến trên miền tri thức của lĩnh vực để mở rộng việc xử lý câu truy

vấn và đưa ra phương pháp xác định mối quan hệ ngữ nghĩa tự động giữa các đối tượng trên kho tài nguyên học tập lĩnh vực KHMT Từ đó, giúp cho hệ thống có

thể cải thiện được độ chính xác và độ bao phủ của tập kết quả trả về trong quá trìnhtìm kiếm tài liệu theo ngữ nghĩa Việc cải tiến ontology thông qua các bước sau:

- Khắc phục những trường hợp thiếu xót hay dư thừa của keyphrase vàquan hệ trong ontology của lĩnh vực KHMT

- Chuyển đổi thành phần lớp cũ sang một dạng hình thức khác thôngqua việc khai thác thành phần Label trong mô hình CK_ONTO

- Khảo sát lại miền tri thức của lĩnh vực KHMT; từ đó, định nghĩathành phần lớp mới trong mô hình ontology có thể hiện cấu trúc thông tin

rõ ràng, giàu ngữ nghĩa

- Bổ sung các luật phổ biến cho mô hình ontology để hỗ trợ trong một

số quá trình xử lý tự động

Cải tiến xử lý câu truy vấn từ những thay đổi trên mô hình ontoloty Nhờ vào

đó câu truy vấn của người dùng sẽ được làm rõ hơn về mặt ngữ nghĩa giúp cho tậpkết quả trả về chính xác và đầy đủ hơn

Trang 22

Hoàn thiện ứng dụng demo, thử nghiệm, đánh giá và so sánh kết quả tìmkiếm của ứng dụng bằng dữ liệu thực tế.

Việc xây dựng một hệ thống quản lý kho tài liệu văn bản hỗ trợ biểu diễn và

xử lý ngữ nghĩa trong tìm kiếm về mặt thực tế là rất khó vì nhiều vấn đề cho đếnnay vẫn còn khá mới hoặc vẫn chưa có lời giải tối ưu Các phương pháp và kỹ thuậthiện có thường chỉ hỗ trợ cho một số miền tri thức nhất định trong những ứng dụng

cụ thể và tỏ ra không hiệu quả trong việc áp dụng giải quyết nhiều dạng bài toánkhác nhau Ngoài ra, việc xây dựng một cơ sở tri thức cho một lĩnh vực cũng gặpnhiều khó khăn vì đòi hỏi kiến thức của chuyên gia về lĩnh vực, đặc biệt là trongviệc định nghĩa những khái niệm trong một chuyên ngành khoa học Trong bối cảnh

đó, luận văn chỉ nghiên cứu xây dựng thử nghiệm trên hệ thống quản lý kho tài liệuhọc tập về một lĩnh vực cụ thể là lĩnh vực KHMT (giới hạn trong phạm vi kho tàiliệu tiếng Anh) và chỉ định nghĩa một số khái niệm phổ biến, có thể hiện ngữ nghĩa

rõ ràng

1.3 PHƯƠNG PHÁP NGHIÊN CỨU

Đi từ việc phân tích nhu cầu thực tiễn, tìm hiểu nghiên cứu các phương pháp

và kỹ thuật đã có, trên cơ sở đó tìm cách vận dụng, phối hợp và cải tiến sao cho phùhợp với yêu cầu thực tế của ứng dụng mà luận văn đang hướng tới Bên cạnh đóđưa ra những đóng góp phát triển và đề xuất mới về mặt mô hình và kỹ thuật, tậndụng ưu điểm của từng phương pháp, kỹ thuật trong các mô hình mới với khả năngbiểu diễn tri thức rộng và sâu hơn, khả năng xử lý chính xác và hiệu quả hơn

Những phương pháp và kỹ thuật liên quan đến đề tài bao gồm các phươngpháp và kỹ thuật của trí tuệ nhân tạo như:

- Các phương pháp thiết kế hệ cơ sở tri thức, hệ chuyên gia, hệ trợ giúpquyết định, hệ quản lý thông minh và các hệ tìm kiếm thông tin

- Phương pháp biểu diễn và xử lý tri thức, biểu diễn và xử lý ngữ nghĩacác tài liệu

- Phương pháp xây dựng ontology cho lĩnh vực

- Phương pháp suy diễn tự động dựa trên tập luật

- Các phương pháp và kỹ thuật lập chỉ mục tự động cho các tài liệu, rúttrích các khái niệm từ tài liệu, phân loại tài liệu, các kỹ thuật trong xử lý

Trang 23

ngôn ngữ tự nhiên.

- Đặc biệt là các phương pháp và kỹ thuật dựa trên các ontology sẽđược vận dụng một cách linh hoạt có sự phát triển để tạo ra các mô hình,các ngôn ngữ đặc tả, kỹ thuật tổ chức kho tài liệu có ngữ nghĩa phục vụviệc xử lý lưu trữ và tìm kiếm theo ngữ nghĩa một cách hiệu quả hơn Ngoài ra, việc nghiên cứu giải pháp nêu trên phải được thực hiện dựa trêncác phương pháp và kỹ thuật tích hợp biểu diễn cho cả dữ liệu, thông tin và tri thức

Như vậy, dựa trên các phương pháp, kỹ thuật và công nghệ hiện có ta hoàntoàn có thể nghiên cứu cải tiến mô hình ontology biểu diễn tri thức cho lĩnh vực Từ

đó đóng góp vào việc hoàn thiện hệ thống quản lý kho tài nguyên học tập nói chung

và hệ thống quản lý kho tài nguyên học tập lĩnh vực KHMT nói riêng

1.4 NỘI DUNG THỰC HIỆN

- Khảo sát và đánh giá mức độ tìm kiếm theo ngữ nghĩa của ứng dụng

“Quản lý kho tài nguyên học tập lĩnh vực CNTT”

- Duyệt lại toàn bộ keyphrase và lớp trong ontology của ứng dụng; loại

bỏ những keyphrase và quan hệ dư thừa, không quan trọng và không thuộclĩnh vực KHMT ra khỏi ontology và thêm vào những keyphrase và quan hệcòn thiếu sót

- Nghiên cứu thành phần lớp trong mô hình ontology; liệt kê cáckeyphrase gần nhau (về ngữ nghĩa) Chỉnh lại lớp, xét kỹ về ngữ nghĩa củacác keyphrase trong một lớp Từ đó, xem xét ánh xạ thành phần lớp trong môhình ontology cũ sang mô hình ontology mới sao cho vẫn giữ nguyên ý nghĩacủa thành phần này

- Định nghĩa thành phần lớp mới có mô tả cấu trúc thông tin rõ ràng Vídụ: lớp ngôn ngữ lập trình, thuật toán, v.v…

- Bổ sung thêm tập hợp các luật suy diễn trên các sự kiện liên quan đếntính chất của quan hệ hoặc sự kiện liên quan đến các keyphrase và lớp

- Cải tiến xử lý phân tích câu truy vấn và công thức tính độ tương đồngngữ nghĩa từ mô hình ontology cải tiến

- So sánh kết quả tìm kiếm theo ngữ nghĩa của hệ thống hiện tại với hệthống chưa được cải tiến mô hình Ontology

Trang 24

CHƯƠNG 2

CƠ SỞ LÝ THUYẾT

Chương 2 trình bày cơ sở lý thuyết của đề tài liên quan đến vấn đề truy hồithông tin, các lý thuyết nền tảng về Ontology cùng với các phương pháp và kỹ thuậttính khoảng cách ngữ nghĩa giữa các khái niệm Đặc biệt, việc nghiên cứu cácontology cho biểu diễn tri thức và biểu diễn ngữ nghĩa, trên cơ sở đó phát triển vàxây dựng giải pháp sẽ cho ta giải pháp tốt theo mục tiêu và nhu cầu của ứng dụngthực tế đặt ra

2.1 VẤN ĐỀ TRUY TÌM THÔNG TIN

2.1.1 Cấu trúc của một hệ thống truy tìm thông tin

Hiện nay, hầu hết các hệ thống tìm kiếm thông tin thực chất chỉ là hệ thốngtruy tìm tài liệu, nghĩa là hệ thống sẽ truy tìm những tài liệu (trong số các tài liệu cótrong CSDL lưu trữ) có nội dung liên quan, phù hợp, đáp ứng với nhu cầu thông tincủa người dùng, sau đó người dùng sẽ tìm kiếm thông tin họ cần trong các tài liệuliên quan đó Có hai khái niệm quan trọng luôn đề cập đến đó là tài liệu và câu truyvấn Tài liệu là bất kỳ đối tượng nào mà nó có chứa thông tin, ví dụ như các mẫuvăn bản, hình ảnh, âm thanh, video, … Tuy nhiên hầu hết các hệ thống IR chỉ đềcập đến các tài liệu là văn bản-text, lý do về sự hạn chế này là vì những khó khăntrong việc biểu diễn các đối tượng không là văn bản

Một hệ thống IR thường có hai khối chức năng chính, đó là lập chỉ mục vàtra cứu hay tìm kiếm Lập chỉ mục là giai đoạn phân tích tài liệu để rút trích các đơn

vị thông tin từ tài liệu và biểu diễn lại tài liệu bởi các đơn vị thông tin đó Đơn vịthông tin có thể là từ (word), hoặc phức tạp hơn là cụm từ (phrase), khái niệm(concept) và nội dung tài liệu có thể được biểu diễn bởi một cấu trúc đơn giản nhưdanh sách từ (cụm từ) khóa có đánh trọng số hay một dạng đồ thị giàu ngữ nghĩahơn Tra cứu là giai đoạn tìm kiếm trong CSDL những tài liệu phù hợp với nội dungcâu truy vấn Trong giai đoạn tra cứu, nhu cầu thông tin của người sử dụng đượcđưa vào hệ thống dưới dạng một câu truy vấn bằng ngôn ngữ tự nhiên hay một dạngthức qui ước nào đó Câu truy vấn và tập dữ liệu sẽ được phân tích và biểu diễn

Trang 25

thành một dạng biểu diễn bên trong Hệ thống sẽ sử dụng một hàm so khớp(matching function) để so khớp biểu diễn của câu hỏi với các biểu diễn của các tàiliệu để đánh giá độ liên quan của các tài liệu với câu truy vấn và trả về các tài liệu

có liên quan, được sắp hạng theo độ liên quan với câu truy vấn Động cơ tìm kiếm

có thể tương tác với người dùng thông qua một giao diện, để có thể hiệu chỉnh dầnkết quả trả về cho phù hợp với nhu cầu thông tin của người dùng

Các hệ thống tìm kiếm thông tin có thể được phân loại như sau:

- Hệ thống tìm kiếm thông tin dựa trên từ khóa: Hệ thống sử dụng một danhsách các từ khóa (keywords) hay thuật ngữ (term) để biểu diễn nội dung tài liệu vàcâu truy vấn Tìm kiếm theo từ khóa là tìm kiếm các tài liệu mà những từ trong câutruy vấn xuất hiện nhiều nhất, ngoại trừ stopword (các từ quá thông dụng như mạo

từ a, an, the,…), nghĩa là hệ thống giả định nếu một câu hỏi và một tài liệu có chứamột số từ (từ khoá) chung, thì tài liệu là liên quan đến câu hỏi và dĩ nhiên là nếu số

từ chung càng nhiều thì độ liên quan càng cao, tài liệu càng được chọn để trả về chongười dùng Các mô hình tìm kiếm được sử dụng như mô hình Boolean, mô hìnhkhông gian vector, các mô hình xác suất, mô hình LSI

- Hệ thống tìm kiến thông tin dựa trên khái niệm hay ngữ nghĩa: Nội dungcủa một đối tượng thông tin được mô tả bởi một tập các khái niệm hay một cấu trúckhái niệm Để rút trích khái niệm, hệ thống cần sử dụng đến nguồn tri thức về lĩnhvực nhất định nào đó Hướng tiếp cận chính cho việc nguyên cứu các hệ thống này

là sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công nghệ ontology

2.1.2 Hệ thống tìm kiếm thông tin dựa trên khái niệm

Hệ thống tìm kiếm dựa trên khái niệm cũng có chức năng, nguyên lý hoạtđộng và các bộ phận cấu thành giống như một hệ thống tìm kiếm tổng quát Tuynhiên, điểm khác biệt lớn là việc sử dụng khái niệm để lập chỉ mục Trong bộ lậpchỉ mục sẽ có hai nhiệm vụ chính là rút trích toàn bộ các khái niệm có trong CSDLcác tài liệu và lập chỉ mục cho các tài liệu dựa trên các khái niệm này Cũng giốngnhư bộ truy vấn của hệ tìm kiếm dựa trên từ khóa, bộ truy vấn của hệ thống dựa trênkhái niệm có chức năng lấy nội dung câu truy vấn do người dùng nhập vào, sau đórút trích khái niệm từ câu truy vấn và so trùng với tập chỉ mục đã được lập của cáctài liệu để tìm ra các tài liệu có liên quan Tùy thuộc vào cách lập chỉ mục cho tập

Trang 26

khái niệm như thế nào mà sẽ có những cách so trùng câu truy vấn với tập chỉ mụccủa tài liệu khác nhau, chẳng hạn như nếu bộ lập chỉ mục sử dụng các mô hìnhtruyền thống thì cách bộ truy vấn so trùng các khái niệm cũng giống như trong hệthống tìm kiếm dựa trên từ khóa, còn nếu một cấu trúc khái niệm biểu diễn tập kháiniệm của các tài liệu đã được xây dựng trong quá trình lập chỉ mục, thì cần xâydựng thêm một cấu trúc khái niệm để biểu diễn tập khái niệm của câu truy vấn, sau

đó việc tìm kiếm mới có thể được thực hiện dựa trên việc so trùng giữa các cấu trúckhái niệm này

Các cấu trúc khái niệm có thể tổng quát hoặc cụ thể theo từng lĩnh vực, cóthể được tạo thủ công, bán tự động hoặc tự động, chúng có thể khác nhau ở cácdạng biểu diễn hoặc ở cách xây dựng mối liên hệ giữa các khái niệm Các kiểu cấutrúc khái niệm phổ biến: cây khái niệm phân cấp (conceptual taxonomy), nguồn trithức về lĩnh vực (domain ontology), mạng ngữ nghĩa (semantic linguistic network

of concept), các đồ thị khái niệm (conceptual graphs), từ điển từ vựng (thesaurus),

mô hình tiên đoán (predictive model) và vector ngữ cảnh (context vector)

Việc xây dựng một hệ thống tìm kiếm dựa trên khái niệm cho đến nay vẫncòn là vấn đề rất khó vì rất nhiều vấn đề vẫn còn khá mới hoặc vẫn chưa có lời giảitối ưu Ngoài ra, việc xây dựng một cơ sở tri thức cho một lĩnh vực sẽ khó khăn vìtốn nhiều chi phí xây dựng và duy trì mà vốn phải có sự can thiệp của con người,đòi hỏi kiến thức của chuyên gia về lĩnh vực và phụ thuộc nhiều vào ngôn ngữ Đó

là lý do khiến các công cụ tìm kiếm theo khái niệm hiện nay chỉ hỗ trợ một lĩnh vựcnhất định trong những ứng dụng cụ thể Mặc dù đã có nhiều công trình nghiên cứukhẳng định hệ thống mà họ xây dựng là một hệ thống tìm kiếm dựa trên khái niệmnhưng vẫn chưa có những đóng góp đáng kể, thực sự không khác nhiều so với một

hệ thống tìm kiếm dựa trên từ khóa Một số công trình nghiên cứu có liên quan gầnđây có thể kể đến như:

- Gần đây nhất là có luận văn Thạc sĩ của tác giả Huỳnh Thị Thanh Thương[3], công trình xây dựng một giải pháp cho việc thiết kế tổ chức lưu trữ kho tài liệuhọc tập lĩnh vực CNTT Tác giả có đề cập tới việc tìm kiếm được trên khái niệmnhưng những kỹ thuật xử lý chính vẫn chỉ dựa vào những keyphrase Chúng tôi sẽgiới thiệu và phân tích ưu, nhược điểm của đề tài này một cách cụ thể ở mục 2.3

Trang 27

- Nhóm tác giả Hồ Bảo Quốc, Lê Thúy Ngọc [2] cũng đã tập trung nghiêncứu các vấn đề về tìm kiếm dựa trên khái niệm gồm các phương pháp mở rộng kháiniệm, cách tiếp cận lập chỉ mục theo khái niệm và xây dựng thử nghiệm một hệthống tìm kiếm thông tin y học là CIRS sử dụng nguồn tri thứcUMLSMetathesaurus, dùng công cụ MetaMa để rút trích khái niệm tiếng Anh,XIOTA để lập chỉ mục và được thử nghiệm trên bộ dữ liệu ImageCLEFmed củaCLEF, tuy nhiên hệ thống lập chỉ mục dựa trên mô hình truyền thống nên không tậndụng được mối liên hệ giữa các khái niệm.

- Nhóm tác giả Đồng Thị Bích Thủy, Nguyễn Phạm Bảo Trâm [4] cũng đã

đề xuất một mô hình tìm kiếm dựa trên khái niệm, hướng tới việc xây dựng một hệthống các dịch vụ hỗ trợ việc tìm kiếm thông tin trong thư viện Tuy nhiên mô hìnhnày cũng được xây dựng dựa trên các mô hình lý thuyết cổ điển trong lĩnh vực tìmkiếm thông tin đặc biệt là mô hình không gian vector, trong đó có sự cải tiến là biểudiễn tài liệu và câu truy vấn theo các khái niệm dưới dạng vector rồi thực hiện sotrùng các vector trong tìm kiếm Hơn nữa, các khái niệm còn được giả định là hoàntoàn độc lập nhau, nghĩa là ontology ở mức thấp nhất, mối quan hệ giữa các kháiniệm không được xem xét đến

- Một công trình nghiên cứu có liên quan khác là dự án lớn về phát triển một

hệ thống quản lý tri thức và thông tin cho các thực thể có tên ở Việt Nam VN-KIM(dựa theo KIM - Knowledge & Information Management của Ontotext Lab,Bulgaria) [5] Ontology được xây dựng có khoảng 373 lớp, 114 thuộc tính vàkhoảng 85000 thực thể về các nhân vật, thành phố, công ty và tổ chức quan trọng vàphổ biến có tên ở Việt Nam Hệ thống sử dụng Sesame để lưu trữ, quản lý Ontology

và tri thức, sử dụng công nghệ Lucene để đánh chỉ mục và truy hồi các tài liệuXML đã được chú thích ngữ nghĩa, nhưng theo các thực thể có tên thay vì theo các

từ khoá, sử dụng GATE để rút trích thông tin về các thực thể có tên, ứng dụng truyhồi thông tin cho phép trả lời gần đúng và truy vấn bằng đồ thị khái niệm

- Các tác giả Henrik Eriksso [12] và Henrik Bulskov Styltsvig [20] đã ápdụng Ontology cho việc biểu diễn ngữ nghĩa và truy tìm thông tin, dùng Ontology

để chuyển việc đánh giá truy vấn dựa trên các từ sang sự đánh giá truy vấn dựa trênkhái niệm và dùng tri thức trong các Ontology để so khớp các đối tượng trên ngữ

Trang 28

- Nghiên cứu việc mở rộng tài liệu và mở rộng câu truy vấn.

- Nghiên cứu việc sử dụng các kỹ thuật khác để hỗ trợ quá trình tìm kiếmnhư xử lý ngôn ngữ tự nhiên, fuzzy, khử nhập nhằng, phân loại (clasification), …hay các kỹ thuật để sắp xếp kết quả tìm kiếm (ranking)

- Nghiên cứu cách thức xây dựng, biểu diễn và so trùng các cấu trúc kháiniệm, các cách lập chỉ mục khái niệm

Hệ thống tìm kiếm dựa trên khái niệm ngoài áp dụng cho văn bản còn có thể

áp dụng cho tìm kiếm hình ảnh và truy vấn thông tin đa ngôn ngữ (Cross languageinformation retrieval – CIRS) Việc tìm kiếm hình ảnh dựa trên khái niệm rất có ýnghĩa Khi một người dùng tìm kiếm hình ảnh, sẽ chú ý ý nghĩa của hình ảnh đó là

gì hơn là hình ảnh đó có màu sắc, hay độ lớn như thế nào Tuy nhiên, việc lập chỉmục khái niệm cho hình ảnh khó khăn hơn rất nhiều so với lập chỉ mục văn bản

2.1.3 Các phương pháp truy hồi thông tin

Nhìn chung, có hai hướng tiếp cận chính cho việc nguyên cứu các hệ thốngIR: hướng thống kê và hướng ngữ nghĩa Trong phương pháp tiếp cận thống kê, cáctài liệu kết quả được truy tìm về hoặc được xếp hạng cao là những tài liệu được xem

là thích hợp với câu truy vấn nhất theo một số tiêu chí đo lường thống kê, trong khicác phương pháp tiếp cận hướng ngữ nghĩa hay khái niệm lại cố gắng thực hiện việcphân tích cú pháp và ngữ nghĩa, nói cách khác là cố gắng mô phỏng lại các cấp độhiểu của máy tính về các văn bản theo ngôn ngữ tự nhiên của con người (có thểtham khảo thêm trong các tài liệu [15])

Trang 29

Hình 2.1 Các phương pháp truy hồi thông tin

Truy tìm thông tin theo hướng tiếp cận thống kê

Một số mô hình nổi tiếng được nghiên cứu theo hướng tiếp cận thống kêthuần túy có thể kể đến là mô hình Boolean, Boolean mở rộng (extended Boolean),Không gian vector (Vector Space), các mô hình xác xuất (Probabilistic models) Ýtưởng chính theo hướng tiếp cận này là dùng một danh sách các term xuất hiệntrong tài liệu hay câu truy vấn là dạng biểu diễn của nội dung tài liệu và câu truyvấn đó Term, nghĩa là thuật ngữ, là một từ hay cụm từ biểu thị một khái niệm khoahọc Khi một phép biểu diễn tài liệu được chọn, chúng ta cần mã hóa chúng trongmột dạng thức toán học phù hợp với chương trình máy tính để máy có thể hiểu và

xử lý được Phương pháp đơn giản nhất là mã hóa Boolean

Truy hồi thông tin theo hướng ngữ nghĩa

- Xử lý ngôn ngữ tự nhiên

- Hướng tiếp cận Ontology

2.1.4 Đánh giá một hệ thống tìm kiếm thông tin

Theo [2], để đánh giá hiệu quả truy tìm của hệ thống, người ta sử dụng đếnhai độ đo cơ bản là độ chính xác (precision) và độ bao phủ (recall) Những độ đo

này đo sự thỏa mãn của người dùng với các tài liệu mà hệ thống tìm thấy Cho S là tập các tài liệu được tìm thấy (liên quan theo hệ thống) Cho U là tập các tài liệu

liên quan theo đánh giá của người dùng Khi đó, độ chính xác và độ bao phủ sẽđược định nghĩa như sau:

Trang 30

+ Độ chính xác: là sự tương ứng giữa số tài liệu mà hệ thống tìm thấy có

liên quan đến câu truy vấn theo người dùng trên tổng số các tài liệu tìm thấy của hệthống

Độ chính xác

S U S

Độ chính xác 100% nghĩa là tất cả các tài liệu mà hệ thống tìm thấy điều liênquan đến câu truy vấn theo người dùng

+ Độ bao phủ: là sự tương quan giữa số tài liệu hệ thống tìm thấy được đánh

giá là liên quan theo người dùng trên tổng số các tài liệu có liên quan theo ngườidùng

Độ bao phủ

S U U

Ngoài ra, sự hiệu quả của hệ thống còn phụ thuộc vào các yếu tố khác như:

+ Hiệu quả thực thi của hệ thống (Execution efficiency) được đo bởi thời

gian thực hiện thủ tục tìm kiếm các văn bản liên quan đến câu truy vấn được cho

+ Hiệu quả lưu trữ được đo bởi dung lượng bộ nhớ cần thiết để lưu trữ dữ

liệu (cả bộ nhớ ngoài lưu trữ dữ liệu chỉ mục và bộ nhớ RAM khi hệ thống thựcthi)

2.2 ONTOLOGY

Công nghệ ontology là một công nghệ được nghiên cứu phát triển mạnh mẽtrong thời gian gần đây Ontology trở thành một lĩnh vực nghiên cứu phổ biến cómặt trong nhiều lĩnh vực từ xử lý ngôn ngữ tự nhiên, công nghệ tri thức, các hệthống trao đổi, tích hợp thông tin cho đến biểu diễn và quản lý tri thức Ontologygiúp ta xây dựng mạng lưới ngữ nghĩa, bộ từ điển về các lĩnh vực chuyên môn hỗtrợ trong các ứng dụng, giúp ta mã hóa tri thức lĩnh vực thành một hệ tri thức dùngchung mà máy tính có thể hiểu được bằng cách phân tách khối tri thức này thànhcác đối tượng tri thức nhỏ hơn và tìm ra các mối liên hệ giữa chúng Phần tìm hiểu

Trang 31

hiểu tổng quan về ontology dưới đây được tham khảo và có trích dẫn một phần dựatrên tài liệu [1][7][9][10][11][17].

Một ontology xác định một bảng từ vựng chung cho các nhà nghiên cứu cầnchia sẽ thông tin trong một lĩnh vực, bao gồm định nghĩa của các khái niệm cơ bản

mà máy tính có thể hiểu được trong lĩnh vực đó và các mối liên hệ giữa những kháiniệm này

Một số lợi ích của việc xây dựng ontology:

- Chia sẻ những sự hiểu biết chung về cấu trúc thông tin của một lĩnh vựcgiữa người với người và giữa những hệ thống phần mềm với nhau

- Cho phép tái sử dụng lại tri thức của lĩnh vực, tiết kiệm chi phí trong việcxây dựng ontology

- Làm rõ lĩnh vực quan tâm, đưa ra các giả thiết rõ ràng về miền: tạo điềukiện thay đổi khi tri thức về lĩnh vực thay đổi, các đặc tả rõ ràng về miền tri thức sẽgiúp cho người mới dễ tìm hiểu ngữ nghĩa của các từ trong lĩnh vực quan tâm

- Phân tách hay tách rời tri thức lĩnh vực với tri thức xử lý: có thể hình dung

1 tác vụ tạo một tài liệu học tập từ nhiều thành phần theo đặc tả thì độc lập vớichương trình ứng dụng làm nhiệm vụ này

- Phân tích tri thức: Phân tích hình thức của các khái niệm, cần thiết cho việctái sử dụng và mở rộng ontology Muốn kế thừa hay sử dụng một ontology ta phảiphân tích và tìm hiểu các khái niệm và quan hệ giữa chúng trong ontology đó

2.3.1 Định nghĩa

Ontology là một thuật ngữ có nguồn gốc từ Triết học diễn tả các thực thể tồntại trong tự nhiên và các mối quan hệ giữa chúng Theo cách nhìn của triết học,ontology – bản thể học là “một môn khoa học về nhận thức, cụ thể hơn là mộtnhánh của siêu hình học về tự nhiên và bản chất của thế giới, nhằm xem xét các vấn

đề về sự tồn tại hay không tồn tại của các sự vật” Theo đó người ta đưa ra khái

niệm bộ ba ngữ nghĩa bao gồm biểu tượng – khái niệm – sự vật, đây là mô hình dùng để mô tả hay biểu diễn thế giới thực, biểu tượng sẽ gợi lên khái niệm và biểu diễn sự vật còn khái niệm sẽ đề cập tới sự vật.

Trong Trí tuệ nhân tạo đã có nhiều cách định nghĩa khác nhau về ontology,một số định nghĩa được xem là kinh điển và được thừa nhận rộng rãi như sau:

Trang 32

- Gruber (1993) định nghĩa ontology như “một đặc tả tường minh của sự kháiniệm hóa trong một lĩnh vực”

- Borst (1997) sửa đổi một chút định nghĩa của Gruber, rằng ontology là “ sựđặc tả hình thức của sự khái niệm hóa được chia sẻ” Studer (1998) giải thích haiđịnh nghĩa của Gruber và Borst như sau “Sự khái niệm hóa có nghĩa là mô hình trừutượng của các sự vật, hiện tượng trên thế giới được xác định qua các khái niệm liênquan của sự vật, hiện tượng đó Tường minh có nghĩa là các kiểu khái niệm và cácràng buộc giữa chúng là được xác định rõ ràng Hình thức có nghĩa là ontology phảiđược hiểu bởi máy tính Chia sẻ có nghĩa là tri thức trong ontology được kết hợpxây dựng và được chấp nhận bởi một nhóm hoặc một cộng đồng chứ không theo trithức chủ quan của cá nhân”

- Motta (1999) định nghĩa “ontology là đặc tả một phần của tập hợp các kháiniệm được sử dụng hình thức hóa các tri thức của một lĩnh vực cần quan tâm Vaitrò cơ bản của một ontology là nhằm chia sẻ và sử dụng lại tri thức”

- Uschold và Jasper (1999) phát biểu rằng “ontology chứa các định nghĩa vàquan hệ giữa các khái niệm, hình thành một cấu trúc lĩnh vực và giới hạn ngữ nghĩacủa thuật ngữ trong từ vựng”

- Weiss (1999) định nghĩa “ontology là một đặc tả của các khái niệm và quan

hệ trong lĩnh vực quan tâm Ontology không chỉ là phân cấp các lớp mà còn mô tảcác quan hệ”

- Theo định nghĩa của Hendler năm 2001, “ontology là một tập hợp các thuậtngữ tri thức (knowledge terms), bao gồm từ vựng, các quan hệ ngữ nghĩa, một sốluật suy diễn và logic trong một lĩnh vực đặc thù”

Nhìn chung, có rất nhiều định nghĩa về ontology, nhiều định nghĩa thì mâuthuẫn lẫn nhau Mỗi định nghĩa thể hiện một cách nhìn khác nhau và đi kèm với nó

là một phương pháp luận và kỹ thuật xây dựng ontology

2.3.2 Các thành phần của ontology

Ontology được xây dựng thường có các thành phần cơ bản sau:

 Các lớp (classes) (tương ứng với các concept – khái niệm): là trung tâmcủa hầu hết các ontology, mô tả các khái niệm trong miền lĩnh vực Các lớp thườngđược tổ chức phân cấp và áp dụng kỹ thuật thừa kế Một lớp có thể có các lớp con

Trang 33

biểu diễn khái niệm cụ thể hơn so với lớp cha.

 Thuộc tính (attributes, properties, slots,…): mô tả các đặc tính, đặc trưng,tính chất khác nhau của khái niệm và mỗi thuộc tính đều có giá trị Thuộc tính đượcphân biệt với quan hệ (relation) dựa trên giá trị là một kiểu dữ liệu (string, number,boolean, ) Một thuộc tính bản thân nó cũng có các thuộc tính con và cũng có cácràng buộc trên nó

 Quan hệ (relations): biểu diễn các kiểu quan hệ giữa các khái niệm Cácquan hệ nhị phân được sử dụng để biểu diễn thuộc tính Tuy nhiên, giá trị của quan

hệ khác với giá trị của thuộc tính ở chỗ giá trị của quan hệ là một khái niệm

 Thực thể, thể hiện (instances): biểu diễn các phần tử riêng biệt của kháiniệm, là các thể hiện của lớp Mỗi thể hiện của lớp biểu diễn một sự cụ thể hóa củakhái niệm đó

 Hàm (functions): là một loại thuộc tính hay quan hệ đặc biệt, trong đó,phần tử thứ n là duy nhất đối với n-1 phần tử còn lại

 Tiền đề (Formal Axioms): biểu diễn các phát biểu luôn đúng mà khôngcần phải chứng minh hay giải thích Axioms được sử dụng để kiểm chứng sự nhấtquán của ontology hoặc cơ sở tri thức Cả hai thành phần hàm và tiên đề góp phầntạo nên khả năng suy diễn trên ontology

2.3.3 Phân loại ontology

Về cơ bản có các loại ontology sau:

- Ontology biểu diễn tri thức (Knowledge Representation Ontology) nắm giữ

các biểu diễn nguyên thủy được dùng để chuẩn hóa tri thức trong một mô hình biểudiễn tri thức Một trong những ontology thuộc loại này là Frame Ontology củaGruber, ontology này định nghĩa những khái niệm như là frame, slot và các ràngbuộc slot cho phép biểu diễn tri thức theo hướng đối tượng hoặc theo frame-based

- Ontology tổng quát (Generic Ontology) bao gồm từ vựng liên quan tới sựvật, hiện tượng, thời gian, không gian, quan hệ nhân quả …có ý nghĩa chung chungkhông chỉ dùng riêng cho một lĩnh vực nào Ví dụ: WordNet, CYC, …

- Metadata ontology cung cấp từ vựng dùng để mô tả nội dung của các nguồn

thông tin trực tuyến Ví dụ ontology Dublin Core

- Ontology lĩnh vực (Domain Ontology) là những ontology có thể tái sử dụng

Trang 34

trong một lĩnh vực nào đó, nó cung cấp từ vựng về các khái niệm và các mối quan

hệ trong một lĩnh vực Ví dụ: ontology về y khoa MeSH, GALEN hay ontology vềsinh học Gene Ontology, OBO

- Ontology tác vụ (Tast Ontology) cung cấp một tập các thuật ngữ cụ thể cho

những tác vụ cụ thể

- Ontology lĩnh vực - tác vụ (Domain – Tast Ontology) là các ontology về tác

vụ có thể tái sử dụng trong một lĩnh vực nào đó

- Ontology ứng dụng (Application Ontology)

- Ontology chỉ mục (Index Ontology)

- Ontology hỏi và trả lời (Tell and Ask Ontology) …

Các loại metadata ontology, ontology lĩnh vực, ontology ứng dụng nắm giữtri thức một cách tĩnh nghĩa là độc lập với cách giải quyết vấn đề, trong khiontology tác vụ, ontology lĩnh vực– tác vụ liên quan đến tri thức giải quyết vấn đề.Tất cả các ontology này có thể kết hợp với nhau để xây dựng lên một ontology mới

Ngoài ra, cộng đồng nghiên cứu phân biệt các ontology dựa trên độ phức tạpcủa mô hình biểu diễn ontology

- Lightweight ontology: chứa các khái niệm, phân cấp khái niệm, mối quan

hệ giữa các khái niệm và các thuộc tính mô tả khái niệm

- Heavyweight ontology: bổ sung vào lighweight ontology các tiền đề, hàm

và ràng buộc

2.3.4 Các ứng dụng dựa trên Ontology

Hiện nay nhu cầu về ontology ngày càng tăng cao và ontology không nhữngphục vụ cho nhu cầu chia sẻ tri thức đơn thuần mà còn được áp dụng vào nhiều lĩnhvực khác nhau như các hệ thống quản lý tri thức, rút trích thông tin, thương mạiđiện tử, web ngữ nghĩa, xử lý ngôn ngữ tự nhiên, CSDL, quản lý thông tin đa ngônngữ, khai phá tri thức, học máy, trong công nghệ phần mềm, trong kiến trúc đa tác

tử hay trong các hệ thống bảo mật, … Ontology cung cấp nguồn thông tin giàu ngữnghĩa giúp cho các hệ thống thực hiện các tác vụ với kết quả tốt hơn

Ontology được tổ chức W3C đưa vào làm một trong những nền tảng xâydựng Web ngữ nghĩa Web ngữ nghĩa được định nghĩa như là sự mở rộng của Webhiện tại bằng cách thêm vào các mô tả ngữ nghĩa của thông tin dưới dạng mà

Trang 35

chương trình máy tính có thể “hiểu” trong đó thông tin được định nghĩa rõ ràng,giúp cho máy tính và con người cộng tác làm việc tốt hơn và do đó các ứng dụngWeb có thể xử lý thông tin hiệu quả hơn Việc phát triển ontology dựa trên mụcđích muốn cải thiện việc tìm kiếm trên Web vốn chỉ dựa trên việc duyệt và tìm kiếmtheo từ khóa, ontology được dùng để gán nhãn lại các trang web, các web servicehay các nguồn dữ liệu khác trên internet nhằm tăng tính hiệu quả trong việc truyxuất, tìm kiếm và khám phá dữ liệu

Trong tiến trình khai phá dữ liệu hay tích hợp dữ liệu, việc ứng dụngontology mang lại nhiều lợi thế, chẳng hạn như đối với các hệ thống bao gồm nhiềunguồn CSDL khác nhau (khác nhau về cách thức lưu trữ và nội dung thông tin), mỗinguồn dữ liệu sẽ có một ontology mô tả về nó Các ontology đó sẽ được hợp nhấtvào một ontology chung và khi người dùng đưa ra yêu cầu thì hệ thống sẽ chuyểntruy vấn đến nguồn CSDL tương ứng

Trong Thương mại điện tử, ontology được sử dụng để mô tả các sản phẩmkhác nhau và được ứng dụng vào việc định vị và tìm kiếm sản phẩm tự động với cácthông tin có sẵn Ở đây ontology đóng vai trò chuẩn hóa các nhóm mặt hàng Ngoài

ra, ontology còn có công dụng giúp cho các hệ thống tự động giao tiếp với nhau dễdàng Các trang web hoạt động như là cổng thông tin chung, có nhiệm vụ thực hiệncác biến đổi trên ontology giữa bên bán và bên mua

Hiện nay đã có nhiều hệ thống hỗ trợ giáo dục được xây dựng theo cách tiếpcận sử dụng ontology và các công nghệ Web có ngữ nghĩa Dựa trên các tính năngcủa hệ thống mà ta có thể phân loại chúng thành ba nhóm chủ yếu sau:

- Các hệ thống chia sẻ tài nguyên giáo dục trực tuyến: GEM - Gateway toEducational Materials (thegateway.org), Connexions (cnx.rice.edu)

- Các mạng chia sẻ ngang hàng về tài nguyên giáo dục: POOL - Portal forOnline Objects in Learning , Edutella (www.edutella.org)

- Các hệ thống Elearning dựa trên ontology: PIP - Personalized InstructionPlanner (peonto.cityu.edu.hk), TANGRAM (iis.fon.bg.ac.yu/TANGRAM)

Trong các hệ thống hỗ trợ giáo dục, ontology được sử dụng chủ yếu cho 3mục đích: (1) biểu diễn và lưu trữ tri thức về các lĩnh vực cũng như các đối tượngcần thiết trong ứng dụng; (2) xây dựng các mô hình tổ chức lưu trữ, biểu diễn ngữ

Trang 36

nghĩa, biểu diễn tài liệu, lập chỉ mục cho các tài liệu (3) xây dựng các chiến lượctìm kiếm theo ngữ nghĩa liên quan đến nội dung tài liệu.

2.3.5 Ứng dụng ontology trong các hệ thống tìm kiếm

Hệ thống truy vấn thông tin dựa vào ontology kết hợp chặt chẽ các đặc điểm,chức năng mà những hệ thống truyền thống thường không có Những bộ máy tìmkiếm không gian véc tơ thương mại đã biết tận dụng các công nghệ xử lý ngôn ngữ

cơ bản, nhưng chúng không thật sự hỗ trợ trong việc phân tích ngữ nghĩa của tàiliệu Một hệ thống truy vấn thông tin dựa trên nền tảng ontology hoạt động dựa trên

ba mức độ nhu cầu khác nhau Ở mức độ thấp nhất, chúng ta dùng cây phân cấp

khái niệm trong ontology để truy vấn và thể hiện tập tài liệu trả về được xếp hạng

đến người dùng Ontology loại này được sử dụng để phát biểu lại câu truy vấn dướidạng những khái niệm ngữ nghĩa hoặc để thiết lập những chỉ mục ngữ nghĩa, hoặc

cả hai trường hợp trên Mức độ cao hơn trong việc sử dụng ontology được áp dụngtrong việc duyệt tri thức của lĩnh vực Ý tưởng ở đây là để hỗ trợ người dùng tìmhiểu những quan hệ và sự phân cấp trong ontology Từ đó, nó sẽ giúp cho ngườidùng có cái nhìn tổng thể về miền tri thức và tìm kiếm những thông tin liên quan Ởmức độ nhu cầu cao nhất, chúng ta dùng việc suy luận để cung cấp câu trả lời,những câu trả lời này được tạo thành từ những tài liệu hoặc những chứng minhlôgíc trong ontology Đã có một số ngôn ngữ ontology được định nghĩa một cáchhình thức như OWL và các ontology hoàn chỉnh đã được xây dựng dựa trên cácràng buộc và tiền đề Hình 2.2 trình bày cách mà thông tin của ontology được ứngdụng cho những mục đích khác nhau

Truy vấn tài liệu

Duyệt tri thức

Đưa ra sự phản hồi

Khái niệmCấu trúc của ontology Suy luận

Khái niệm, tính phân cấpThuộc tính và quan hệLôgíc và ràng buộc

Hình 2.2 Ba loại ứng dụng của ontology trong truy vấn thông tin

Trong [14] tập trung nghiên cứu trên những ứng dụng tìm kiếm hỗ trợ truyvấn tài liệu Những ứng dụng này biểu diễn mức độ thấp nhất của cây phân cấp truy

Trang 37

vấn trong ontology Góc phần tư giá trị của ontology ở hình 2.3 được dùng để đánhgiá tính hữu dụng của một ontology trong một ứng dụng cụ thể Khả năng củaontology để nắm bắt nội dung tổng thể của diễn ngôn ở mức độ phù hợp của sự chitiết, sự chính xác và khả năng đem lại cho ontology những thông tin chính xác cóthể hiểu được là những tính năng quan trọng Chúng đã được trình bày trong nhiềuframework hỗ trợ xây dựng ontology Tuy nhiên, việc xây dựng của ontology cũngcần xem xét những khía cạnh động của lĩnh vực cũng như hành vi của ứng dụng.Trong các ứng dụng tìm kiếm, điều này có nghĩa là chúng ta cần xem xét những vấn

đề liên quan đến nội dung và tính động của lĩnh vực:

Hình 2.3 Góc phần tư giá trị của ontology

- Độ tương đồng khái niệm (concept similarity): những thuật ngữ được

dùng để phân nhóm chủ đề và tạo sự phân biệt ngữ nghĩa về thực tế Trường hợp lýtưởng là những khái niệm bên trong câu truy vấn của người dùng tương ứng vớinhững khái niệm được tìm thấy bên trong ontology Việc phân tích các đoạn trongcâu truy vấn cho thấy rằng người dùng có khuynh hướng dùng những cụm danh từ.Trong khi đó, ta thường cho rằng những khái niệm không được tìm thấy trongontology mà người dùng truy vấn là những khái niệm không quan trọng, không cầnxem xét Ngược lại, những khái niệm được định nghĩa trong ontology mà khôngđược người dùng quan tâm được gọi là những khái niệm không được mong muốn.Một số công trình nghiên cứu liên quan tới việc tính độ tương đồng ngữ nghĩa giữacác khái niệm như [18][19]

- Sự phân biệt tài liệu (document discrimination): cấu trúc của khái niệm

trong ontology quyết định nhóm tài liệu nào về mặt lý thuyết được phân biệt và

Trang 38

được trả về như là tập kết quả Tương tự, những khái niệm được người dùng yêuthích xác định nhóm tài liệu nào mà họ có thể mong muốn tìm kiếm và sự phân biệtgiữa những tài liệu mà họ xem như là có liên quan hoặc không liên quan Nếu mức

độ chi tiết của những khái niệm người dùng yêu thích và những khái niệm trongontology hoàn toàn tương thích, sự kết hợp của những thuật ngữ có thể trả về tậpkết quả giống nhau từ bộ tài liệu của hệ thống Tập kết quả trả về có thể được suyluận bởi sự kết hợp những khái niệm từ câu truy vấn của người dùng mà khôngđược suy luận từ tập khái niệm trong ontology được gọi là tập kết quả không đầy đủ(unfulfilled results) Trong khi đó, tập kết quả trả về có thể được suy luận chỉ bởi sựkết hợp của những khái niệm trong ontology mà không xét đến sự kết hợp củanhững khái niệm từ câu truy vấn của người dùng được gọi là tập kết quả khôngmong muốn (unwanted results)

- Xử lý câu truy vấn (query formulation): theo [6] câu truy vấn của người

dùng thì thường rất ngắn, khoảng từ hai đến ba từ, vì vậy những thuật ngữ phân cấpthường được thêm vào trong câu truy vấn để tinh chỉnh và mở rộng câu truy vấn.Trong [16] tác giả trình bày kỹ thuật xử lý câu truy vấn dựa vào việc biểu diễn bằng

đồ thị khái niệm, từ đó giúp câu truy vấn của người dùng được mở rộng để đáp ứngđược nhu cầu tìm kiếm Lợi ích của việc hỗ trợ xử lý này thì quan trọng hơn so vớiviệc cho phép người dùng làm rõ chi tiết và chính xác nhu cầu của họ Như vậy,chức năng đem lại sự thông minh và tiện lợi của hệ thống trong việc đáp ứng nhucầu của người sử dụng

- Tính ổn định của lĩnh vực (domain stability): lĩnh vực tìm kiếm có lẽ

thay đổi thường xuyên, và một số phần trong lĩnh vực có thể được mô tả tốt trongnhững tài liệu này nhưng không tốt trong những tài liệu khác Vì vậy, ontology cầnđược bảo trì một cách thường xuyên và chuẩn mực Điều này thực sự khó để phụthuộc vào sự có sẳn của những chuyên gia lĩnh vực

Xây dựng một ontology cho các ứng dụng tìm kiếm không phải và một việcphí phạm và thật sự cần thiết để tạo ra những khái niệm ứng viên được sử dụngtrong quá trình tìm kiếm và suy diễn của hệ thống Nhờ vào đó, người dùng có thểtruy vấn thông tin để tìm kiếm những tài liệu mà họ mong muốn một cách chính xáchơn so với các hệ thống thông thường

Trang 39

2.3.6 Các hướng tiếp cận xây dựng ontology

Do nhu cầu ontology ngày càng phát triển, nên nhiều phương pháp khácnhau để xây dựng ontology một cách tự động hoặc bán tự động được các tác giảnghiên cứu và phát triển Các phương pháp này giúp giảm bớt chi phí về thời gian

và công sức so với việc xây dựng các ontology một cách thủ công Nhưng mặt khácchất lượng của các ontology thu được từ những phương pháp này phụ thuộc khánhiều tùy vào thuật giải được sử dụng, nguồn dữ liệu mà thuật giải sử dụng, cũngnhư từng lĩnh vực mà phương pháp được áp dụng vào

Một trong những hướng xây dựng ontology chính là rút trích ontology từ cácnguồn dữ liệu khác nhau Các phương pháp rút trích ontology sử dụng nhiều cáchthức khác nhau từ các phương pháp máy học, xử lý ngôn ngữ tự nhiên cho đếnthống kê Các phương pháp sử dụng việc xử lý ngôn ngữ tự nhiên dựa trên việcphân tích từ vựng, cú pháp của tập hợp các văn bản thuộc về một domain nào đó, từ

đó rút trích ra các khái niệm và dựa vào mối quan hệ cú pháp và từ vựng để xâydựng nên mối quan hệ về mặt ngữ nghĩa giữa các khái niệm Phương pháp rút tríchontology dựa vào việc thống kê sẽ tiến hành thống kê trên các nguồn dữ liệu để rúttrích ontology Các phương pháp sử dụng việc học máy sẽ khai thác các nguồn dữliệu nhằm rút ra các đặc trưng của dữ liệu, các khuôn mẫu cũng như các tập luậtphục vụ cho việc rút trích ontology

Một trong những hướng tiếp cận đáng quan tâm là rút trích ontology từ dữliệu web Các nguồn dữ liệu được dùng trong việc rút trích ontology khá đa dạng, từ

dữ liệu dạng văn bản, dữ liệu quan hệ trong các CSDL quan hệ, cho đến dữ liệu từweb Trong đó nguồn dữ liệu từ web có lợi thế là nguồn thông tin phong phú, đadạng và có sẵn trên internet

Các hệ thống xây dựng ontology có thể sử dụng dữ liệu từ nhiều nguồn khácnhau để xây dựng nên ontology, có thể được phân chia thành các loại sau đây:

- Dữ liệu có cấu trúc: Hệ thống xây dựng lên các ontology dựa vào các dữliệu có cấu trúc như từ database schema, từ những ontology đã có sẵn, từ những cơ

sở tri thức và từ các mạng từ vựng như WordNet

- Dữ liệu bán cấu trúc: đây cũng là một nguồn khác mà các hệ thống thường

sử dụng, bao gồm các từ điển, các văn bản HTML và XML

Trang 40

- Dữ liệu không có cấu trúc: đây là nguồn dữ liệu khó rút trích tri thức nhất.Các hệ thống xây dựng ontology phải thực hiện các công đoạn xử lý ngôn ngữ tựnhiên trên các văn bản này để khám phá ra các khái niệm và các quan hệ Dữ liệudạng này thường được lấy từ các trang web.

2.3 GIẢI PHÁP “THIẾT KẾ VÀ TỔ CHỨC LƯU TRỮ KHO TÀI LIỆU HỌC TẬP LĨNH VỰC CNTT”

Giải pháp “Thiết kế tổ chức lưu trữ kho tài liệu học tập lĩnh vực CNTT” [3]

đã đề xuất một mô hình trong đó tích hợp các thành phần như: ontology mô tả trithức của lĩnh vực, CSDL của kho tài liệu, biểu diễn ngữ nghĩa cho các tài liệu và hệthống tập tin lưu trữ cùng với các vấn đề, kỹ thuật xử lý, tìm kiếm dựa trên các độ

đo tương quan về ngữ nghĩa Qua đó làm cơ sở và là công cụ cho việc thiết kế cơ sởtri thức, bộ suy diễn tìm kiếm tự động cũng như giao diện của hệ thống quản lý khotài nguyên nói chung và kho tài liệu học tập lĩnh vực CNTT nói riêng Các hệ thốngnày cho phép quản lý các thông tin ngữ nghĩa liên quan đến nội dung của tài liệu,cho phép tra cứu tìm kiếm tài liệu theo nhiều chức năng không chỉ hỗ trợ tìm kiếmdựa trên từ khóa, tìm kiếm theo hệ thống thư mục có quy chuẩn mà còn hỗ trợ tìmkiếm dựa trên tri thức của lĩnh vực hay theo ngữ nghĩa Theo đó hệ thống sẽ không

so trùng một cách chính xác những gì người dùng cung cấp mà sẽ hướng tới việctìm kiếm những gì người dùng nghĩ; nghĩa là tìm cách đoán ý, hiểu nghĩa dựa trêncác khái niệm có liên quan đến từ khóa tìm kiếm để trả về tập tài liệu kết quả đúngnhất với ý định tìm kiếm của người dùng

Giải pháp bao gồm các mô hình:

1 Mô hình ontology CK_ONTO mô tả tri thức về một lĩnh vực đặc biệttrong đó sử dụng keyphrase là thành phần chính để hình thành các khái niệm củaontology Cấu trúc của ontology được thiết kế có tính tổng quát và dễ dàng mở rộngcho nhiều lĩnh vực khác nhau cũng như các loại hình ứng dụng khác nhau Mô hìnhcho ta một thể hiện tương đối đầy đủ với các cấu trúc tường minh cho một lớp kiếnthức tổng quát bao gồm 6 thành phần chính:

(K, C, R KC , R CC , R KK , label)

- K: Một tập hợp các keyphrase biểu thị cho hệ thống các khái niệm trong

lĩnh vực

Ngày đăng: 18/05/2015, 20:38

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
13. D.Genest, M.Chein (1997), “An experiment in Document Retrieval using Conceptual Graph”, Proceeding of 5th ICCS Conference, Washington USA, P.489- 504 Sách, tạp chí
Tiêu đề: An experiment in Document Retrieval usingConceptual Graph”, "Proceeding of 5th ICCS Conference
Tác giả: D.Genest, M.Chein
Năm: 1997
14. Jon Atle Gulla, Hans Olaf Borch, Jon Espen Ingvaldsen (2006), “Unsupervised Keyphrase Extraction for Search Ontologies”, Natural Language Processing and Information Systems, Lecture Notes in Computer Science Volume 3999, P. 25-36 Sách, tạp chí
Tiêu đề: UnsupervisedKeyphrase Extraction for Search Ontologies”, "Natural Language Processing andInformation Systems
Tác giả: Jon Atle Gulla, Hans Olaf Borch, Jon Espen Ingvaldsen
Năm: 2006
15. Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze (2009), An Introduction to Information Retrieval, Cambridge University Press Cambridge, England Sách, tạp chí
Tiêu đề: AnIntroduction to Information Retrieval
Tác giả: Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze
Năm: 2009
16. Min Peng (2011), “Query expansion based on Conceptual Word Cluster Space Graph”, Information Science and Service Science (NISS), 2011 5th International Conference on New Trends in Volume 1, Pages 128-133 Sách, tạp chí
Tiêu đề: Query expansion based on Conceptual Word Cluster SpaceGraph”, "Information Science and Service Science (NISS)
Tác giả: Min Peng
Năm: 2011
17. Natalya F. Noy, Deborah L. McGuinness (2001), “Ontology Development 101: A Guide to Creating Your First Ontology”. Stanford Knowledge Systems Laboratory, Technical Report KSL-01-05 Sách, tạp chí
Tiêu đề: Ontology Development 101: AGuide to Creating Your First Ontology”
Tác giả: Natalya F. Noy, Deborah L. McGuinness
Năm: 2001
18. David Sánchez, Montserrat Batet (2013), “A semantic similarity method based on information content exploiting multiple ontologies”, Expert Systems with Applications, Volume 39, Issue 9, Pages 1393-1399 Sách, tạp chí
Tiêu đề: A semantic similarity method based oninformation content exploiting multiple ontologies”, "Expert Systems withApplications
Tác giả: David Sánchez, Montserrat Batet
Năm: 2013
19. David Sánchez, Montserrat Batet, David Isern, Aida Valls (2012), “Ontology-based semantic similarity: A new feature-based approach”, Expert Systems with Applications, Volume 39, Issue 9, Pages 771–7728 Sách, tạp chí
Tiêu đề: Ontology-basedsemantic similarity: A new feature-based approach”, "Expert Systems withApplications
Tác giả: David Sánchez, Montserrat Batet, David Isern, Aida Valls
Năm: 2012
20. Henrik Bulskov Styltsvig (2006), Ontology-based Information Retrieval, A dissertation Presented to the Faculties of Roskilde University in Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy Sách, tạp chí
Tiêu đề: Ontology-based Information Retrieval
Tác giả: Henrik Bulskov Styltsvig
Năm: 2006

HÌNH ẢNH LIÊN QUAN

Hình 2.1. Các phương pháp truy hồi thông tin - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 2.1. Các phương pháp truy hồi thông tin (Trang 27)
Hình 2.2. Ba loại ứng dụng của ontology trong truy vấn thông tin - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 2.2. Ba loại ứng dụng của ontology trong truy vấn thông tin (Trang 34)
Hình 2.3. Góc phần tư giá trị của ontology - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 2.3. Góc phần tư giá trị của ontology (Trang 35)
Hình 3.1. Sơ đồ phân cấp lớp ALGORITHM - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 3.1. Sơ đồ phân cấp lớp ALGORITHM (Trang 48)
Bảng 3.1. Quan hệ giữa các keyphrase trong CK_ONTO - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Bảng 3.1. Quan hệ giữa các keyphrase trong CK_ONTO (Trang 52)
Hình 3.2. Qui trình xây dựng ontology ngành KHMT - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 3.2. Qui trình xây dựng ontology ngành KHMT (Trang 63)
Hình   sau   đây   là   bảng  chú   giải  các  thuật  ngữ   tin   học  được  lấy  từ   trang - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
nh sau đây là bảng chú giải các thuật ngữ tin học được lấy từ trang (Trang 64)
Hình 3.4. Ví dụ sử dụng công cụ “SEO keyword analysis” online trong việc rút trích tự - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 3.4. Ví dụ sử dụng công cụ “SEO keyword analysis” online trong việc rút trích tự (Trang 65)
Hình 3.5. Ví dụ một form mô tả thông tin về một tài liệu - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 3.5. Ví dụ một form mô tả thông tin về một tài liệu (Trang 66)
Bảng 3.2 Trọng số được gán cho mỗi quan hệ - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Bảng 3.2 Trọng số được gán cho mỗi quan hệ (Trang 76)
Hình 3.8. Qui trình biến đổi câu truy vấn thành đồ thị keyphrase - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 3.8. Qui trình biến đổi câu truy vấn thành đồ thị keyphrase (Trang 82)
Hình 4.1. Mô hình kiến trúc hệ thống quản lý kho tài nguyên theo ngữ nghĩa - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 4.1. Mô hình kiến trúc hệ thống quản lý kho tài nguyên theo ngữ nghĩa (Trang 87)
Hình 4.2. Biểu đồ phân cấp chức năng - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 4.2. Biểu đồ phân cấp chức năng (Trang 88)
Hình 4.4. Biều đồ luồng dữ liệu xử lý tổ chức quản lý kho tài liệu và bảo quản - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 4.4. Biều đồ luồng dữ liệu xử lý tổ chức quản lý kho tài liệu và bảo quản (Trang 89)
Hình 4.3. Biểu đồ luồng dữ liệu xử lý chức năng người quản lý tổng quát - Nghiên cứu cải tiến giải pháp thiết kế hệ hỗ trợ tìm kiếm theo ngữ nghĩa trên kho tài liệu khoa học máy tính
Hình 4.3. Biểu đồ luồng dữ liệu xử lý chức năng người quản lý tổng quát (Trang 89)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w