Một trong những cách giải quyết vấn đề là mở rộng câu truy vấn ban đầu của người sử dụng, bổ sung thêm các từ khóa mới có liên quan ngữ nghĩa với từ khóa ban đầu.. Tìm hiểu các phương ph
Trang 1Đại Học Quốc Gia Tp Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học : PGS TS Phan Thị Tươi
Cán bộ chấm nhận xét 1 : TS QUẢN THÀNH THƠ
Cán bộ chấm nhận xét 2 :
Luận văn thạc sĩ được bảo vệ tại Trường Đại Học Bách Khoa, ĐHQG Tp.HCM
ngày 18 tháng 09 năm 2010
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1 Chủ tịch hội đồng: PGS.TS DƯƠNG TUẤN ANH
2 Thư ký hội đồng : TS QUẢN THÀNH THƠ, phản biện
3 Ủy viên hội đồng : PGS.TS ĐỖ PHÚC, phản biện
4 Ủy viên hội đồng : TS NGUYỄN XUÂN DŨNG
5 Ủy viên hội đồng : PGS.TS PHAN THỊ TƯƠI, hướng dẫn
Trang 3NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: NGÔ DƯƠNG HÀ Phái: Nam
Sinh ngày tháng năm: 30/05/1982 Nơi sinh: Đồng Nai Chuyên ngành: Khoa học máy tính MSHV: 00706126
I TÊN ĐỀ TÀI:
MỞ RỘNG CÂU TRUY VẤN THÔNG TIN TRONG TIẾNG VIỆT TRÊN CƠ
SỞ ONTOLOGY
II NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu các phương pháp mở rộng truy vấn
- Tìm hiểu các công cụ, công nghệ hỗ trợ
- Tìm hiểu các Ontology hỗ trợ ngữ nghĩa cho mở rộng truy vấn Từ đó xác định phương pháp mở rộng truy vấn thông tin trong tiếng Việt trên cơ sở Ontology
- Xây dựng mô hình mở rộng truy vấn và thực nghiệm minh chứng cho mô hình
đề xuất
III NGÀY GIAO NHIỆM VU: 22/06/2009
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 18/09/2010
V CÁN BỘ HƯỚNG DẪN: PGS.TS Phan Thị Tươi
CÁN BỘ HƯỚNG DẪN
PGS TS Phan Thị Tươi
CN BỘ MÔN
QL CHUYÊN NGÀNH
Trang 4Chân thành cảm ơn Quý thầy cô phòng Sau Đại học đã nhiệt tình tổ chức, theo dõi, động viên và tạo điều kiện để chương trình đào tạo Cao học kết thúc tốt đẹp
Cảm ơn tất cả bạn bè và đồng nghiệp đã giúp đỡ trong công việc, cũng như động viên về mặt tinh thần để luận văn này được hoàn thành
Xin tỏ lòng biết ơn sâu sắc những lời động viên và khuyến khích nhiệt tình của gia đình để con đạt được những thành quả như hôm nay
Cuối cùng xin được cảm ơn tất cả Quý thầy cô của trường Đại Học Bách Khoa TP.Hồ Chí Minh, những người ít nhiều đã bỏ công sức để truyền đạt kiến thức cho tôi trong suốt quá trình học Cao học
Vì thời gian có hạn và kiến thức còn hạn chế, nên chắc chắn luận văn không thể tránh khỏi những thiếu sót, rất mong nhận được sự đóng góp ý kiến quý báu của Quý thầy cô và các bạn
Tác giả Ngô Dương Hà
Trang 5TÓM TẮT
Nhu cầu tìm kiếm thông tin bằng tiếng Việt trên mạng ngày càng cấp thiết và phổ biến cả trong và ngoài nước Sự phong phú và đa nghĩa của tiếng Việt cùng với khối lượng thông tin trên internet ngày càng lớn, điều đó đã gây khó khăn cho việc đáp ứng đầy đủ các yêu cầu như mong muốn của người dùng khi truy cập thông tin trên internet bằng tiếng Việt Vì vậy, việc xây dựng hệ thống xử lý nhập nhằng về ngữ nghĩa bằng phương pháp mở rộng câu truy vấn theo hướng ngữ nghĩa là vấn đề thiết yếu hiện nay Mô hình mở rộng truy vấn kết hợp dùng Ontology và giải thuật Gloss Overlap sẽ giúp cho việc đánh giá trọng số cho các quan hệ trong mạng ngữ nghĩa nhằm tăng độ chính xác cho các từ khóa mở rộng Kết quả thực nghiệm cho thấy, mô hình mở rộng có tính chính xác tỉ lệ thuận với từ khóa truy vấn, nghĩa là câu truy vấn càng có nhiều từ khóa thì mô hình mở rộng có tính chính xác càng cao
Trang 6ABSTRACT
Needs for Vietnamese-language information over the internet is becoming more and more urgent and common, both at home and abroad The abundant and multi-meaning Vietnamese language and increasingly huge amounts of information hinder total satisfaction of customers’ demands and their access to the internet using Vietnamese That is why replacing a processing system with confusing semantics by semantics-oriented query expansion is very necessary The query expansion model combining Ontology and Gloss Overlap will help evaluate weight bits of relations of semantic network to improve precision for expanded words Experimental results showed that expansion model had precision proportional to query words, meaning that the more words queries included, the more precise expansion models were
Trang 7MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1
1.1 Mở rộng truy vấn 1
1.2 Mức độ chính xác và ưu điểm của câu truy vấn mở rộng 2
1.3 Mục tiêu và giới hạn của đề tài 3
1.4 Tóm lược những kết quả đạt được 5
1.5 Cấu trúc của luận văn 6
CHƯƠNG 2: NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 7
2.1 Các công trình liên quan tới kỹ thuật phân tích thống kê 7
2.1.1 Công trình nghiên cứu của Hang Cui, Ji-Rong Wen, Jian-Yun Nie, Wei-Ying Ma (2002) 7
2.1.2 Công trình nghiên cứu của Mandar Mitra và Chris Buckley (1998) 8
2.2 Các công trình liên quan tới kỹ thuật mở rộng truy vấn sử dụng Ontology 9
2.2.1 Công trình nghiên cứu của Revuri, Upadhyaya và Kumar (2006) 9
2.2.2 Công trình nghiên cứu của Navigli và Velardi (2003) 10
2.2.3 Công trình nghiên cứu của Banerjee và Pedersen (2003) 13
2.2.4 Công trình nghiên cứu của Nguyễn Chánh Thành và Phan Thị Tươi(2007) 14
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT VỀ MỞ RỘNG TRUY VẤN 18
3.1 Phương pháp mở rộng truy vấn với mô hình tri thức 18
3.1.1 Ontology 18
3.1.2 Wordnet 20
3.2 Phương pháp mở rộng truy vấn độc lập với mô hình tri thức 23
3.2.1 Phương pháp thông tin phản hồi liên quan (relevance feedback) 23
3.2.2 Phương pháp thông tin phản hồi liên quan giả lập (Pseudo relevance feedback)23 3.2.3 Phương pháp thông tin phản hồi liên quan gián tiếp (Indirect relevance feedback) 24
Trang 83.2.4 Phương pháp lưu trữ truy vấn (Query Log) 25
3.3 Phương pháp mở rộng truy vấn dựa trên phân tích thống kê 26
3.3.1 Phương pháp phân tích toàn cục 26
3.3.2 Phương pháp phân tích cục bộ 26
3.3.3 Phương pháp phân tích ngữ cảnh cục bộ (local context analysis) 27
3.4 Phương pháp xác định độ đo ngữ nghĩa tương tự trên Ontology 27
3.4.1 Phương pháp Structural 28
3.4.2 Phương pháp Gloss overlap 29
3.5 Vấn đề nhập nhằng nghĩa 30
3.5.1 Nhập nhằng nghĩa 30
3.5.2 Một số hiện tượng nhập nhằng 30
3.5.2.1 Nhập nhằng ranh giới từ 30
3.5.2.2 Nhập nhằng từ đa nghĩa 30
3.5.2.3 Nhập nhằng từ loại 31
CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT MỞ RỘNG TRUY VẤN CỦA LUẬN VĂN32 4.1 Hướng giải quyết vấn đề 32
4.2 Kiến trúc hệ thống 33
4.3 Hoạt động của hệ thống 34
4.3.1 Xác định giới hạn cụm danh từ cho luận văn 36
4.3.2 Gán nhãn từ loại và rút trích danh từ, cụm danh từ 37
4.3.3 Xây dựng Ontology 38
4.3.4 Giải thuật mạng ngữ nghĩa tìm kiếm các từ khóa dự tuyển 39
4.3.4.1 Vấn đề xử lý nhập nhằng 39
4.3.4.2 Xây dựng mạng ngữ nghĩa dựa vào nhóm tác giả Navigli 40
4.3.4.3 Giải thuật tạo mạng ngữ nghĩa của các từ khóa 41
4.3.5 Giải thuật Gloss Overlap 44
4.3.5.1 Giải thuật Gloss Overlap 44
Trang 94.3.5.2 Đề xuất hướng giải quyết trong phương pháp Gloss Overlap 46
4.3.5.3 Phương pháp đánh trọng số cho khóa dự tuyển 47
4.3.6 Lựa chọn từ khóa mở rộng 50
4.4 Kết luận 51
CHƯƠNG 5: TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ 52
5.1 Triển khai hệ thống 52
5.2 Hình ảnh về chương trình 52
5.3 Đánh giá kết quả 53
5.3.1 Tiêu chí đánh giá 53
5.3.2 Xây dựng Ontology 54
5.3.3 Thực nghiệm 54
5.3.3.1 Thực nghiệm với phương pháp Gloss Overlap của nhóm tác giả Banerjee 54
5.3.3.2 Thực nghiệm với quá trình thu giảm việc tính toán quan hệ họ hàng giữa 2 khái niệm 55
5.3.3.3 Thực nghiệm với đề xuất hướng giải quyết trong phương pháp Gloss Overlap56 5.3.3.4 Thực nghiệm câu truy vấn ban đầu 57
5.3.3.5 Nhận xét 58
CHƯƠNG 6: TỔNG KẾT 59
6.1 Những đóng góp của luận văn 59
6.2 Hạn chế của luận văn 60
6.3 Hướng phát triển 60
PHỤ LỤC 62
A Lucene 62
DANH MỤC TÀI LIỆU THAM KHẢO 64
LÝ LỊCH TRÍCH NGANG 68
Trang 10DANH SÁCH CÁC BẢNG
Bảng 2.1:So sánh độ chính xác trung bình đạt được bởi mở rộng truy vấn với cụm và
không cụm 8
Bảng 2.2: Kết quả các phương pháp 14
Bảng 2.3: Tóm tắt kết quả huấn luyện ontology 15
Bảng 5.1: Kết quả thực nghiệm mở rộng truy vấn của nhóm tác giả Banerjee 55
Bảng 5.2: Kết quả thực nghiệm mở rộng truy vấn trong quá trình thu giảm việc tính toán quan hệ họ hàng 55
Bảng 5.3: Kết quả thực nghiệm mở rộng truy vấn của luận văn 56
Bảng 5.4: Kết quả thực nghiệm đánh giá câu truy vấn ban đầu 57
Trang 11DANH SÁCH HÌNH VẼ
Hình 2.1: Biểu đồ giữa câu truy vấn và độ hồi quy 10
Hình 2.2: Biểu đồ giữa câu truy vấn và độ chính xác 10
Hình 2.3: Mạng ngữ nghĩa cho từ khóa “bus” trong ngữ cảnh 1 11
Hình 2.4: Ví dụ mô hình mạng giao ngữ nghĩa của từ khóa mountain#1 và top#3 12
Hình 2.5: 1 ví dụ về object, member, property 15
Hình 3.1: Phân loại ontology 20
Hình 3.2: Sự phân loại đơn giản quan hệ trong WordNet 29
Hình 3.3: Mạng ngữ nghĩa của 2 khái niệm mountain#1 và top#3 29
Hình 4.1: Mô hình hệ thống truy vấn của luận văn 34
Hình 4.2: Mô hình mở rộng truy vấn 35
Hình 4.3: Cấu trúc ontology 39
Hình 4.4: Mạng ngữ nghĩa của từ khóa “ram” 40
Hình 4.5: Danh sách từ khóa dự tuyển của câu truy vấn “bộ nhớ ram” 42
Hình 4.6: Mạng ngữ nghĩa của 2 khái niệm “bộ nhớ” và ”ram” 45
Hình 5.1: Kho cơ sở dữ liệu 52
Hình 5.2: Trang giao diện tìm kiếm 53
Hình 5.3: Đồ thị biểu diễn độ chính xác và độ hồi qui theo số từ khóa mở rộng của nhóm tác giả Banerjee 55
Trang 12Hình 5.4: Đồ thị biểu diễn độ chính xác và độ hồi qui theo số từ khóa mở rộng trong
quá trình thu giảm việc tính toán quan hệ họ hàng 56
Hình 5.5: Đồ thị biểu diễn độ chính xác và độ hồi qui theo số từ khóa mở rộng của
luận văn 57
Hình 5.6: Đồ thị biểu diễn độ chính xác và độ hồi qui theo câu truy vấn ban đầu 58 Hình PL.1: Mô hình tạo chỉ mục 62
Trang 13
CHƯƠNG 1
GIỚI THIỆU ĐỀ TÀI
Hiện nay, cùng với sự phát triển mạnh mẽ của World Wide Web, Internet đã trở thành nguồn tài nguyên thông tin khổng lồ cho nhân loại Nguồn tài nguyên này
có thể được mở rộng và chia sẻ đến bất cứ nơi nào trên thế giới Vấn đề đặt ra là làm thế nào khai thác các thông tin này một cách hiệu quả phục vụ nhu cầu của con người
Các hệ thống truy hồi thông tin (Information Retrieval), rút trích thông tin (Information Extraction), tóm tắt văn bản (Text Summarization), … đã được phát triển nhằm khai thác một cách tự động các nguồn thông tin trên Internet Trong phần nghiên cứu của luận văn, sẽ tập trung vào sử dụng Ontology cho mở rộng truy vấn Bài toán mở rộng truy vấn hướng đến việc bổ sung từ hoặc cụm từ mới vào câu truy vấn nguyên thủy nhưng vẫn đảm bảo tính chính xác về ngữ nghĩa Xét ví dụ: câu truy vấn sau “bộ nhớ ram”, kết quả mở rộng câu truy vấn “bộ nhớ ram” gồm:
“bộ nhớ chính”, “bộ nhớ DDR”, “bộ nhớ DDR2”
1.1 Mở rộng truy vấn
Mục tiêu chính cho mở rộng truy vấn là cải thiện kết quả truy vấn bằng việc truy hồi nhiều tài liệu liên quan Một trong những cách giải quyết vấn đề là mở rộng câu truy vấn ban đầu của người sử dụng, bổ sung thêm các từ khóa mới có liên quan ngữ nghĩa với từ khóa ban đầu Để xử lý bổ sung thêm các từ khóa mới vào câu truy vấn ban đầu có các phương án giải quyết sau: thực hiện thủ công, tự động hoặc bán
tự động Mở rộng truy vấn bằng phương pháp thủ công dựa trên kinh nghiệm người dùng quyết định chọn từ khóa mới cho câu truy vấn ban đầu Trong trường hợp mở rộng truy vấn tự động, phụ thuộc vào tính toán các trọng số cho tất cả các từ khóa
và các từ khóa có trọng số cao sẽ được thêm vào cùng với câu truy vấn ban đầu Với
Trang 14phương pháp bán tự động, hệ thống phát sinh các từ khóa mở rộng có khả năng chấp nhận được và người sử dụng chọn lựa chúng
Phần nghiên cứu này, luận văn thực hiện mở rộng truy vấn dựa trên phương pháp tự động Mục đích của hướng phát triển nhằm đem lại kết quả tốt hơn, cải thiện chất lượng và độ tin cậy của hệ thống, đem lại kết quả phù hợp với ngữ cảnh tìm kiếm của người sử dụng Các hướng tiếp cận giải quyết bài toán dựa trên phương pháp thống kê, theo nghiên cứu [12] của tác giả Bhogal khó khăn lớn của phương pháp này là dựa trên việc chọn kích thước tập tài liệu hợp lý để từ đó đưa ra tập từ khóa mở rộng, vì chỉ cần tỉ lệ tài liệu không phù hợp càng nhiều thì phương pháp mở rộng trên càng có độ chính xác kém Còn phương pháp mở rộng truy vấn dựa trên Ontology sẽ cung cấp cách biểu diễn thông tin phù hợp cho việc giao tiếp tường minh tới kho ngữ liệu mà không cần phải chọn kích thước tập tài liệu hợp lý
Vì vậy, mở rộng truy vấn dựa trên Ontology là một trong những điểm mạnh của hệ thống truy xuất thông tin Đây cũng chính là hướng tiếp cận của luận văn, mở rộng truy vấn dùng Ontology
1.2 Mức độ chính xác và ưu điểm của câu truy vấn mở rộng
Bài toán mở rộng truy vấn tập trung vào tính hiệu quả của việc mở rộng câu truy vấn ban đầu Tuy nhiên, trong từng tình huống ngữ cảnh truy vấn và lĩnh vực truy vấn, việc mở rộng không phải lúc nào cũng mang lại hiệu quả Một số kỹ thuật khác nhau cho mở rộng truy vấn tự động đã được đề xuất trong những năm gần đây
Ontology dường như là một hướng đi đầy hứa hẹn cho mở rộng truy vấn Theo tác giả Roberto Navigli và Paola Velardi mở rộng truy vấn dựa trên ontology
đã đem lại hiệu quả rất cao, đạt độ chính xác trung bình tốt nhất là 26.83% Theo một bài báo [11] của tác giả Janez Brank, Marko Grobelnik và Dunja Mladenić họ thống kê một số các ứng dụng giá trị có sử dụng một số chức năng của Ontology, ví
dụ như MAEDCHE AND STAAB năm 2002, PORZEL & MALAKA năm 2004,
Phương pháp phân tích toàn cục để chọn lựa từ khóa mở rộng cho kết quả trung bình tương đối tốt cả về độ chính xác và độ hồi qui Tuy nhiên, phương pháp
Trang 15này cần phải tốn phí xây dựng kho dữ liệu lớn và tính toán rất lớn khi triển khai, cũng như phí bảo trì lớn, dẫn đến không phù hợp với thực tế
Phương pháp phân tích cục bộ là giải pháp thay thế và hiện thực hóa phương pháp toàn cục Phương pháp này phù hợp với các hệ thống tìm kiếm chuyên dụng như tìm kiếm trong một số lãnh vực chuyên môn nhất định
Mức độ chính xác của câu truy vấn phụ thuộc vào số lượng từ khóa mở rộng thêm vào câu truy vấn ban đầu Số lượng từ khóa thêm vào càng ít thì độ chính xác càng cao nhưng đồng thời độ hồi qui lại giảm và ngược lại Việc chọn lựa số từ khóa mở rộng là một trong những yếu tố quyết định đến chất lượng của hệ thống
mở rộng truy vấn
1.3 Mục tiêu và giới hạn của đề tài
Đề tài nhằm giải quyết bài toán mở rộng truy vấn cụ thể như sau:
Cho x là từ khóa ban đầu của người dùng nhập vào, R là tập tài liệu được truy hồi Tìm tất cả các tài liệu có liên quan nhất tới từ khóa x trong tập R
Bài toán trên có thể giải bằng cách biểu diễn toán học:
Bước 1: Tìm f(x)={qi / qi là từ khóa được chọn có liên quan nhất tới từ khóa
x, với i=1, ,n} Trong đó, n là số từ khóa cần mở rộng, f là phương pháp giải quyết bài toán mở rộng
Bước 2: Sau đó sử dụng hàm h để ánh xạ từ tập {qi} vào tập tài liệu R như sau: ri = h(qi) với i=1, ,n Trong đó h là bộ index, và ri ∈ R là kết quả nhận được sau khi thực hiện ánh xạ từ qi vào tập tài liệu
Bước 3: Vậy đặt r={ri với i=1, ,n}, r ⊂ R chính là tập tài liệu cần tìm mà
có liên quan nhất so với từ khóa x
Mục đích của đề tài:
Trang 16Tìm hiểu các phương pháp tổng quát mở rộng truy vấn trong tiếng Việt để đưa ra những kỹ thuật phù hợp, nâng cao hiệu quả mở rộng từ khóa khóa trong câu truy vấn ban đầu để tìm kiếm tài liệu có liên quan nhất so với từ khóa ban đầu
Mục đích cụ thể:
Giải pháp đưa ra phải đáp ứng được những yêu cầu cụ thể sau:
- Phương pháp thực hiện có độ chính xác cao khi làm việc trên câu truy vấn
- Thích hợp cho trường hợp trong câu truy vấn có nhiều từ khóa
Từ mục đích mô tả trên, chúng tôi đề xuất nghiên cứu theo hướng:
- Tìm hiểu các phương pháp mở rộng tập từ khóa bổ sung so với từ khóa ban đầu để chọn lựa một phương pháp phù hợp nhất với mục đích đề tài
đề ra
- Tìm hiểu những giải pháp nhằm nâng cao hiệu quả trong việc chọn ra tập
từ khóa mở rộng từ tập từ khóa bổ sung nhằm đưa ra phương pháp thích hợp nhất để giải quyết bài toán trên
Qua khảo sát chúng tôi đề nghị cụ thể phương pháp giải quyết bài toán trên như sau:
- Sử dụng mạng giao ngữ nghĩa [16] dựa trên Ontology với các quan hệ sau: quan hệ tương tự, quan hệ bao hàm, quan hệ IS A, quan hệ thượng danh, quan hệ hạ danh, quan hệ bộ phận, quan hệ toàn bộ, quan hệ chú giải, quan hệ hướng đối tượng để chọn lựa ngữ cảnh của câu truy vấn ban đầu
- Tiếp theo sử dụng mạng ngữ nghĩa của câu truy vấn [16] dựa trên Ontology với các quan hệ sau: quan hệ tương tự, quan hệ bao hàm, quan
hệ IS A, quan hệ thượng danh, quan hệ hạ danh, quan hệ bộ phận, quan
Trang 17hệ toàn bộ, quan hệ chú giải, quan hệ hướng đối tượng để chọn lựa tập từ khóa dự tuyển
- Sau đó áp dụng giải thuật Gloss Overlap do tác giả Banerjee và Pedersen (mục 2.2.2) để giải quyết bài toán mở rộng truy vấn trên các mối quan hệ sau: quan hệ tương tự, quan hệ bao hàm, quan hệ IS A, quan hệ thượng danh, quan hệ hạ danh, quan hệ bộ phận, quan hệ toàn bộ, quan hệ chú giải, quan hệ hướng đối tượng
- Đề nghị hướng cải thiện phương pháp Gloss Overlap của tác giả Banerjee
và Pedersen để nâng cao hiệu quả trong việc mở rộng truy vấn thông tin trong tiếng Việt Sau đây là sự đề xuất cải thiện: thêm trọng số tỉ lệ cho việc tính toán mối quan hệ gần gũi giữa hai khái niệm
1.4 Tóm lược những kết quả đạt được
Với những yêu cầu của đề tài, sau thời gian nghiên cứu và hiện thực, luận văn đã xây dựng một hệ thống tổng quát cho bài toán mở rộng câu truy vấn thông tin trong tiếng Việt trên cơ sở Ontology Trong giới hạn thời gian hiện thực, chúng tôi chỉ hiện thực hai môđun chính trong hệ thống, bao gồm môđun xây dựng mô hình mở rộng truy vấn dựa vào Ontology, môđun áp dụng giải thuật Gloss Overlap nhằm chọn lựa từ khóa bổ sung
- Trong môđun thứ nhất, chúng tôi xây dựng Ontology với các quan hệ giữa các khái niệm hay giữa các từ vựng, bao gồm: quan hệ tương tự, quan hệ bao hàm, quan hệ IS A, quan hệ thượng danh, quan hệ hạ danh, quan hệ bộ phận, quan hệ toàn bộ, quan hệ chú giải, quan hệ hướng đối tượng Từ đó, chúng tôi xác định được ngữ cảnh của câu truy vấn cũng như đưa ra những từ khóa dự tuyển
- Trong môđun thứ hai, thực thi quá trình xây dựng trọng số quan hệ ngữ nghĩa để chọn lọc được từ khóa bổ sung từ những từ khóa dự tuyển Trong môđun này hệ thống sẽ áp dụng giải thuật Gloss Overlap
Trang 18Như vậy, hệ thống đề xuất sẽ được trình bày chi tiết ở những chương sau đã đáp ứng những yêu cầu và nhiệm vụ của đề tài
1.5 Cấu trúc của luận văn
Tổ chức của phần còn lại của luận văn theo cấu trúc sau đây:
Chương 2 Trình bày những công trình nghiên cứu liên quan đến đề tài Đây
là những công trình nghiên cứu liên quan trực tiếp đến hướng giải quyết vấn đề của luận văn Chương này bao gồm hướng nghiên cứu và các phân tích, đánh giá kết quả thực nghiệm
Chương 3 Trình bày cơ sở lý thuyết về mở rộng truy vấn Các khái niệm,
định nghĩa, giả thuyết và giải thuật liên quan đến luận văn
Chương 4 Trình bày mô hình mở rộng truy vấn Trình bày mô hình, thuật
toán, phương pháp hiện thực luận văn
Chương 5 Trình bày triển khai hệ thống và đánh giá kết quả
Chương 6 Trình bày tổng kết và đánh giá Một số kết luận sau khi thực hiện
đề tài và hướng nghiên cứu tiếp theo trong thời gian tới
Trang 19CHƯƠNG 2
NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Theo bài báo của nhóm tác giả (Shu Huang, Qiankun Zhao, Prasenjit Mitra,
và C Lee Giles, 2008) các kỹ thuật mở rộng truy vấn có thể được phân thành ba nhóm: mở rộng truy vấn dựa vào tài liệu, mở rộng truy vấn dựa vào từ (term), mở rộng truy vấn dựa vào khái niệm Trong cách tiếp cận mở rộng truy vấn dựa vào tài liệu, các từ khóa được chọn từ tài liệu liên quan tới việc mở rộng từ khóa truy vấn tương ứng Trong cách tiếp cận mở rộng truy vấn dựa vào từ, các từ khóa đồng nghĩa được chọn căn cứ vào từ điển, kho văn bản Trong cách tiếp cận mở rộng truy vấn dựa vào khái niệm, tất cả các khái niệm có thể được đề nghị và người dùng có thể tác động tới chọn lựa khái niệm liên quan
Với các hướng nghiên cứu trên, chúng ta sẽ xem xét những công trình liên quan Đối với mỗi phương pháp sẽ có những ưu, nhược điểm khác nhau, cũng như
có những khía cạnh ứng dụng khác nhau phụ thuộc rất nhiều vào loại dữ liệu cũng như loại ứng dụng cần xây dựng
2.1 Các công trình liên quan tới kỹ thuật phân tích thống kê
2.1.1 Công trình nghiên cứu của Hang Cui, Ji-Rong Wen, Jian-Yun Nie,
Wei-Ying Ma (2005)
Năm 2002 Hang Cui, Ji-Rong Wen, Jian-Yun Nie và Wei-Ying Ma [10] đưa
ra phương pháp giải quyết bài toán mở rộng truy vấn dựa trên phương pháp sử dụng Log, nghĩa là nghiên cứu về việc sử dụng lại các thông tin tương tác của người dùng
và bộ máy tìm kiếm để hỗ trợ mở rộng tìm kiếm Phương pháp này tuy có ưu điểm
là kho dữ liệu dùng để tính toán thống kê được xác định trước Tuy nhiên, độ chính xác của phương pháp tìm kiếm mở rộng này thay đổi theo thời gian, nghĩa là thay đổi theo xu hướng của sự quan tâm của người sử dụng
Trang 20Bảng 2.1:So sánh độ chính xác trung bình đạt được bởi
mở rộng truy vấn
Phương pháp này mang lại sự cải tiến trung bình 11.37%
2.1.2 Công trình nghiên cứu của Mandar Mitra và Chris Buckley (1998)
Công trình nghiêu cứu cải tiến mở rộng truy vấn dựa trên phương pháp phân tích cục bộ [3.3.2] Với phương pháp phân tích thống kê cục bộ, câu truy vấn được
mở rộng bằng cách thêm mới các từ khóa dựa vào một số điều kiện như tần suất xuất hiện trong các tài liệu phản hồi Hạn chế của cách mở rộng này là không có độ chính xác ổn định nên thường mắc lỗi về ngữ cảnh tìm kiếm Nguyên nhân là do trong N tài liệu được xem là phù hợp dùng để xác định khóa mở rộng, có một số tài liệu không như mong muốn của người dùng Tỉ lệ số tài liệu này càng nhiều, phương pháp mở rộng trên càng có độ chính xác kém Nhóm tác giả đề xuất cải tiến phương pháp, với mục tiêu làm giảm tối đa tài liệu không phù hợp để hỗ trợ thông
kê tìm kiếm từ khóa mở rộng Ý tưởng phương pháp như sau:
- Để K tài liệu tốt nhất trong quá trình phản hồi của phương pháp phân tích cục bộ làm cơ sở để chọn các khóa chỉ dẫn Chọn N tài liệu tốt nhất trong
Trang 21kết quả truy vấn ban đầu (N>K) dùng để phân loại, chọn lọc tài liệu phù hợp với câu truy vấn
- Trong N tài liệu được chọn, gán trọng số theo tiêu chí tần suất xuất hiện của các khóa chỉ dẫn
- Phân loại, sắp xếp và chọn K tài liệu tốt nhất
- Dùng phân tích thống kê để chọn ra khóa mở rộng từ K tài liệu chọn được
Phương pháp cải tiến này có độ chính xác trung bình tăng 22% so với phương pháp thống kê cục bộ và làm giảm đáng kể lỗi về ngữ cảnh trong quá trình
DL Ontology Tác giả đề xuất việc cải tiến mở rộng các suy diễn quan hệ giữa các
từ khóa thông qua việc thực hiện các mối quan hệ sau: SYNONYMY, IS-A, SIBLING-OF, DISJOINTNESS, EQUIVALENCE Ngoài ra tác giả còn thêm các ràng buộc allValuesForm, someValueFrom và hasValue để cải tiến quá trình tìm kiếm Ví dụ các từ khóa ràng buộc như “all”, “every”, “each”,…
Để xây dựng một Ontology chuyên dùng với miền tri thức “Data Structure and Algorithms” nên các từ khóa đưa vào được khoanh vùng chỉ có thể là khái niệm hoặc thuộc tính hoặc thể hiện (instance) Từ đó, tác giả đã phân câu truy vấn ban đầu thuộc một trong chín trường hợp [20] Với mỗi trường hợp, tác giả cũng đưa ra giải pháp cho việc tìm từ khóa mở rộng Kho lưu trữ được lưu trên text books, sử dụng cơ sở dữ liệu Oracle 9i như là một hệ thống tìm kiếm keyword Kết quả đạt được tăng trung bình 34% (hình 2.1) về độ hồi quy với kết quả mở rộng truy vấn và
Trang 22tăng trung bình 23% (hình 2.2) về tính chính xác với kết quả truy vấn không mở rộng
Hình 2.1: Biểu đồ giữa câu truy vấn và độ hồi quy
Hình 2.2: Biểu đồ giữa câu truy vấn và độ chính xác 2.2.2 Công trình nghiên cứu của Navigli và Velardi (2003)
Năm 2003 Navigli và Velardi đưa ra phương pháp giải quyết nhập nhằng ngữ nghĩa cho câu truy vấn người dùng Theo 3 bước sau:
- Tạo mạng ngữ nghĩa cho mỗi ngữ cảnh
- Áp dụng giải thuật mạng giao ngữ nghĩa
- Tìm ngữ cảnh đúng của câu truy vấn ban đầu
Đầu tiên, tạo mạng ngữ nghĩa cho khái niệm [16] Cụ thể, tác giả trình bày như sau:
Trang 23Trong đó,
S(wk) là tập các nghĩa của khái niệm wk
là nghĩa thứ j của khái niệm wk
là tập các khái niệm có các mối quan hệ được định nghĩa trong wordNet với từ khóa wk trong ontology
Q là câu truy vấn
Ví dụ mạng ngữ nghĩa của khái niệm “bus”:
Hình 2.3: Mạng ngữ nghĩa [16] cho khái niệm “bus” trong ngữ cảnh 1
Sau đó, tác giả giải quyết nhập nhằng ngữ nghĩa của câu truy vấn ban đầu, dựa vào thông tin mạng ngữ nghĩa của mỗi từ khóa với kỹ thuật mạng giao ngữ nghĩa nhằm khử nhập nhằng nghĩa để chọn được nghĩa tốt cho câu truy vấn Theo phương pháp sau:
Trong đó,
W
Set ordNet(wk)
Sk j
Trang 24Cx là nghĩa của câu truy vấn x được tính như sau:
với là nghĩa thứ xi của từ khóa thứ i trong câu truy vấn Q, với xi là thứ tự nghĩa của từ khóa wk
SN(S’) là mạng ngữ nghĩa của khái niệm S’
Ví dụ mô hình mạng giao ngữ nghĩa của từ khóa mountain#1 và top#3:
Hình 2.4: Ví dụ mô hình mạng giao ngữ nghĩa [16] của
từ khóa mountain#1 và top#3 Trong hình 2.4 là mạng giao ngữ nghĩa giữa ngữ cảnh 1 của mountain và ngữ cảnh 3 top Kết quả mạng giao khái niệm mountain và khái niệm top là tập khái niệm {location#1, hill#1}
Cuối cùng, giải thuật chọn ra nghĩa có score cao nhất làm nghĩa của câu truy vấn ban đầu Kết quả đánh giá giải thuật trên của tác giả là 90% Đây là 1 kết quả tương đối tốt
i
i x
S
Trang 252.2.3 Công trình nghiên cứu của Banerjee và Pedersen (2003)
Công trình này [2] đề xuất mở rộng giải thuật Gloss Overlap của tác giả Lesk (1986) Nghĩa là thay vì xác định số lượng các từ chung giữa những chú giải của các khái niệm, thì phương pháp này đề xuất thêm việc xác định số lượng các từ chung giữa những mối quan hệ lẫn nhau Ví dụ cho một tập các quan hệ RELS={gloss, hype, hypo}, từ đó sẽ chọn ra tập các cặp quan hệ RELPAIRS = {(gloss,gloss), (hype,hype), (hypo,hypo), (hype,gloss), (gloss,hype)}
Quan hệ gần gũi giữa hai khái niệm A, B được tính như sau:
A và B là các khái niệm với mối liên quan đang được đo lường
Score(R1(A),R2(B)) là số từ chung giữa 2 tập R1(A) và tập R2(B) R(X) là tập khái niệm có quan hệ R với khái niệm A
Relatedness(A,B) là mức độ gần gũi giữa 2 khái niệm A, B
RELPAIRS là tâp các cặp quan hệ wordNet được mô tả như sau:
Với, RELS là tập quan hệ wordNet
RELPAIRS là tâp các cặp quan hệ wordNet
Một cách trình bày khác cho cách tính quan hệ gần gũi giữa hai khái niệm A,
Trang 26Ri là quan hệ thứ i trong Ontology
Ri (X) là tập khái niệm có quan hệ Ri với khái niệm X
Relatedness(A,B) là mức độ gần gũi giữa 2 khái niệm A, B
Như vậy theo phương pháp này sẽ mở rộng được tối đa n2 các cặp mối quan
hệ lẫn nhau với n là số quan hệ được chọn ban đầu
hệ tương đồng chẳng hạn thì với phương pháp trên không thể hiện được
2.2.4 Công trình nghiên cứu của Nguyễn Chánh Thành và Phan Thị Tươi
(2007)
Trong bài báo [30], tác giả đưa ra phương pháp mở rộng truy vấn dựa vào ontology với việc xây dựng quan hệ mới giữa các từ khóa Quan hệ mà tác giả đề cập ở đây là quan hệ hướng đối tượng (object-oriented) Tác giả đề nghị xây dựng quan hệ hướng đối tượng với các đối tượng sau đối tượng, khóa thành viên, và khóa thuộc tính được trình bày trong hình vẽ sau:
Trang 27Hình 2.5: 1 ví dụ về đối tượng, thành viên, thuộc tính
Ngoài ra, tác giả còn đưa ra định nghĩa về mối quan hệ giữa thành viên và đối tượng, mối quan hệ giữa thuộc tính và thành viên Cụ thể như sau:
Quan hệ khóa thành viên của một đối tượng:
mj là khóa thành viên của đối tượng oi nếu:
- mj phụ thuộcvào oi hoặc mj là thành viên của oi
- mj có thể đại diện cho oi Quan hệ khóa thuộc tính của khóa thành viên:
Pk là khóa thuộc tính của khóa thành viên mj nếu:
- mj là khóa thành viên của một đối tượng xác định
- pk phụ thuộc vào mj hoặc pk là thuộc tính của mj Trong bài báo này, nhóm tác giả tập trung vào phương pháp xây dựng ontology và huấn luyện onlology Bảng kết quả ( bảng 2.3)đánh giá huấn luyện:
Bảng 2.3: Tóm tắt kết quả huấn luyện ontology
Trang 28Với bài toán trên cần quan tâm tới 3 vấn đề lớn sau: chất lượng dữ liệu huấn luyện ontology, sự khác biệt khi áp dụng phương pháp này lên ngôn ngữ khác, và
sự đầy đủ của tập huấn luyện mẫu
Dựa trên những vấn đề trên tác giả đưa ra những đánh giá như sau: chuẩn bị kho dữ liệu nhiều không chỉ hỗ trợ cho xử lý huấn luyện mà còn cho thử nghiệm; tác giả chỉ áp dụng bài toán này trên ngôn ngữ tiếng Anh
Đây là một trong những mối quan hệ mới được xây dựng dựa trên ontology bằng tiếng Anh Đây cũng là mối quan hệ được áp dụng trong luận văn
Trang 29Qua khảo sát, phân tích và đánh giá ở trên và dựa vào mục tiêu của đề tài, phương pháp mở rộng truy vấn dựa trên Ontology sẽ cung cấp cách biểu diễn thông tin phù hợp cho việc giao tiếp tường minh tới kho ngữ liệu mà không cần phải chọn kích thước tập tài liệu hợp lý Vì vậy, tác giả xác định việc
mở rộng truy vấn dựa trên Ontology với việc áp dụng mạng ngữ nghĩa và giải thuật Gloss Overlap cách phù hợp để giải bài toán mà đề tài đặt ra
Trang 30CHƯƠNG 3
CƠ SỞ LÝ THUYẾT VỀ MỞ RỘNG TRUY VẤN
3.1 Phương pháp mở rộng truy vấn với mô hình tri thức
Đây là kỹ thuật mở rộng, sửa đổi các từ truy vấn độc lập với kết quả trả về của câu truy vấn ban đầu Phương pháp này thường sử dụng một mô hình tri thức được xây dựng sẵn có hỗ trợ mở rộng từ khóa
3.1.1 Ontology
Có nhiều định nghĩa khác nhau về Ontology Theo Gruber (1993) [7]: “một
Ontology là một sự mô tả một cách hình thức và rõ ràng về các khái niệm” Định
nghĩa trên của Gruber nói chung là khá tổng quát, tuy nhiên Ontology còn có thể được định nghĩa trong những ngữ cảnh cụ thể hơn Theo Swartout B., Patil R., Knight K., Russ T., 1996, các thuật ngữ giữ vai trò quan trọng trong Ontology :
“một Ontology là một tập hợp có cấu trúc phân cấp các thuật ngữ dùng để mô tả
một lĩnh vực nào đó và có thể được dùng như một bộ khung cho một cơ sở tri thức”
Từ các định nghĩa trên, có thể nhận thấy một số đặc điểm cơ bản của Ontology (Nieto, 2003) [18]:
- Ontology được dùng để mô tả một lĩnh vực cụ thể
- Các thuật ngữ và quan hệ giữa chúng được định nghĩa rõ ràng trong lĩnh vực đó
- Các thuật ngữ được tổ chức theo một cơ chế nào đó (thông thường, cấu trúc phân cấp với các quan hệ IS_A và HAS_A được sử dụng)
- Cần có sự đồng thuận giữa những người sử dụng Ontology theo đó ngữ nghĩa của các thuật ngữ được sử dụng một cách nhất quán
Trang 31Các chức năng chính của Ontology:
Ứng dụng của Ontology trong thực tế là rất rộng lớn, bao gồm nhiều lĩnh vực như biểu diễn tri thức, xử lý ngôn ngữ tự nhiên, rút trích thông tin, quản lý tri thức,
thư viện điện tử, hệ thống thông tin địa lý,… Tác giả (Nieto, 2003) đã liệt kê một số
chức năng chính của Ontology
- Ontology cung cấp những thông tin mô tả ngữ nghĩa của dữ liệu Thông qua Ontology, tri thức có thể được chia sẻ và tái sử dụng, con người có thể giao tiếp được với máy tính Máy tính có thể hiểu các quan hệ ngữ nghĩa trong Ontology, theo nghĩa là thông qua các khái niệm mô tả các thực thể và các mối quan hệ giữa chúng, Ontology có thể trả lời các câu hỏi về các chủ đề trong miền dữ liệu của chúng
- Ontology cũng có thể được dùng để xây dựng cơ sở tri thức Một cơ sở tri thức gồm có nền tảng là một Ontology cộng với tập các đối tượng, thực thể của các lớp Người sử dụng có thể truy vấn, chia sẻ, và làm giàu thêm
cơ sở tri thức
- Ontology còn được dùng để tổ chức và phân loại thông tin Dựa trên Ontology, người dùng có thể xây dựng các công cụ để phân loại, thu thập tri thức
- Một ứng dụng khác của Ontology là việc hợp nhất ngữ nghĩa giữa những tài nguyên thông tin khác biệt nhau Dựa trên ngữ nghĩa thống nhất của một Ontology, các tri thức giống nhau nhưng ở những dạng khác nhau có thể được tích hợp và chia sẻ một cách dễ dàng
- Trong các ứng dụng rút trích thông tin, Ontology được sử dụng để phân giải nhập nhằng ngữ nghĩa các câu truy vấn, mở rộng hoặc thu hẹp các khái niệm truy vấn để đưa ra những kết quả truy vấn tốt hơn
Theo [7], Ontology được phân loại theo mức độ tổng quát đối với miền dữ liệu, cụ thể như hình:
Trang 32Hình 3.1: Phân loại ontology Top-level Ontology : đặc tả các khái niệm tổng quát, độc lập với tri thức
trong các lĩnh vực cụ thể, ví dụ như không gian, thời gian, sự kiện, hành động,…
Domain Ontology và Task Ontology : mô tả những khái niệm, tri thức tổng
quát trong những lĩnh vực cụ thể (thuốc, ô tô, …) hay trong những hoạt động, nhiệm vụ cụ thể (chẩn đoán, bán hàng, …) Các Ontology này được xây dựng bằng
cách chuyên biệt hoá các khái niệm trong top-level Ontology
Application Ontology : mô tả những khái niệm kế thừa từ domain-Ontology
lận task-Ontology Nó thường tương ứng với vai trò của các thực thể trong miền ứng dụng khi thực thi các hoạt động cụ thể.Ví dụ như “thành phần dự trữ”, “các đơn
vị thay thế được”,
3.1.2 Wordnet
WordNet là hệ thống tham khảo từ vựng trực tuyến, được George A Miller
và các đồng nghiệp phát triển WordNet được xây dựng dựa trên lý thuyết về ngôn ngữ tâm lý học, nghĩa là dựa trên cách thức tổ chức, ghi nhớ tri thức của bộ não con người để có thể mô phỏng và tổ chức tri thức
Từ vựng trong WordNet gồm có danh từ, động từ, tính từ, trạng từ là các từ loại chiếm số lượng lớn trong tiếng Anh và chủ yếu tập trung vào miền tri thức ngôn ngữ Các thực thể như tên riêng, địa danh, tổ chức, … hầu như không được đề
Trang 33cập trong WordNet Các thông tin mô tả thuộc tính của khái niệm, ví dụ như tên,
địa chỉ, giới tính, … của khái niệm nhân viên, cũng không được mô tả
Từ vựng trong WordNet được tổ chức thành các synset (tập các từ tương
đồng về ngữ nghĩa) Một từ mang nhiều nghĩa có thể thuộc về nhiều synset Như vậy, synset diễn tả một khái niệm biểu diễn nghĩa của các từ chứa trong nó trong một ngữ cảnh cụ thể
Quan hệ trong WordNet gồm có các quan hệ từ vựng (quan hệ giữa các word-form), và các quan hệ ngữ nghĩa (quan hệ giữa các word-meaning), hay quan
hệ giữa các khái niệm Các mối quan hệ ngữ nghĩa, do đó, là quan hệ giữa các synset Các mối quan hệ từ vựng và quan hệ ngữ nghĩa tạo thành mạng ngữ nghĩa liên kết các từ với nhau, như tên gọi của hệ thống Các mối quan hệ trong WordNet : synonymy (tính tương tự), antonymy (trái nghĩa), hyponymy (hạ danh), hypernymy (quan hệ thượng danh), meronymy (bộ phận), holonym (toàn bộ), gloss (quan hệ chú giải), morphological Relations, …
a Synonymy
Được hiểu là tính tương tự về ngữ nghĩa Nghĩa là hai khái niệm là tương đương về nghĩa trong một ngữ cảnh nếu sự thay thế của chúng trong cùng một ngữ cảnh không làm thay đổi giá trị đúng
Ví dụ: plank và board chỉ là tương đương trong ngữ cảnh nghề mộc
b Antonymy
Antonymy xác định mối quan hệ trái nghĩa của hai từ trong Wordnet Antonym của một từ x đôi lúc là not x nhưng không phải luôn đúng Ví dụ rich và poor là antonymy
Các nghĩa {rise, ascend} và {fall, descend} là khái niệm trái ngược nhưng không phải là antonymy Còn {rise/fall} và {ascend/descend} là antonymy Như vậy antonymy là một quan hệ từ vựng, không phải là quan hệ ngữ nghĩa
c Hyponymy
Trang 34Không giống như synomy và antonymy, các quan hệ từ vựng trong Wordnet, hyponymy/hypernymy là quan hệ về ngữ nghĩa giữa các khái niệm, trong đó nghĩa của khái niệm này bao hàm nghĩa của khái niệm kia
Ví dụ: {maple} là hyponym của {tree} và {tree} là hyponym của {plant} Hyponymy/hypernymy có thể xem là quan hệ subordination/superordination, subset/superset hay quan hệ IS A
Một khái niệm được biểu diễn bởi synset {x, x’, … } được gọi là hyponymy của {y, y’, … } nếu mệnh đề sau đây là đúng: x is a (kind of) y
Quan hệ Hyponymy là bắt cầu và bất đối xứng (Touretzky, 1986) Một hyponym thừa kế tất cả các nét của các khái niệm tổng quát hơn và thêm vào ít nhất một nét mới để phân biệt nó với superordinate của nó Quy định này cung cấp nguyên lý phân cấp cho việc xây dựng quan hệ danh từ trong Wordnet
d Meronymy
Quan hệ meronymy là mối quan hệ bộ phận – toàn thể giữa hai synset danh
từ Một cách hình thức hơn, ta có thể định nghĩa meronymy như sau: Sm được gọi
là một meronym của Sh nếu nghĩa của Sm là một phần nghĩa của Sh, và Sh được gọi là một holonym của Sm hay có mối quan hệ holonymy với Sm
Ví dụ : cánh chim {wing} là meronymy của con chim {bird}, và con chim là holonymy của cánh chim
Trang 35Cơ sở tri thức của WordNet hiện có khoảng 155000 từ trong khoảng 117000
synsets Mặc dù không phải là một Ontology đúng nghĩa xét trên góc độ phát triển
Ontology vì dư thừa và không nhất quán, nhưng WordNet là nguổn tài nguyên từ vựng có giá trị Hiện nay, Wordnet đã được sử dụng như một cơ sở tri thức trong rất nhiều nghiên cứu cũng như ứng dụng xử lý ngôn ngữ tự nhiên Các phiên bản của Wordnet cho các ngôn ngữ khác như Trung Quốc, Pháp, Đức, Ả Rập, … đã được xây dựng
3.2 Phương pháp mở rộng truy vấn độc lập với mô hình tri thức
Theo phương pháp mở rộng truy vấn này, câu truy vấn được điều chỉnh thông qua mối liên hệ với các tài liệu được trích rút, truy vấn từ câu truy vấn ban đầu Phương pháp này được phát triển dựa trên kỹ thuật phân tích thống kê từ thông tin phản hồi hoặc từ kho dữ liệu lưu trữ, …
Một số phương pháp cơ bản:
- Thông tin phản hồi liên quan (Relevance feedback)
- Thông tin phản hồi liên quan giả lập (Pseudo relevance feedback)
- Thông tin phản hồi liên quan gián tiếp (Indirect relevance feedback)
- Lưu trữ truy vấn (Query Log)
3.2.1 Phương pháp thông tin phản hồi liên quan (Relevance feedback)
Ý tưởng của phương pháp thông tin phản hồi liên quan là dựa vào thông tin phản hồi từ người sử dụng trong quy trình truy hồi thông tin để cải tiến kết quả cuối cùng
Các thủ tục cơ bản trong phương pháp thông tin phản hồi liên quan:
- Người sử dụng cung cấp truy vấn tìm kiếm Câu truy vấn thường đơn giản và ngắn
- Hệ thống trả về và kết quả truy vấn
Trang 36- Người sử dụng sẽ đánh dấu hoặc xác nhận kết quả nào là phù hợp hoặc không
- Hệ thống tính toán, xử lý thông tin phản hồi để mở rộng, bổ sung từ khóa vào câu truy vấn ban đầu
- Hiển thị kết quả với câu truy vấn sau khi đã được xử lý
Phương pháp thông tin phản hồi liên quan có thể thực hiện một hoặc nhiều lần chu trình trên Hiệu quả phương pháp thông tin phản hồi liên quan thay đổi tùy thuộc vào nhiều yếu tố như là việc cách đánh giá trọng số của các từ dùng để mở rộng , số lượng các tài liệu mong muốn (nhu cầu tìm kiếm của người dùng) trong danh sách các tài liệu được trả về từ câu truy vấn ban đầu cũng như phụ thuộc vào miền tìm kiếm
3.2.2 Phương pháp thông tin phản hồi liên quan giả lập (Pseudo relevance
feedback)
Phương pháp này được biết như là blind relevance feedback, cung cấp một phương thức cho quá trình tự động phân tích cục bộ Phương pháp này tự động thay thế một phần làm bằng tay của phương pháp thông tin phản hồi liên quan, với mục đích người dùng có được thực thi truy hồi cải tiến mà không phải có một tương tác
mở rộng
Các bước thực thi phương pháp thông tin phản hồi liên quan giả lập như sau:
- Đầu tiên truy hồi để tìm 1 tập khởi đầu tài liệu liên quan
- Sắp các tài liệu liên quan theo thứ tự Sau đó thì chọn k tài liệu đầu tiên
- Cuối cùng, làm như phương pháp thông tin phản hồi liên quan
3.2.3 Phương pháp thông tin phản hồi liên quan gián tiếp (Indirect relevance
feedback)
Phương pháp này thường được gọi với cái tên implicit relevance feedback Phương pháp này ít xác thực hơn, nhưng phương pháp này có mục đích thực tế hơn
Trang 37phương pháp thông tin phản hồi liên quan giả lập Vì nó không chứa dấu hiệu người dùng quyết định Phương pháp implicit feedback dễ dàng được chọn trong việc mở rộng số lượng tài nguyên hệ thống lớn như một động cơ tìm kiếm web
3.2.4 Phương pháp lưu trữ truy vấn (Query Log)
Phương pháp lưu trữ truy vấn [10] là phương pháp mở rộng dựa vào mối quan hệ giữa từ khóa truy vấn và các tài liệu được xem là phù hợp thông qua quá trình chọn lọc tài liệu của người dùng được lưu trữ lại trong Log Ý tưởng chính của phương pháp này là dựa vào mối quan hệ trong lưu trữ truy vấn để phân tích, chọn lựa các từ mở rộng tốt nhất cho câu truy vấn mới So sánh với các phương pháp tìm kiếm theo dạng từ khóa thông thường và các phương pháp tìm kiếm có mở rộng khác thì phương pháp dựa vào Log đem lại một sự cải tiến lớn
Cấu trúc của một lưu trữ truy vấn:
- Lưu trữ truy vấn là một kho dữ liệu lưu trữ lại các phiên bản truy vấn (query session) trong đó chỉ định rõ câu truy vấn và các tập tài liệu được chọn lựa Định dạng của phiên bản truy vấn như sau:
9 Một phiên chứa một truy vấn và một tập các tài liệu được người sử dụng lựa chọn Vì thế, những từ trong tập tài liệu này rất phù hợp, liên quan mật thiết với các từ truy vấn
9 Một vài phương pháp thống kê được sử dụng để xây dựng mối quan
hệ giữa từ khóa truy vấn (Query Term) và từ khóa tài liệu (Document term) Những từ được chọn để mở rộng là những từ trong tập từ khóa tài liệu có mối quan hệ nổi trội với từ khóa tìm kiếm
Phương pháp mở rộng dựa vào lưu trữ truy vấn có 3 tính chất quan trọng sau:
- Mối quan hệ giữa các từ khóa được xác định trước, vì thế, không cần có giai đoạn khởi tạo như trong phương pháp phân tích thống kê cục bộ
- Kho Log dữ liệu chứa các lần truy vấn đối với từng người sử dụng khác nhau, mối quan hệ từ vựng phản ánh, phụ thuộc lĩnh vực tìm kiếm của
Trang 38người sử dụng Ví dụ: nếu đa số người sử dụng dùng từ khóa “windows”
để tìm kiếm thông tin liên quan đến sản phẩm Window Microsoft thì từ khóa này sẽ có mối quan hệ mạnh hơn với các terms như “OS”,
“softwware” so với các term khác như “door”, “house”
- Mối quan hệ giữa các từ khóa thay đổi theo thời gian, theo xu hướng người sử dụng
3.3 Phương pháp mở rộng truy vấn dựa trên phân tích thống kê
Phương pháp thống kê được phân thành hai loại chính là phương pháp toàn cục và phương pháp cục bộ
3.3.1 Phương pháp phân tích toàn cục
Phân tích toàn cục là một trong những kỹ thuật đầu tiên và có hiệu quả cho việc mở rộng truy vấn Một trong những kỹ thuật sớm nhất là kỹ thuật nhóm từ (term clustering) Kỹ thuật này dựa vào sự xuất hiện đồng thời của các từ khóa trong các tài liệu để đưa vào nhóm
Một số kỹ thuật mở rộng toàn cục khác được công bố là Latent Semantic Indexing, Similarity Thersauri, Phrase Finder Kỹ thuật phân tích toàn cục đòi hỏi phải có sự tính toán số liệu thống kê của các cặp từ xuất hiện đồng thời hoặc xây dựng một ma trận tương đồng hay xây dựng mối liên kết giữa các từ khóa
Kỹ thuật phân tích toàn cục đơn giản về ý tưởng giải thuật, đạt được hiệu quả cao nhưng việc xây dựng chiếm nhiều tài nguyên hệ thống và không phù hợp cho việc mở rộng tìm kiếm trực tuyến Hơn thế nữa, kỹ thuật toàn cục chỉ tập trung vào vấn đề xây dựng kho dữ liệu thống kê dựa trên tập tài liệu cung cấp sẵn, thống kê từ vựng trong tập tài liệu cung cấp mà không chú trọng vào nội dung câu truy vấn dẫn đến một số trường hợp sai lệch, giảm độ chính xác trong câu truy vấn mở rộng
3.3.2 Phương pháp phân tích cục bộ
Phương pháp phân tích cục bộ là giải pháp thay thế phương pháp toàn cục cho việc mở rộng truy vấn trực tuyến Điểm khác biệt so với phương pháp toàn cục
Trang 39đó là phương pháp sử dụng thêm bước chọn lọc và truy hồi một tập tài liệu đặc trưng hỗ trợ cho việc thống kê và mở rộng truy vấn ở các bước sau Một điểm khác biệt khác đó là chọn từ khóa bổ sung, phương pháp phân tích thống kê cục bộ chọn
từ khóa mở rộng dựa vào tần suất xuất hiện của từ khóa trong tập tài liệu phản hồi
từ câu truy vấn ban đầu
Với kỹ thuật phân tích cục bộ, câu truy vấn được sửa đổi dựa vào sự phản hồi, hoặc quyết định chọn lọc các tài liệu được cho là phù hợp với người sử dụng Việc mở rộng dựa vào sự phản hồi của người sử dụng có thể đạt được hiệu quả cao nếu người sử dụng phản hồi thông tin đầy đủ và chính xác Tuy nhiên, trong bối cảnh tìm kiếm thực sự, thông tin người sử dụng cung cấp thường miễn cưỡng, rời rạc, không đầy đủ
3.3.3 Phương pháp phân tích ngữ cảnh cục bộ (local context analysis)
Đây là một kỹ thuật phân tích cục bộ nhưng sử dụng phương pháp chọn từ khóa bổ sung tương tự như phương pháp toàn cục Từ khóa mở rộng được chọn không phải dựa vào tần suất xuất hiện của chúng trong N tài liệu tốt nhất trả về từ câu truy vấn ban đầu mà dựa vào sự xuất hiện đồng thời của chúng với câu truy vấn đang xem xét Xem xét một từ truy vấn đơn, nếu một từ xuất hiện với tần suất tf1 trong tài liệu d1 và một từ khác xuất hiện với cùng tần suất tf1 trong tài liệu d2 nhưng tần suất đồng xuất hiện với từ khóa truy vấn ở d1 cao hơn thì từ trong tài liệu d1 được chọn Theo cách này, phương pháp phân tích ngữ cảnh cục bộ vượt qua vấn đề không phù hợp về các tài liệu ban đầu để mở rộng và tạo ra kết quả hồi qui chính xác hơn
3.4 Phương pháp xác định độ đo ngữ nghĩa tương tự trên Ontology
Ưu điểm vượt trội trong việc xác định độ đo ngữ nghĩa tương tự phân bố được tìm thấy trong Manning và Sh¨utze (1999) [15] Ở đây, chúng ta tập trung vào xác định độ đo ngữ nghĩa tương tự được tạo ra cho Ontology và đặc biệt Wordnet khi đó là Ontology mà chúng ta định dùng Một điểm khởi đầu cho loại phương
Trang 40pháp này là Wordnet::Similarity Perl library Nó ghi chú rằng mặc dù gói này dùng giải thuật giống Wordnet nhưng có thể được dùng chung với nhiều Ontology
3.4.1 Phương pháp Structural
Phương pháp này dựa vào các quan hệ trong Ontology để tạo đường dẫn liên kết các khái niệm ý tưởng cơ bản của phương pháp Structual là ‘connecting path’ Một ‘connecting path’ là một đường dẫn trong Ontology liên kết hai khái niệm cần tính độ tương đồng Đường dẫn này chứa một dãy các cạnh là các quan hệ ngữ nghĩa và các nút là các khái niệm tương ứng trong Ontology
Có rất nhiều phương pháp khác nhau để xác định độ tương đồng thông qua Structural, tùy thuộc vào bài toán xác định trọng số tương đồng Một số giải pháp như sau:
- Chiều dài đường dẫn
- Các loại quan hệ tồn tại trong đường dẫn
- Các loại nút có trong đường dẫn,…
Một tiếp cận đơn giản và khá phổ biến của Structural là sử dụng quan hệ
IS-A, độ tương đồng ngữ nghĩa được xác định thông qua chiều dài của đường dẫn giữa hai khái niệm