Nền tảng công nghệ để giải quyết bài toán tìm kiếm web xuyên ngữ là sự kết hợp các kỹ thuật áp dụng trong truy vấn thông tin xuyên ngữ Cross-language Information Retrieval - CLIR - một l
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG
Lâm Tùng Giang
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ
Chuyên ngành : Khoa học máy tính
Mã số : 62 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
ĐÀ NẴNG - 2017
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG
Lâm Tùng Giang
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ
Chuyên ngành : Khoa học máy tính
Mã số : 62 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
1 PGS.TS Võ Trung Hùng
2 PGS.TS Huỳnh Công Pháp
ĐÀ NẴNG - 2017
Trang 3- i -
LỜI CAM ĐOAN
Tôi xin cam đoan: Luận án này là công trình nghiên cứu thực sự của cá nhân tôi, được thực hiện tại Trường Đại học Bách khoa, Đại học Đà Nẵng dưới sự hướng dẫn khoa học của PGS.TS Võ Trung Hùng và PGS.TS Huỳnh Công Pháp
Các số liệu, những kết luận nghiên cứu được trình bày trong luận án này là trung thực và chưa từng được công bố ở bất kỳ công trình nào của các tác giả khác
Tôi xin chịu trách nhiệm về những lời cam đoan của tôi
Tác giả,
Lâm Tùng Giang
Trang 4- ii -
MỤC LỤC
MỞ ĐẦU 1
1 ĐẶT VẤN ĐỀ 1
2 MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 5
2.1 Mục tiêu 5
2.2 Đối tượng 5
2.3 Phạm vi 5
3 ĐÓNG GÓP CỦA LUẬN ÁN 6
4 BỐ CỤC CỦA LUẬN ÁN 8
CHƯƠNG 1: TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU 9
1.1 TRUY VẤN THÔNG TIN 9
1.1.1 Khái niệm 9
1.1.2 Định nghĩa hình thức 10
1.1.3 Sơ đồ xử lý của hệ thống truy vấn thông tin 10
1.1.4 Các mô hình truy vấn thông tin truyền thống 12
1.1.5 Khai thác quan hệ giữa các thuật ngữ trong văn bản 16
1.2 ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN 19
1.2.1 Khái niệm 19
1.2.2 Các độ đo 20
1.2.3 Môi trường thực nghiệm 22
1.3 TRUY VẤN THÔNG TIN XUYÊN NGỮ 24
1.3.1 Khái niệm 24
1.3.2 Các hướng tiếp cận 24
1.3.3 Các kỹ thuật dịch tự động 25
1.4 CÁC KỸ THUẬT XẾP HẠNG LẠI 25
Trang 5- iii -
1.4.1 Xếp hạng và xếp hạng lại 25
1.4.2 Khai thác thông tin của các máy tìm kiếm có sẵn 26
1.4.3 Học xếp hạng 28
1.4.4 Khai thác thông tin người sử dụng 30
1.5 XẾP HẠNG TRANG WEB 31
1.5.1 Đặc thù của tìm kiếm web 31
1.5.2 Các phương pháp xếp hạng trang Web 32
1.5.3 Xếp hạng trang Web trong tìm kiếm xuyên ngữ 36
1.6 CÁC HẠN CHẾ VÀ ĐỀ XUẤT NGHIÊN CỨU 37
1.6.1 Hạn chế 37
1.6.2 Đề xuất nghiên cứu 37
1.7 TIỂU KẾT CHƯƠNG 41
CHƯƠNG 2: DỊCH TỰ ĐỘNG PHỤC VỤ TRUY VẤN XUYÊN NGỮ 42
2.1 CÁC PHƯƠNG PHÁP DỊCH TỰ ĐỘNG 42
2.1.1 Sử dụng máy dịch 42
2.1.2 Sử dụng kho ngữ liệu 43
2.1.3 Sử dụng từ điển 44
2.1.4 Sử dụng ngôn ngữ trung gian 44
2.1.5 Sử dụng không gian ngữ nghĩa 45
2.1.6 Đánh giá chung 45
2.2 KHỬ NHẬP NHẰNG 46
2.3 MÔ HÌNH SỬ DỤNG TỪ ĐIỂN MÁY 47
2.3.1 Xây dựng dữ liệu từ điển 48
2.3.2 Khử nhập nhằng dựa trên độ đo mức độ liên quan của cặp từ 49
2.3.3 Các biến thể của công thức MI 49
2.3.4 Thuật toán chọn bản dịch tốt nhất 51
Trang 6- iv -
2.3.5 Xây dựng câu truy vấn 58
2.4 THỰC NGHIỆM ÁP DỤNG CÔNG THỨC SMI 62
2.4.1 Môi trường thực nghiệm 62
2.4.2 Kết quả thực nghiệm 64
2.5 THỰC NGHIỆM TẠO BẢN DỊCH CÂU TRUY VẤN CÓ CẤU TRÚC 65
2.5.1 Môi trường thực nghiệm 65
2.5.2 Cấu hình thực nghiệm 65
2.5.3 Kết quả thực nghiệm 66
2.6 TIỂU KẾT CHƯƠNG 67
CHƯƠNG 3: HỖ TRỢ DỊCH CÂU TRUY VẤN 69
3.1 CÁC KỸ THUẬT HỖ TRỢ DỊCH CÂU TRUY VẤN 69
3.1.1 Phân đoạn câu truy vấn ở ngôn ngữ nguồn 69
3.1.2 Mở rộng câu truy vấn 70
3.1.3 Thu hẹp câu truy vấn 71
3.1.4 Xử lý thuật ngữ không có trong từ điển 72
3.2 PHÂN ĐOẠN CÂU TRUY VẤN 73
3.2.1 Sử dụng công cụ vnTagger 73
3.2.2 Thuật toán WLQS 73
3.2.3 Kết hợp WLQS và công cụ vnTagger 75
3.3 ĐIỀU CHỈNH CÂU TRUY VẤN Ở NGÔN NGỮ ĐÍCH 78
3.3.1 Phản hồi ẩn 79
3.3.2 Phản hồi ẩn trong truy vấn xuyên ngữ 81
3.3.3 Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích 82
3.4 THỰC NGHIỆM 86
3.4.1 Cấu hình thực nghiệm 86
3.4.2 Kết quả 87
Trang 7- v -
3.5 TIỂU KẾT CHƯƠNG 89
CHƯƠNG 4: XẾP HẠNG LẠI 91
4.1 HỌC XẾP HẠNG DỰA TRÊN LẬP TRÌNH DI TRUYỀN 91
4.1.1 Mô hình ứng dụng lập trình di truyền 93
4.1.2 Xây dựng công cụ và kết quả thực nghiệm 94
4.1.3 Đánh giá 96
4.2 ĐỀ XUẤT CÁC MÔ HÌNH LÂN CẬN 97
4.2.1 Mô hình CL-Büttcher 98
4.2.2 Mô hình xếp hạng CL-Rasolofo 99
4.2.3 Mô hình xếp hạng CL-HighDensity 100
4.2.4 Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ 101
4.3 HỌC XẾP HẠNG TRANG WEB 103
4.3.1 Các mô hình học xếp hạng 103
4.3.2 Môi trường thực nghiệm 106
4.3.3 Cấu hình thực nghiệm 109
4.3.4 Kết quả thực nghiệm 109
4.4 TIỂU KẾT CHƯƠNG 110
CHƯƠNG 5: HỆ THỐNG TÌM KIẾM WEB XUYÊN NGỮ VIỆT-ANH 111
5.1 THIẾT KẾ HỆ THỐNG 111
5.1.1 Các thành phần hệ thống & sơ đồ thuật toán 111
5.1.2 Dữ liệu từ điển 114
5.1.3 Dữ liệu đánh chỉ mục 114
5.2 PHƯƠNG PHÁP THỰC NGHIỆM 115
5.3 THỰC NGHIỆM CÁC GIẢI PHÁP DỊCH CÂU TRUY VẤN 116
5.3.1 Cấu hình thực nghiệm 116
5.3.2 Kết quả thực nghiệm 117
Trang 8- vi -
5.3.3 Đánh giá 119
5.4 THỰC NGHIỆM ĐIỀU CHỈNH CÂU TRUY VẤN 119
5.4.1 Cấu hình thực nghiệm 119
5.4.2 Kết quả thực nghiệm 120
5.4.3 Đánh giá 121
5.5 THỰC NGHIỆM XẾP HẠNG LẠI 121
5.5.1 Cấu hình thực nghiệm 122
5.5.2 Kết quả thực nghiệm 123
5.5.3 Đánh giá 125
5.6 ĐÁNH GIÁ HIỆU QUẢ KẾT HỢP CÁC KỸ THUẬT 125
5.7 TIỂU KẾT CHƯƠNG 128
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 129
1 KẾT LUẬN 129
1.1 Tóm tắt nội dung luận án 129
1.2 Các kết quả đạt được 129
2 HƯỚNG PHÁT TRIỂN 132
TÀI LIỆU THAM KHẢO 133
Trang 9- vii -
DANH MỤC HÌNH VẼ
Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin 11
Hình 1.2: Biểu đồ trung bình 11 điểm 22
Hình 1.3: Mô hình xếp hạng tìm kiếm Web đa ngữ 38
Hình 1.4: Sơ đồ xử lý giai đoạn truy vấn 39
Hình 3.1: Phân loại phương pháp mở rộng câu truy vấn 71
Hình 3.2: Phản hồi của người dùng 79
Hình 3.3: Phản hồi ẩn về độ phù hợp của kết quả tìm kiếm ban đầu 79
Hình 3.4: Đồ thị trung bình 11 điểm 88
Hình 4.1: Hệ thống tìm kiếm Web đa ngữ Việt-Anh 107
Hình 5.1: Các thành phần của hệ thống tìm kiếm Web Việt - Anh 111
Hình 5.2: Sơ đồ thuật toán của hệ thống 112
Hình 5.3: So sánh các cấu hình dùng 1 bản dịch 118
Hình 5.4: So sánh các cấu hình dùng 3 bản dịch 119
Hình 5.5: Kết quả của 5 lần huấn luyện của các phương pháp 124
Hình 5.6: Điểm MAP khi sử dụng phương án dịch Top_three_all 127
Hình 5.7: Điểm MAP khi sử dụng phương án dịch Top_three_weight 128
Trang 10- viii -
DANH MỤC BẢNG
Bảng 1.1 Thông tin sử dụng & đặc điểm của các mô hình xếp hạng 18
Bảng 2.1: Cấu hình thực nghiệm 63
Bảng 2.2: Kết quả thực nghiệm 64
Bảng 2.3: So sánh P@k và MAP các cấu hình 66
Bảng 3.1: Điểm số MAP 87
Bảng 3.2: Số lượng tài liệu phù hợp tải về 88
Bảng 4.1 Ví dụ thuộc tính của bộ sưu tập OHSUMED 92
Bảng 4.2 So sánh giá trị MAP 95
Bảng 4.3 So sánh giá trị NDCG@k 96
Bảng 4.4: So sánh giá trị P@k 96
Bảng 4.5: Điểm MAP của các cấu hình thực nghiệm 102
Bảng 4.6: Mức độ tăng hiệu quả khi áp dụng mô hình lân cận 102
Bảng 4.7: Các phương án hàm distance 105
Bảng 4.8: Kết quả thực nghiệm 109
Bảng 5.1: Các cấu hình đánh giá các giải pháp dịch câu truy vấn 116
Bảng 5.2: So sánh các giải pháp dịch câu truy vấn 117
Bảng 5.3: Cấu hình đánh giá kết quả điều chỉnh câu truy vấn 120
Bảng 5.4: So sánh các giải pháp điều chỉnh câu truy vấn 121
Bảng 5.5: Cấu hình thực nghiệm học xếp hạng 122
Bảng 5.6: Kết quả thực nghiệm các phương pháp học xếp hạng 123
Bảng 5.7: Đánh giá việc áp dụng các kỹ thuật đề xuất 125
Trang 11- ix -
DANH MỤC TỪ VIẾT TẮT
CLEF Cross Language Evaluation Forum
CLIR Cross Language Information Retrieval
FIRE Forum for Information Retrieval Evaluation
HITS Hypertext Induced Topic Search
LMIR Language Models in Information Retrieval
NDCG Normalized Discount Cumulative Gain
WLQS Word-Length-based Query Segmentation
Trang 12- x -
DANH MỤC THUẬT NGỮ
Bilingual Machine Readable Dictionary Từ điển máy song ngữ
Binary Independence Retrieval – BIR Mô hình truy vấn nhị phân độc
lập
Cross Language Information Retrieval -
CLIR
Truy vấn thông tin xuyên ngữ
Cross-language Web Search Tìm kiếm web xuyên ngữ
Discounted Cumulative Gain Độ lợi tích lũy giảm dần
Hyper Text Markup Language-HTML Ngôn ngữ siêu văn bản
Information Retrieval – IR Truy vấn thông tin
Inverse document frequency – IDF Tần suất tài liệu nghịch đảo
Latent Sematic Indexing - LSI Mô hình chỉ mục ngữ nghĩa ngầm
Trang 13- xi -
Mean Average Precision Độ chính xác trung bình bình
quân
Mutual Information - MI Thông tin tương hỗ
Pseudo-Relevance Feedback – PRF Phản hồi giả
Singular-Value Decomposition – SVD Phân tích giá trị đơn
Summary Mutual Information Tổng thông tin tương hỗ
Term frequency – TF Tần suất xuất hiện của thuật ngữ
trong tài liệu
Vector Space model – VSM Mô hình không gian vec-tơ Word-length-based Query Segmentation Phân đoạn câu truy vấn dựa trên
độ dài từ
Trang 14Cùng với sự đa dạng về ngôn ngữ, việc tìm kiếm thông tin không còn giới hạn ở tiếng mẹ đẻ của người dùng mà đã được mở rộng ra các ngôn ngữ khác Bài toán tìm kiếm web xuyên ngữ (Cross-Language Web Search) đặt ra nhiệm vụ từ nhu cầu thông tin của người dùng được trình bày ở một ngôn ngữ (gọi là ngôn ngữ nguồn), thực hiện việc xác định các trang web phù hợp được viết bằng một ngôn ngữ khác (gọi là ngôn ngữ đích) Việc giải quyết bài toán có ý nghĩa thực tế, cho phép người sử dụng truy cập các nguồn tài nguyên thông tin ở các ngôn ngữ khác nhau [134]
Nền tảng công nghệ để giải quyết bài toán tìm kiếm web xuyên ngữ là sự kết hợp các kỹ thuật áp dụng trong truy vấn thông tin xuyên ngữ (Cross-language Information Retrieval - CLIR) - một lĩnh vực con của truy vấn thông tin (Information Retrieval - IR) - và việc khai thác các đặc thù riêng của các trang web
Truy vấn thông tin quan tâm vấn đề tìm kiếm thông tin phù hợp hay tài liệu
chứa các thông tin như vậy dựa trên nhu cầu thông tin của người sử dụng từ một tập hợp lớn các tài liệu (được gọi là kho tài liệu) Nhu cầu thông tin được biểu diễn
dưới dạng câu truy vấn Một tài liệu được coi là phù hợp nếu chứa thông tin phù
1
http://www.worldwidewebsize.com/ (truy cập 26/12/2015)
2
http://w3techs.com/technologies/overview/content_language/all (truy cập 26/12//2015)
Trang 15- 2 -
hợp với câu truy vấn Mặc dù sự phù hợp là một khái niệm quan trọng trong truy
vấn thông tin và được đề cập tới trong mọi nghiên cứu liên quan, cho đến nay vẫn tồn tại các cách hiểu khác nhau về thuật ngữ này [12], [105] Một cách lý tưởng, một hệ thống truy vấn thông tin cần có khả năng xác định các tài liệu phù hợp dựa trên nội dung, ý nghĩa của tài liệu và câu truy vấn chứ không phải dựa theo cách
biểu diễn của chúng Ví dụ, từ câu truy vấn "các thảm họa thiên nhiên", cần lọc ra các tài liệu chứa các thông tin liên quan đến "động đất", "sóng thần", hay "núi lửa"
Tuy nhiên, trên thực tế hầu hết các hệ thống truy vấn thông tin tính toán mức độ phù hợp của các tài liệu dựa trên cách thức biểu diễn văn bản (ví dụ thông qua các từ khóa chứa bên trong) và chưa có khả năng phân tích ý nghĩa văn bản [4], [43], [100] Trong truy vấn thông tin xuyên ngữ, việc xác định tính phù hợp còn phức tạp hơn do câu truy vấn và các tài liệu được viết bằng các ngôn ngữ khác nhau [113]
Xếp hạng trong truy vấn thông tin liên quan đến việc tạo lập kết quả khi thực hiện một câu truy vấn ở dạng một danh sách các tài liệu theo thứ tự phù hợp với nhu cầu truy vấn Trong tìm kiếm web xuyên ngữ, hai vấn đề chính của việc xếp hạng kết quả tìm kiếm bao gồm: (1) sự khác biệt về ngôn ngữ giữa câu truy vấn và các tài liệu cần tìm kiếm; (2) nhu cầu hiển thị các tài liệu phù hợp nhu cầu truy vấn tại đầu danh sách kết quả, tạo điều kiện truy cập thuận lợi cho người sử dụng Nhằm giải
quyết các vấn đề này, cần thực hiện hai nhiệm vụ trọng tâm: Thứ nhất là nhiệm vụ
dịch thuật, thực hiện việc biểu diễn câu truy vấn và các tài liệu trong một không
gian chung, cụ thể là trong cùng một ngôn ngữ Thứ hai là nhiệm vụ xếp hạng,
thông qua việc triển khai các giải pháp kỹ thuật và các thước đo, thực hiện việc đánh giá, so sánh mức độ phù hợp giữa các tài liệu và câu truy vấn Mục tiêu chung của các nhiệm vụ này là nhằm nâng cao hiệu quả xếp hạng kết quả tìm kiếm
Có nhiều thước đo khác nhau được sử dụng nhằm đánh giá các hệ thống truy vấn thông tin, bao gồm kích thước kho tài liệu, thời gian đáp ứng, cách biểu diễn kết quả, mức độ nỗ lực của người sử dụng, độ bao phủ, độ chính xác [26]; trong đó hai thước đo cuối được sử dụng phổ biến nhất và được coi là các thước đo chính về hiệu quả của một hệ thống [100], [155] Đặc biệt, độ chính xác cao của một hệ thống liên quan trực tiếp đến việc xếp hạng các kết quả tìm kiếm, đảm bảo các tài
Trang 16từ điển, hiệu quả xếp hạng của các hệ thống CLIR dựa trên từ điển còn khá hạn chế
và phụ thuộc nhiều vào các cặp ngôn ngữ cụ thể [172] Theo đánh giá của Ballesteros và Croft [7], các hệ thống truy vấn xuyên ngữ dùng kỹ thuật dịch từ điển
có chất lượng dưới 60% so với các hệ thống đơn ngữ - đo bằng tỷ lệ giá trị độ chính xác trung bình bình quân (Mean Average Precision – MAP) của hai hệ thống Đối với tiếng Việt, kết quả nghiên cứu của tác giả Ho Bao Quoc và các đồng sự [63] cho thấy do ảnh hưởng của việc phân đoạn câu truy vấn cũng như chất lượng dịch thuật, hiệu quả của hệ thống truy vấn xuyên ngữ Việt-Anh chỉ đạt 47,58% so với hệ thống truy vấn đơn ngữ (trong khi hệ thống truy vấn xuyên ngữ Anh-Việt đạt 72,27%) Từ đây có thể thấy, việc nghiên cứu nhằm phát triển các phương pháp tăng chất lượng dịch câu truy vấn, đặc biệt khi ngôn ngữ câu truy vấn không phải tiếng Anh, là một vấn đề cấp thiết và mang tính thời sự
Bên cạnh vấn đề dịch thuật, nhiều nghiên cứu được triển khai nhằm tăng hiệu quả xếp hạng Hướng tiếp cận phổ biến là dựa trên các mô hình xếp hạng có sẵn trong truy vấn đơn ngữ (thực hiện sau khi dịch câu truy vấn) Một số công trình [11], [87], [157], [163] đề xuất tích hợp máy dịch thống kê vào mô hình xếp hạng
Trang 17- 4 -
xuyên ngữ Ngoài ra, kỹ thuật học xếp hạng cũng được áp dụng nhằm nâng cao hiệu quả xếp hạng [96], [97], [122] Nhìn chung, hầu hết các giải pháp xếp hạng đề xuất được triển khai độc lập với việc nghiên cứu vấn đề dịch thuật Việc nghiên cứu kết nối, trao đổi thông tin giữa các mô-đun là cần thiết nhằm tăng hiệu quả của toàn hệ thống nhưng chưa được chú ý nhiều Trong luận án, tác giả mong muốn tiếp tục sử dụng thông tin kết xuất từ quá trình dịch câu truy vấn phục vụ việc xếp hạng
Tìm kiếm web có những điểm khác biệt so với truy vấn thông tin văn bản truyền thống, vốn được áp dụng cho các hệ thống thư viện Thứ nhất, người sử dụng Web không có xu hướng tìm tất cả tài liệu thỏa mãn nhu cầu truy vấn, mà mong muốn nhận được kết quả phù hợp trong khoảng 10 tài liệu đầu tiên trong danh sách kết quả tìm kiếm [16] Điều này đặt ra yêu cầu về độ chính xác cao đối với hệ thống tìm kiếm Web Thứ hai, trong cấu trúc một tài liệu siêu văn bản (Hyper Text Markup Language - HTML) chứa các thành phần như tiêu đề, tóm tắt, nội dung Bên cạnh đó, nó cũng chứa các thành phần đặc biệt như hyperlinks, anchor, meta tag Các thành phần này có thể có mức độ tác động khác nhau trong việc tìm kiếm Trong các nghiên cứu [33], [70], [124], [145], việc xây dựng đa chỉ mục và gán trọng số khác nhau cho các thành phần của trang web giúp tăng độ chính xác trong kết quả tìm kiếm Điều này cho thấy một hệ thống tìm kiếm web nên được thiết kế khác biệt so với một hệ thống truy vấn thông tin văn bản truyền thống, khai thác cấu trúc đặc thù của các tài liệu có cấu trúc, nhằm nâng cao hiệu quả tìm kiếm Hầu hết các giải pháp đã liệt kê đều giới hạn ở việc đề xuất gán trọng số một cách thủ công
và do đó, cần các nghiên cứu tiếp theo nhằm khắc phục các hạn chế này
Xuất phát từ tình hình thực tiễn trên, đề tài "Một số phương pháp phục vụ
xếp hạng trang Web trong tìm kiếm xuyên ngữ" được chọn làm nội dung nghiên cứu
của luận án Tiến sĩ kỹ thuật của tác giả Thông qua các công việc cải tiến chất lượng dịch thuật, kết hợp thông tin của quá trình dịch thuật trong quá trình xếp hạng, đề xuất phương án xếp hạng dựa trên việc sử dụng cấu trúc đặc thù của các trang web, tác giả đặt mục tiêu nâng cao hiệu quả xếp hạng danh sách kết quả tìm kiếm; qua
đó, đóng góp các kết quả lý thuyết đối với các lĩnh vực nghiên cứu liên quan, cũng
Trang 18Các mục tiêu cụ thể của luận án bao gồm:
Đề xuất các phương pháp phục vụ dịch thuật, bao gồm các kỹ thuật tiền
xử lý câu truy vấn ở ngôn ngữ nguồn, dịch câu truy vấn và xử lý câu truy vấn ở ngôn ngữ đích;
Đề xuất các phương pháp xếp hạng lại danh sách kết quả tìm kiếm trong truy vấn xuyên ngữ, chú trọng việc xếp hạng các trang Web
Kết hợp áp dụng các giải pháp đề xuất trong một mô hình tìm kiếm web xuyên ngữ nhằm nâng cao hiệu quả xếp hạng các tài liệu web trong danh sách kết quả tìm kiếm, cụ thể là nâng cao độ chính xác, áp dụng cho cặp ngôn ngữ Việt-Anh
2.2 Đối tượng
Các đối tượng nghiên cứu của luận án bao gồm:
Các kỹ thuật dịch áp dụng trong truy vấn thông tin xuyên ngữ;
Các kỹ thuật xử lý câu truy vấn trong truy vấn xuyên ngữ;
Các kỹ thuật xếp hạng lại kết quả truy vấn thông tin
2.3 Phạm vi
Với đối tượng nghiên cứu nêu trên và để đáp ứng mục tiêu nghiên cứu, luận
án xác định phạm vi nghiên cứu như sau:
Luận án tập trung giải quyết hai bài toán dịch câu truy vấn và xếp hạng kết quả tìm kiếm web xuyên ngữ ;
Trang 19- 6 -
Cặp ngôn ngữ được chú trọng nghiên cứu là cặp ngôn ngữ Việt-Anh; cụ thể là với câu truy vấn tiếng Việt và các văn bản tìm kiếm được viết bằng tiếng Anh;
Thước đo được sử dụng nhằm đánh giá hiệu quả hệ thống tìm kiếm là độ chính xác trung bình bình quân (Mean Average Precision - MAP) với 2 lý do chính: thứ nhất, đây là độ đo được sử dụng phổ biến tại các nghiên cứu về truy vấn thông tin; thứ hai, độ đo này liên quan trực tiếp tới khả năng các tài liệu đứng đầu danh sách kết quả tìm kiếm được đánh giá phù hợp với yêu cầu truy vấn;
Các kỹ thuật hỗ trợ truy vấn thông tin xuyên ngữ được tập trung nghiên cứu và áp dụng bao gồm phân đoạn câu truy vấn, sử dụng phản hồi ẩn và mở rộng câu truy vấn;
Luận án chú trọng nghiên cứu kỹ thuật học xếp hạng dựa trên lập trình di truyền;
Luận án sử dụng các máy tìm kiếm đơn ngữ có sẵn và không đi sâu nghiên cứu các vấn đề liên quan kỹ thuật được sử dụng trong các máy tìm kiếm đơn ngữ
3 ĐÓNG GÓP CỦA LUẬN ÁN
Trên cơ sở so sánh các kết quả đạt được với tình hình nghiên cứu hiện tại, luận án có những đóng góp trong việc nâng cao chất lượng dịch thuật và nâng cao hiệu quả xếp hạng lại kết quả tìm kiếm trong lĩnh vực tìm kiếm web xuyên ngữ, cụ thể như sau:
Đề xuất được các phương pháp khử nhập nhằng mới trong mô-đun dịch câu truy vấn trên nền tảng của khái niệm Mutual Information về sự cùng xuất hiện của các thuật ngữ trong văn bản (chương 2) Phương pháp thứ nhất dựa trên hàm Summary Mutual Information (SMI) cho phép chọn một bản dịch tốt nhất cho mỗi
từ khóa truy vấn và cho kết quả tốt hơn thuật toán khử nhập nhằng greedy được sử
dụng rộng rãi [99] Phương pháp thứ hai áp dụng thuật toán chọn bản dịch một cách
tuần tự (SeQuential Translation - SQ), xác định danh sách các bản dịch tốt nhất
Trang 20toán được sử dụng đồng thời cùng công cụ mã nguồn mở vnTagger [89], thực hiện
việc phân tích câu truy vấn thành các cụm từ cần dịch, đi kèm với các danh sách bản dịch ứng viên Kết quả này phục vụ như đầu vào cho các phương pháp khử nhập nhằng trình bày trong chương 2;
Đề xuất được các phương pháp phục vụ xây dựng, cải tiến câu truy vấn tại ngôn ngữ đích (chương 3) Trên cơ sở câu truy vấn có cấu trúc được tạo lập bằng phương pháp chọn bản dịch một cách tuần tự trình bày tại chương 2, tác giả đề xuất
mô hình hai bước dựa trên kỹ thuật phản hồi ẩn, tính toán lại trọng số các từ khóa truy vấn và áp dụng các công thức tính toán trọng số các thuật ngữ chứa trong các văn bản để mở rộng câu truy vấn Thông qua thực nghiệm, tác giả xác định công
thức kết hợp trọng số tf-idf cục bộ và trọng số idf toàn cục của các từ khóa mang lại
hiệu quả tốt nhất, khi tăng điểm MAP của hệ thống lên đến 12%
Đề xuất được các mô hình lân cận xuyên ngữ (chương 4) Các mô hình lân cận xuyên ngữ lần đầu tiên được xây dựng dựa trên cơ sở của các hàm xếp hạng lân cận đơn ngữ đã có và ý tưởng xem xét các bản dịch của một từ khóa như cùng một từ ảo Trong luận án, điểm xếp hạng lân cận xuyên ngữ của tài liệu so với câu truy vấn được tính toán dựa trên khoảng cách giữa các bản dịch ứng viên của các từ khóa truy vấn Các mô hình lân cận xuyên ngữ cho phép định nghĩa các hàm xếp hạng mới cho máy tìm kiếm và được sử dụng trong quá trình xếp hạng lại;
Đề xuất được phương pháp học xếp hạng dựa trên lập trình di truyền (chương 4) Hai phương pháp học xếp hạng (giám sát và không giám sát) được áp dụng nhằm xây dựng hàm xếp hạng tổng hợp dưới dạng tổ hợp tuyến tính của các
mô hình xếp hạng cơ sở TF-IDF, BM25 và các mô hình xếp hạng lân cận xuyên ngữ, phục vụ việc xếp hạng lại kết quả tìm kiếm web;
Thiết kế một mô hình tìm kiếm web xuyên ngữ cho cặp ngôn ngữ
Trang 21Việt 8 Việt
Anh, tích hợp các đề xuất kỹ thuật đã nêu (chương 5) Mô hình được sử dụng nhằm
so sánh với các giải pháp kỹ thuật khác cũng như để kiểm tra tính hiệu quả tổng thể việc kết hợp sử dụng các kỹ thuật đề xuất tại các chương 2, 3, 4
4 BỐ CỤC CỦA LUẬN ÁN
Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 5 chương với cấu trúc như sau:
Chương 1: Tổng quan và đề xuất nghiên cứu Chương này trình bày kết quả
nghiên cứu tổng quan về các vấn đề nghiên cứu trong luận án; thực hiện việc phân tích, đánh giá các công trình nghiên cứu liên quan, chỉ ra một số vấn đề tồn tại Trên
cơ sở các phân tích, đánh giá, tác giả đề xuất mô hình hệ thống tìm kiếm web xuyên ngữ và các nội dung nghiên cứu được triển khai tại các thành phần của mô hình
Chương 2: Dịch tự động phục vụ truy vấn xuyên ngữ Chương này trình bày
tổng quan các phương pháp dịch tự động, bao gồm dịch máy, sử dụng từ điển và sử dụng kho ngữ liệu Nội dung tiếp theo trình bày các đề xuất của tác giả liên quan kỹ thuật khử nhập nhằng phục vụ dịch câu truy vấn và kỹ thuật xây dựng câu truy vấn
có cấu trúc
Chương 3 : Hỗ trợ dịch câu truy vấn Chương này trình bày kết quả nghiên
cứu của tác giả liên quan việc xử lý câu truy vấn Cụ thể, tác giả đề xuất kỹ thuật phân đoạn câu truy vấn nhằm xác định các từ khóa ở ngôn ngữ nguồn phục vụ việc dịch thuật cũng như kỹ thuật điều chỉnh, tối ưu câu truy vấn có cấu trúc ở ngôn ngữ đích
Chương 4: Xếp hạng lại Chương 4 trình bày kết quả nghiên cứu của tác giả
về các phương pháp xếp hạng lại, bao gồm đề xuất các mô hình lân cận xuyên ngữ
và áp dụng kỹ thuật học máy phục vụ việc xây dựng hàm xếp hạng lại kết quả tìm kiếm web
Chương 5: Hệ thống tìm kiếm web xuyên ngữ Việt Anh Chương 5 trình bày
thiết kế hệ thống tìm kiếm web xuyên ngữ Việt-Anh và các kết quả thực nghiệm nhằm kiểm nghiệm ảnh hưởng của việc áp dụng các giải pháp kỹ thuật đề xuất trong luận án cũng như so sánh hiệu quả với các giải pháp kỹ thuật khác
Trang 22- 9 -
CHƯƠNG 1 TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU
Trong chương 1, tác giả trình bày cơ sở lý thuyết, kết quả nghiên cứu tổng quan về các vấn đề nghiên cứu trong luận án; thực hiện việc phân tích, đánh giá các công trình nghiên cứu liên quan và chỉ ra một số hạn chế trong lĩnh vực tìm kiếm web xuyên ngữ Trên cơ sở các phân tích, đánh giá, tác giả đề xuất mô hình hệ thống tìm kiếm web xuyên ngữ và xác định các nội dung nghiên cứu sẽ được triển khai
1.1 TRUY VẤN THÔNG TIN
1.1.1 Khái niệm
Truy vấn thông tin (Information Retrieval – IR) là ngành khoa học liên quan đến việc phân tích, thiết kế và triển khai các hệ thống máy tính nhằm biểu diễn, tổ chức và truy cập khối lượng lớn thông tin được số hoá Thuật ngữ Information
Retrieval được phát biểu như sau: "truy vấn thông tin là tìm kiếm tư liệu (thường
dưới dạng tài liệu), với bản chất không có cấu trúc (thường dưới dạng văn bản) thoả mãn được nhu cầu thông tin từ một bộ sưu tập lớn (thường được lưu trữ trong máy tính)" [104] Định nghĩa này đề cập đến cả hai khía cạnh hướng hệ thống và
hướng người dùng của tìm kiếm thông tin và là cơ sở phát triển các hướng nghiên cứu và ứng dụng khác nhau
Các hệ thống truy vấn thông tin tự động ban đầu được phát triển nhằm giúp quản lý các hệ thống tài liệu khoa học [43] Ngày nay, nhiều trường đại học, công ty
và thư viện sử dụng các hệ thống truy vấn thông tin phục vụ việc truy cập sách, tạp chí và các loại tài liệu khác; các hệ thống tìm kiếm thương mại cung cấp cơ sở dữ liệu chứa hàng triệu tài liệu trong lĩnh vực được quan tâm; ngoài ra có hàng trăm triệu người hàng ngày thực hiện việc tìm kiếm thông tin trên World Wide Web
Sự bùng nổ kể cả về số lượng và chủng loại thông tin trên World Wide Web
từ những năm 2000, cùng với các tiến bộ trong công nghệ phần cứng và phần mềm,
Trang 23- 10 -
đã tạo ra các cơ hội cũng như các thách thức và đã biến truy vấn thông tin trở thành một lĩnh vực nghiên cứu được đặc biệt quan tâm; kết hợp và ứng dụng kết quả của nhiều ngành khoa học khác như xử lý ngôn ngữ tự nhiên, giao tiếp người và máy, thiết kế giao diện
F là khung cơ sở cho việc mô hình hoá biểu diễn tài liệu, biểu diễn truy
vấn và quan hệ giữa chúng (thành phần lý luận);
R(q,d) là hàm xếp hạng, tương ứng với mỗi truy vấn qQ và một tài liệu
dD, trả lại một giá trị là số thực Một hàm như vậy xác định thứ tự giữa các tài
liệu tương ứng với truy vấn q
1.1.3 Sơ đồ xử lý của hệ thống truy vấn thông tin
Sơ đồ tổng quát mô tả quá trình xử lý trong một hệ thống truy vấn thông tin được trình bày trong Hình 1.1[4]
Để đáp ứng nhu cầu truy vấn thông tin của người sử dụng, các giải pháp truy vấn thông tin được chia thành 2 giai đoạn thực hiện độc lập:
Giai đoạn I: Thu thập, xử lý, đánh chỉ mục, lưu trữ tài liệu
Giai đoạn II: Truy vấn; thực hiện việc xử lý câu truy vấn, trả về danh
sách kết quả
Mục đích của giai đoạn I là xây dựng một cơ sở dữ liệu quản lý các tài liệu
Các thao tác xử lý văn bản và đánh chỉ mục được thực hiện để đưa các văn bản
trong kho tài liệu vào bộ chỉ mục Việc đánh chỉ mục cho tài liệu được thực hiện nhằm tạo lập biểu diễn lô-gíc cho các tài liệu, đảm bảo tiết kiệm không gian lưu trữ
Trang 24người sử dụng xác định nhu cầu thông tin dưới dạng câu truy vấn Các thao tác xử
lý văn bản và xử lý truy vấn được áp dụng nhằm tạo lập một dạng biểu diễn lô-gíc
cho nhu cầu thông tin của người dùng Quá trình tìm kiếm được thực hiện bởi hệ
thống dựa trên việc so sánh biểu diễn của câu truy vấn và của các tài liệu được đánh chỉ mục Trước khi được trả về cho người sử dụng, các tài liệu được sắp xếp theo
thứ tự phù hợp so với nhu cầu truy vấn thông qua quá trình xếp hạng Tiếp theo,
một quá trình xử lý thông tin phản hồi có thể được thực hiện nhằm giúp hệ thống
Bộ chỉ mục
1.1: Xử lý văn bản 1.2: Đánh chỉ mục
Kho tài liệu
TRUY VẤN
Giao diện
Yêu cầu thông tin
THU THẬP, XỬ LÝ, ĐÁNH CHỈ MỤC, LƯU TRỮ DỮ LIỆU
2.1: Xử lý văn bản 2.2: Xử lý truy vấn 2.3: Tìm kiếm 2.4: Xếp hạng
Biểu diễn văn bản
Tài liệu tải về
Hình 1.1: Quá trình xử lý của hệ thống truy vấn thông tin [4]
Trang 25- 12 -
thực hiện lại các thao tác xử lý truy vấn, tìm kiếm, xếp hạng và tạo lập một danh
sách kết quả mới có chất lượng tốt hơn Có hai loại thông tin phản hồi: phản hồi thực sự dựa trên sự đánh giá của người dùng khi nhận được danh sách kết quả tài liệu; ngược lại, phản hồi giả được tạo lập bằng cách khai thác thông tin từ các tài liệu đứng đầu danh sách kết quả tìm kiếm ban đầu
1.1.4 Các mô hình truy vấn thông tin truyền thống
Mô hình truy vấn thông tin đóng vai trò như một bản thiết kế, định nghĩa và giải thích các nội dung công việc được thực hiện trong một hệ thống truy vấn thông tin, bao gồm cách biểu diễn tài liệu, biểu diễn truy vấn, tính điểm xếp hạng các tài liệu so với câu truy vấn
Các mô hình truy vấn thông tin truyền thống bao gồm mô hình Boolean, mô hình không gian vec-tơ, mô hình xác suất [4] Trừ mô hình Boolean, các mô hình khác sử dụng công thức xếp hạng mức độ phù hợp của tài liệu so với câu truy vấn; thông qua đó người sử dụng nhận được danh sách các tài liệu được xếp hạng theo mức độ phù hợp
1.1.4.1 Mô hình Boolean
Mô hình Boolean là mô hình cơ bản và đơn giản dựa trên đại số Bool, sử dụng nguyên tắc so sánh chính xác khi tìm kiếm văn bản [4] Mỗi tài liệu và câu truy vấn được biểu diễn dưới dạng kết hợp của các từ chứa bên trong Ví dụ, tài liệu
D = t 1 ∩ t 2 ∩ t 3 , với t 1 , …t 3 là các thuật ngữ chứa trong tài liệu, một câu truy vấn Q
có thể có dạng t 1 ∪ t 3 Tài liệu D được xác định phù hợp với câu truy vấn Q nếu và chỉ nếu D→Q
Điểm hạn chế lớn nhất của mô hình Boolean là nó không hỗ trợ việc xếp hạng các văn bản, không xử lý được vấn đề đồng nghĩa và đa nghĩa, có cú pháp phức tạp và dễ gây nhầm lẫn Một số mở rộng của mô hình này bao gồm mô hình vùng, coi bộ sưu tập tài liệu như một chuỗi từ liên tục, mỗi chuỗi tuỳ ý các từ nối tiếp là một vùng [62]; mô hình lô-gic mờ gộp các từ đồng nghĩa và các từ liên quan
Trang 26- 13 -
vào các nhóm với trọng lượng tương ứng tần suất xuất hiện của từ, nhằm phát huy
ưu điểm về tính đơn giản và khắc phục các hạn chế vốn có của mô hình gốc [76]
1.1.4.2 Mô hình không gian vec-tơ
Mô hình không gian vec-tơ khắc phục các hạn chế của mô hình Boolean bằng cách gán trọng số cho các thuật ngữ trong tài liệu và câu truy vấn Các trọng
số này được sử dụng để tính mức độ tương tự giữa tài liệu và câu truy vấn
Ký hiệu {w 1 , w 2 ,…,w n} là tập hợp các thuật ngữ được sử dụng trong các tài
liệu Giá trị n tương ứng với kích thước tập hợp thuật ngữ Với một văn bản d j và
câu truy vấn q, mức độ tương tự được ký hiệu là ⃗, ⃗ của trong mô hình không gian véc-tơ và được tính toán bằng cách sử dụng công thức cô-sin [4] dưới dạng sau:
tài liệu d j ; w i,q là trọng số thuật ngữ w i trong câu truy vấn q Giá trị công thức là một
số thực trong đoạn [0,1] Các tài liệu được coi là phù hợp một phần nếu như giá trị
⃗, ⃗ vượt quá một ngưỡng xác định trước và được sắp xếp theo giá trị
Một mô hình khác do Gerard Salton đề xuất và được sử dụng rộng rãi với tên
gọi mô hình tf-idf [136] Mô hình sử dụng chủ yếu hai thước đo về tần suất xuất
hiện của thuật ngữ trong các tài liệu và giá trị tần suất tài liệu chứa thuật ngữ để xác
định mức độ tương tự của một tài liệu so với câu truy vấn Ký hiệu tf t,d là tần suất
xuất hiện của thuật ngữ t trong tài liệu d, ký hiệu df t là tần suất tài liệu chứa thuật
ngữ t và N là tổng số tài liệu trong toàn bộ kho tài liệu, mô hình đưa ra khái niệm tần suất tài liệu nghịch đảo idf t cho thuật ngữ t như sau:
Trang 27- 14 -
Từ đây và cùng sử dụng các ký hiệu đã được định nghĩa, công thức tf-idf xác
định mức độ tương tự ( , ) của văn bản d và câu truy vấn q có dạng:
1.1.4.3 Mô hình xác suất
Mô hình xác suất được xây dựng dựa trên ý tưởng: dựa trên các thuộc tính của văn bản và câu truy vấn, có thể đưa ra xác suất hay các chứng cứ thống kê về sự phù hợp của văn bản đối với câu truy vấn Nền tảng toán học của mô hình xác suất
là công thức Bayes tính xác suất với điều kiện có dạng như sau [53]:
( | ) = ( | ) × ( )
Ở đây, P(E) là xác suất của sự kiện E, P(E|F) là xác suất của sự kiện E, cho trước sự kiện F Với câu truy vấn Q, một tài liệu D có các xác suất P(rel│D,Q) và
P(irrel│D,Q) = 1- P(rel│D,Q) tương ứng với sự kiện phù hợp rel hoặc sự kiện
không phù hợp irrel của tài liệu so với câu truy vấn
Mô hình xác suất đơn giản nhất là mô hình truy vấn nhị phân độc lập [130] giả định về sự độc lập của các thuật ngữ trong câu truy vấn Trong mô hình này,
một tài liệu D được biểu diễn như tập hợp các sự kiện {x 1 , ,x n }, trong đó x i=1 và
x i =0 tương ứng với sự xuất hiện hay không xuất hiện của từ khóa t i trong tài liệu D
Một trong những mô hình truy vấn xác suất được sử dụng rộng rãi hiện nay
là OKAPI BM25 [131] Mô hình này sử dụng số lần xuất hiện của từ khóa trong tài
Trang 28- 15 -
liệu, độ dài tài liệu để tính trọng số các từ khóa trong tài liệu và trong câu truy vấn Trong luận án sử dụng phương pháp triển khai mô hình OKAPI BM25 được trình bày tại công trình [125] với chi tiết như sau:
Với một thuật ngữ t i , trong tài liệu d, trọng số w i của t i được tính bằng công thức:
= ( + 1) ×
với k 1 là hằng số (được gán giá trị 1.2), tf i là tần suất xuất hiện của thuật ngữ
t i trong tài liệu d và K được tính bằng công thức:
Ở đây, k là hằng số (được gán giá trị 2), b là hằng số (được gán giá trị 0.9),
l là độ dài tài liệu, avdl là độ dài trung bình của các tài liệu
Với một từ khóa t i trong câu truy vấn q, trọng số qw i được tính bằng công thức sau:
=
−
trong đó qtf i là tần suất xuất hiện của từ khóa t i trong câu truy vấn, df i là số
tài liệu chứa từ khóa t i , k 3 là hằng số (được gán giá trị 1000), N là số tài liệu trong kho tài liệu Với câu truy vấn q chứa m từ khóa t 1 ,…t m , điểm số score okapi của tài
liệu d đối với câu truy vấn q khi đó được tính bằng công thức sau:
với giá trị w i tính theo công thức (1.5) và qw i tính theo công thức (1.7)
1.1.4.4 Mô hình ngôn ngữ
Mô hình ngôn ngữ là một ứng dụng của mô hình thống kê ngôn ngữ ứng dụng trong lĩnh vực truy vấn thông tin [120] Ý tưởng của mô hình ngôn ngữ là sử
Trang 29- 16 -
dụng xác suất P(d|q) để xác định mức độ phù hợp của văn bản d so với câu truy vấn
q Trong mô hình ngôn ngữ, với giả định về tính độc lập của các thuật ngữ, xác suất
văn bản d phù hợp với câu truy vấn q được ký hiệu là P(d|q) và có dạng như sau:
( | ) = ( | ) × ( )
∈
(1.9)
Ở công thức trên, ký hiệu ∝ thể hiện sự tương đương của 2 biểu thức do có
thể bỏ qua xác suất P(q) ở biểu thức đầu vì giá trị này không đổi đối với mọi tài liệu Bên cạnh đó, có thể giả định các tài liệu được phân phối đều và suất P(d) bằng nhau với mọi tài liệu Xác suất P(t|d) được xác định bởi một mô hình ngôn ngữ của tài liệu (ví dụ mô hình unigram)
1.1.5 Khai thác quan hệ giữa các thuật ngữ trong văn bản
Các mô hình đã trình bày ở phần 1.1.4 được coi là nền tảng của truy vấn thông tin dựa trên tính phù hợp của văn bản so với câu truy vấn nhưng có hạn chế
do giả định về sự độc lập của các thuật ngữ Một số mô hình khác được đề xuất với mục tiêu khắc phục hạn chế này Mô hình chỉ mục ngữ nghĩa ngầm (Latent Sematic Indexing-LSI) và mô hình lân cận được trình bày sau đây xem xét tính phụ thuộc lẫn nhau và mối quan hệ ngữ nghĩa giữa các thuật ngữ trong văn bản
1.1.5.1 Mô hình chỉ mục ngữ nghĩa ngầm
Cùng sử dụng cấu trúc tính toán như mô hình không gian véc-tơ nhưng khác biệt với giả định tính độc lập của các thuật ngữ, phương pháp chỉ mục ngữ nghĩa ngầm LSI khai thác cấu trúc ngầm của các thuật ngữ trong văn bản [35] Trong mô hình này, một ma trận thuật ngữ - văn bản được sử dụng để xây dựng một không
gian "ngữ nghĩa", trong đó các thuật ngữ và văn bản có liên quan được đặt trong
cùng chiều không gian Kỹ thuật phân tích giá trị đơn (Singular-Value Decomposition - SVD) được sử dụng cho phép biểu diễn các văn bản trong một không gian với số lượng chiều được thu hẹp, đảm bảo phản ánh sự liên quan giữa thuật ngữ và văn bản, dựa trên các mẫu liên quan chính và bỏ qua các ảnh hưởng nhỏ
Trang 30- 17 -
So với các phương pháp trình bày trong phần 1.1.4, Scott Deerwester [35] cho rằng ưu điểm chính của LSI là khả năng trích xuất nội dung ngữ nghĩa của nội dung và do đó giải quyết các vấn đề đồng nghĩa và đa nghĩa; bên cạnh đó các thuật ngữ được đặt chung trong các chiều thu hẹp cũng phản ánh sự liên quan giữa các thuật ngữ Hạn chế của phương pháp LSI là việc tính toán giá trị SVD của ma trận thuật ngữ - tài liệu phụ thuộc kích thước của ma trận và do đó rất tốn kém: trong ma trận số lượng cột tương ứng số lượng tài liệu trong kho tài liệu, số lượng hàng tương ứng số lượng thuật ngữ - tương đương kích thước của từ điển từ vựng Chính từ hạn chế này LSI chỉ ứng dụng hiệu quả với các bộ sưu tập tài liệu nhỏ và không thực sự phù hợp nếu kho tài liệu thường xuyên được cập nhật
1.1.5.2 Mô hình lân cận
Trong các mô hình truy vấn thông tin truyền thống, các tài liệu được biểu diễn như túi từ (bag of words) và được tính điểm dựa trên các số liệu thống kê như tần suất xuất hiện của từ, độ dài văn bản, giá trị nghịch đảo tần suất tài liệu Hạn chế căn bản của các mô hình này là chúng không khai thác mối liên quan giữa các thuật ngữ xuất hiện trong câu truy vấn và trong các tài liệu Từ một góc độ khác, khoảng cách giữa các từ trong tài liệu là một yếu tố thể hiện mối liên quan giữa các từ Một cách cảm quan, nếu trong một tài liệu các từ khóa truy vấn đứng sát nhau thì tài liệu
đó sẽ phù hợp hơn đối với câu truy vấn so với một tài liệu khác chứa cùng số lượng
từ khóa truy vấn nhưng các từ này lại đứng xa nhau
Những nghiên cứu nhằm mô hình hóa mối liên hệ giữa các từ trong văn bản được thực hiện khá sớm Năm 1987, Fagan [39] đề xuất hai phương pháp đánh chỉ mục ngữ dựa trên phương pháp thống kê và phân tích cấu trúc văn bản Sau đó, Croft Bruce [32] đề xuất việc đánh chỉ mục ngữ như một dạng đặc biệt của mô hình lân cận khi các từ đứng kế sát nhau
Hai xu hướng phổ biến khác bao gồm tính điểm lân cận dựa trên đoạn và dựa
trên cặp từ [154] Trong xu hướng thứ nhất, thuật ngữ span được định nghĩa như
một đoạn văn bản chứa tất cả các từ khóa truy vấn trong tài liệu Điểm lân cận của
một tài liệu tương ứng với một câu truy vấn tỷ lệ thuận với số span và tỷ lệ nghịch
Trang 31- 18 -
với độ dài của span [55], [150] Trong xu hướng thứ hai, các tác giả đưa ra các công
thức để tính điểm lân cận cho từng cặp từ trong tài liệu, sau đó tính điểm lân cận của tài liệu bằng cách cộng dồn các điểm lân cận của tất cả các cặp từ khóa truy vấn xuất hiện trong tài liệu [19], [125] Một mô hình lân cận có thể được áp dụng để xếp hạng lại các tài liệu truy vấn sau lần tìm đầu tiên, hoặc có thể được xây dựng trong quá trình đánh chỉ mục văn bản
Bảng 1.1 mô tả các thông tin được sử dụng trong công thức xếp hạng của mỗi mô hình xếp hạng cũng như trình bày đặc trưng nổi bật của các mô hình Trong
số này, các mô hình TF-IDF và BM25 được sử dụng rộng rãi trong các máy tìm kiếm Ví dụ, các máy tìm kiếm Solr3 áp dụng mô hình TF-IDF; máy tìm kiếm SMART được sử dụng phổ biến trước đây áp dụng mô hình BM25 Máy tìm kiếm Elastic4 cho phép tùy biến chọn áp dụng mô hình TF-IDF hoặc BM25 Trong các
mô hình khai thác mối liên hệ giữa các từ khóa, mô hình LSI thường dừng ở mức độ thử nghiệm do khối lượng tính toán lớn, mô hình lân cận chỉ giới hạn ở việc được
sử dụng như một thước đo bổ sung trong công thức xếp hạng của máy tìm kiếm do không xem xét trực tiếp mức độ ảnh hưởng của mỗi từ khóa đối với tài liệu
Bảng 1.1 Thông tin sử dụng & đặc điểm của các mô hình xếp hạng
Boolean Sự tồn tại của từ khóa + Đơn giản
- Các từ khóa độc lập
- Không phục vụ xếp hạng VSM - Số lần xuất hiện của từ khóa
trong tài liệu
+ Giá trị
- Các từ khóa độc lập
- Khối lượng tính toán lớn TF-IDF - Số lần xuất hiện của từ khóa
trong tài liệu
- Độ dài tài liệu
+ Đơn giản, được sử dụng phổ biến
Trang 32- Các từ khóa độc lập
- Xác định các tham số điều chỉnh khi khởi tạo hệ thống
LSI - Trọng số theo các chiều trong
không gian ngữ nghĩa
+ Các văn bản được biểu diễn lại trong không gian với số lượng chiều thu hẹp
+ Giảm khối lượng tính toán sau khi đã đánh chỉ mục
- Chỉ phù hợp với kho tài liệu có kích thước nhỏ
Lân cận - Khoảng cách giữa các từ khóa
trong tài liệu
- Độ dài tài liệu
+ Xem xét mối liên hệ thông qua
vị trí, khoảng cách giữa các thuật ngữ
- Chỉ được sử dụng như thước đo phụ
Ở bảng trên, trong cột đặc điểm, các ưu điểm được đánh dấu cộng (+) và các hạn chế được đánh dấu (-) phía trước
1.2 ĐÁNH GIÁ HỆ THỐNG TRUY VẤN THÔNG TIN
1.2.1 Khái niệm
Việc đánh giá các hệ thống truy vấn thông tin đóng vai trò quan trọng, giúp
so sánh, chọn lựa mô hình, giải pháp phù hợp cũng như phục vụ quá trình thiết kế, phát triển và bảo trì hệ thống [100] Công việc này liên quan đến việc xác định các tiêu chuẩn thành công (có thể đo được) của một hệ thống Có thể đánh giá các tính chất như kích thước dữ liệu, tính hiệu quả truy vấn của hệ thống, hay sự thỏa mãn
và chấp nhận của người dùng thông qua thời gian thực hiện, các nỗ lực của người dùng, hay cách thể hiện kết quả [29] Việc đánh giá đòi hỏi sự kết hợp người sử
Trang 33Độ chính xác (Precision) là tỷ lệ số tài liệu phù hợp trong so với số các tài liệu
được trả về, được ký hiệu là P:
với #retrieved_relelevantdocs là số tài liệu phù hợp được trả về và
#retrieved_docs là số tài liệu được trả về
Độ bao phủ (Recall) là tỷ lệ số tài liệu phù hợp được tải về, ký hiệu là R:
Độ chính xác tại mức k được tính toán nhằm xác định trong k kết quả tìm
kiếm đầu tiên, có bao nhiêu tài liệu thỏa mãn nhu cầu thông tin Công thức độ chính
xác tại mức k ký hiệu là P@k và có dạng sau:
với #relevantdocs(k) là số văn bản phù hợp trong danh sách k văn bản đầu
tiên
Trang 34- 21 -
Độ chính xác trung bình AP (Average Precision) là giá trị trung bình của
các giá trị P@k tại các mức k nhằm đánh giá hiệu quả của một câu truy vấn Gọi
I(K) là hàm xác định đối tượng ở vị trí hạng K, nếu phù hợp thì I(K) = 1 và ngược
lại I(K) = 0, n là số tài liệu tải về bởi câu truy vấn Công thức độ chính xác trung bình AP cho một câu truy vấn có dạng:
Trên cơ sở các định nghĩa trên, Độ chính xác trung bình trên tất cả các
truy vấn MAP (Mean Average Precision) được định nghĩa nhằm đánh giá hiệu quả bình quân trên tập hợp các câu truy vấn Công thức MAP có dạng:
quan, không liên quan), với mức độ phù hợp rel i của văn bản thứ i, giá trị
Discounted Cumulative Gain – DCG cho một mức xếp hạng p ký hiệu là DCG p và được tính bằng công thức:
trong đó IDCG là giá trị DCG trong trường hợp kết quả đưa ra là hoàn hảo,
nhận được khi tất cả các văn bản đều được xếp đúng vị trí tương ứng với độ phù
hợp của chúng Trong khi độ đo P@k được sử dụng khi các tài liệu chỉ được đánh
Trang 35- 22 -
giá phù hợp hay không so với câu truy vấn, thước đo nDCG được áp dụng khi xem
xét các tài liệu có nhiều hơn 2 mức phù hợp so với câu truy vấn
Hình 1.2: Biểu đồ trung bình 11 điểm
Bên cạnh các thước đo đã nêu, để mô tả sự quan hệ giữa độ chính xác và độ bao phủ, biểu đồ trung bình 11 điểm thường được sử dụng bằng cách tính giá trị trung bình của độ chính xác nội suy tương ứng 11 mức bao phủ (0.0, 0.1,…., 0.9, 1.0) trên một tập hợp các câu truy vấn Hình 1.2 mô tả một ví dụ cho biểu đồ trung bình 11 điểm
1.2.3 Môi trường thực nghiệm
Việc nghiên cứu và phát triển các hệ thống truy vấn thông tin luôn kết hợp với việc phát triển các mô hình, công cụ và kỹ thuật phục vụ truy vấn nhằm nâng cao khả năng đáp ứng nhu cầu tìm kiếm thông tin của người dùng Môi trường thực nghiệm được xây dựng nhằm giúp cho việc kiểm tra, đánh giá cũng như hoàn chỉnh các mô hình, công cụ và kỹ thuật [129]
Để thực hiện thực nghiệm, cần một bộ dữ liệu đánh giá, được biểu diễn như
là một tập hợp (D, Q, R, M), trong đó D là kho tài liệu được tìm kiếm, Q là tập hợp các chủ đề được xác định trước, biểu diễn dưới dạng các câu truy vấn, R là tập kết quả đánh giá về sự phù hợp của các tài liệu và câu truy vấn, M là thước đo hiệu quả
của hệ thống [69]
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Trang 36- 23 -
Bộ dữ liệu đánh giá truy vấn thông tin đầu tiên được tạo ra tại Trường Cao đẳng Hàng không Cranfield Tổng cộng 1400 tài liệu nghiên cứu khí động học được xem xét, mức độ phù hợp của tất cả các tài liệu tương ứng với mỗi truy vấn được thực hiện thủ công bởi chuyên gia [129]
Với các kho tài liệu lớn hơn, phương pháp pooling được đề xuất bởi Jones và
Van Rijsbergen được áp dụng với mục tiêu giảm số lượng các đánh giá thủ công
cần thực hiện [147] Trong phương pháp này, với mỗi câu truy vấn, n tài liệu được
xếp hạng đầu tiên trả về bởi hệ thống truy vấn khác nhau được lựa chọn và trộn, loại
bỏ các văn bản trùng, tạo thành danh sách tài liệu cần phải được đánh giá bởi các chuyên gia Phương pháp này được áp dụng rộng rãi tại các hội nghị nghiên cứu khác nhau như Text REtrieval Conference (TREC), Cross Language Evaluation Forum (CLEF), Forum for Information Retrieval Evaluation (FIRE), NACSIS Test Collection for Information Retrieval (NTCIR), Chinese Web Information Retrieval Forum (CWIRF) và IR Initiative for Evaluation of XML retrieval (INEX) [106] Tại các hội nghị này, điểm số MAP là độ đo chính được sử dụng để đánh giá chất lượng các hệ thống
Trong những năm gần đây, một số nghiên cứu trong truy vấn thông tin liên quan đến tiếng Việt đã và đang được triển khai [63], [109], [112] Do sự khác biệt trong cấu trúc ngữ pháp của tiếng Việt so với tiếng Anh hoặc các ngôn ngữ châu Âu khác, các kỹ thuật mã hóa tài liệu, lập chỉ mục, so sánh tài liệu phục vụ truy vấn thông tin cũng có những điểm khác biệt Các bộ dữ liệu đánh giá được các tác giả
sử dụng vẫn giới hạn ở một số lượng nhỏ các câu truy vấn Hơn nữa, các bộ dữ liệu này chưa được công bố và chưa được cho phép sử dụng rộng rãi Việc thiếu một môi trường đánh giá chung gây khó khăn cho việc so sánh hiệu quả của các phương pháp, các hướng tiếp cận khác nhau và do đó chưa thúc đẩy việc hình thành một môi trường cộng tác cho các nhà nghiên cứu trong lĩnh vực này
Trang 37Vấn đề cốt lõi trong lĩnh vực truy vấn thông tin liên quan đến việc trình bày nội dung thông tin Một tài liệu và một câu truy vấn có thể cùng mô tả một nội dung, một vấn đề nhưng lại có thể được trình bày bằng các từ ngữ khác nhau Điều này gây khó khăn cho việc xác định tài liệu phù hợp với câu truy vấn Đối với truy vấn thông tin xuyên ngữ, vấn đề lại càng trở nên khó khăn hơn do sự khác biệt về ngôn ngữ giữa câu truy vấn và các tài liệu cần tìm kiếm
1.3.2 Các hướng tiếp cận
Để thực hiện việc xác định các tài liệu phù hợp với câu truy vấn, các giải pháp được đề xuất đều cố gắng biểu diễn câu truy vấn và các tài liệu trong một không gian chung, cho phép so sánh các tài liệu và câu truy vấn
Hai hướng tiếp cận chủ yếu trong CLIR là dịch câu truy vấn và dịch tài liệu Trong hướng thứ nhất, câu truy vấn được dịch từ ngôn ngữ nguồn sang ngôn ngữ đích của các tài liệu cần tìm kiếm Hướng thứ hai thực hiện việc dịch các tài liệu ở ngôn ngữ đích sang ngôn ngữ nguồn của câu truy vấn [172] Bên cạnh đó, ở hướng tiếp cận thứ ba của CLIR, cả câu truy vấn và các tài liệu được chuyển sang một ngôn ngữ trung gian phục vụ việc so sánh và đánh giá
Hướng tiếp cận dịch câu truy vấn được nghiên cứu rộng rãi và áp dụng phổ biến nhất do tính đơn giản và hiệu quả Hạn chế chủ yếu của hướng tiếp cận này là vấn đề nhập nhằng nghĩa, có nguyên nhân từ sự hạn chế thông tin và ngữ cảnh trong câu truy vấn Từ cách nhìn này, hướng tiếp cận dịch tài liệu dựa vào các hệ thống dịch máy tự động hứa hẹn một chất lượng cao hơn Tuy nhiên, các kết quả nghiên cứu cho thấy chưa có ưu thế rõ ràng của giải pháp dịch tài liệu so với dịch câu truy
Trang 381.4 CÁC KỸ THUẬT XẾP HẠNG LẠI
1.4.1 Xếp hạng và xếp hạng lại
Trong truy vấn thông tin, thông thường việc xếp hạng được thực hiện thông qua việc tính toán điểm số đo mức độ phù hợp giữa tài liệu và câu truy vấn, phục vụ mục tiêu tạo lập một danh sách các tài liệu theo thứ tự giảm dần của điểm số [97]
Khi thực hiện câu truy vấn, danh sách kết quả tìm kiếm ban đầu có thể chưa đảm bảo chất lượng hoặc chưa thực sự phù hợp với nhu cầu đa dạng của những người dùng khác nhau Các nghiên cứu liên quan kỹ thuật xếp hạng lại được thực hiện nhằm tăng độ chính xác ở đầu danh sách kết quả tìm kiếm [6], [22], [92], [123], [162]
Trong khi các kỹ thuật xếp hạng cơ sở đã trình bày liên quan nhiều đến việc tạo lập chỉ mục hay đánh giá cho một tập hợp lớn các văn bản, quá trình xếp hạng lại thường chỉ xem xét một số hữu hạn, có thể giới hạn ở vài chục đến vài nghìn văn bản Đây chính là cơ hội để có thể áp dụng các thuật toán phức tạp hơn, từ các phương pháp thống kê, các phương pháp sử dụng phản hồi, cho đến việc áp dụng các thuật toán xử lý ngôn ngữ tự nhiên, phân tích ngữ nghĩa, ngữ cảnh, áp dụng kỹ thuật học máy trong việc điều chỉnh các tham số trong công thức xếp hạng, hoặc tạo lập công thức tổng hợp các phương pháp đã nêu
Trang 39 Khai thác thông tin người sử dụng
1.4.2 Khai thác thông tin của các máy tìm kiếm có sẵn
Kỹ thuật trộn kết quả và xếp hạng lại được sử dụng rộng rãi trong các hệ thống tìm kiếm liên hợp [101] hoặc phân tán [20] Các hệ thống này không lập chỉ mục cho các văn bản mà khai thác thông tin của các máy tìm kiếm có sẵn
1.4.2.1 Kết hợp điểm xếp hạng có sẵn
Phương pháp đơn giản nhất để trộn các kết quả xếp hạng là Raw-score, sử dụng trực tiếp điểm xếp hạng trong từng danh sách kết quả tìm kiếm gốc [139] Phương pháp CombSUM được đề nghị bởi Fox và Shaw, thực hiện việc lấy tổng điểm số của văn bản trong các máy tìm kiếm khác nhau để xác định điểm xếp hạng
CombSUM cho một tài liệu [144]:
=
∈
(1.17)
với IR Servers là tập hợp các máy tìm kiếm, score i là điểm của tài liệu được
gán bởi máy tìm kiếm i
Điểm số score được gán bởi một máy tìm kiếm có thể được chuẩn hoá thành điểm NormalizedScore [90] để tránh sự khác biệt về chuẩn điểm của các máy tìm kiếm:
với MinScore và MaxScore là các giá trị nhỏ nhất và lớn nhất trong điểm số
của tất cả các tài liệu được gán bởi máy tìm kiếm
Để khắc phục hạn chế khi cộng điểm xếp hạng của các máy tìm kiếm vốn khác nhau về chất lượng xếp hạng, cách tính điểm, cách thức trình bày, công thức
Trang 40- 27 -
trộn xếp hạng với trọng số máy chủ Weighted CombSUM bổ sung các tham số tương
ứng với giá trị xếp hạng cho các máy chủ [56] Điểm xếp hạng WeightedCombSUM
của một tài liệu được tính bằng công thức:
∈
(1.19)
Ở đây, w i là trọng số được gán trước cho máy tìm kiếm i trong tập hợp các
máy tìm kiếm IR Servers; NormalizedScore i là điểm chuẩn hóa của được gán bởi
máy chủ i cho tài liệu như ở công thức (1.18)
Tương tự, một số nghiên cứu [66], [159] đề xuất hàm tuyến tính kết hợp điểm xếp hạng của các máy tìm kiếm dạng:
Phương pháp Round Robin [139] là phương pháp trộn đơn giản nhất, được
thực hiện như sau: cho m danh sách kết quả trả về từ các máy chủ tìm kiếm gốc L 1 ,
L 2 , , L m ; trước hết ta lấy m kết quả đầu tiên là R 1 từ các danh sách L i , sau đó lấy m kết quả thứ hai là R 2 từ các danh sách L i và tiếp tục như vậy Kết quả cuối cùng của
quá trình trộn có dạng L 1 R 1 , , L m R 1 , L 1 R 2 , , L m R 2 , Đây là giải pháp phù hợp
nhằm đảm bảo tốc độ tìm kiếm khi các nguồn thông tin có chất lượng tương đương Trên thực tế, các máy tìm kiếm quản lý các kho tài liệu với chất lượng khác nhau và cách thức xếp hạng khác nhau và khi đó phương pháp trộn này trở nên không phù hợp