Nhằm nghiên cứu các vấn đề có liên quan đến giảm thời gian và công sức trong tìm kiếm thông tin, tác giả lựa chọn đề tài “Hệ thống trợ giúp tìm kiếm thông tin” với mong muốn có được một
Trang 1-
luËn v¨n th¹c sÜ khoa häcngµnh : c«ng nghÖ th«ng tin
HÖ thèng trî gióp t×m kiÕm th«ng tin
Trang 2trường đại học bách khoa hà nội
Trang 3MỤC LỤC
DANH MỤC HÌNH VẼ VÀ BẢNG 2
DANH MỤC THUẬT NGỮ 3
Chương 0 4 GIỚI THIỆU 4
0.1 Đặt vấn đề 4
0.2 Mục tiêu 5
0.3 Bố cục nội dung luận văn 5
Chương 1 6 TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THÔNG TIN 6
1.1 Giới thiệu về hệ thống tìm kiếm thông tin 6
1.1.1 Định nghĩa hệ thống tìm kiếm thông tin 6
1.1.2 Mục tiêu của hệ thống tìm kiếm thông tin 9
1.2 Các tiêu chí đánh giá một hệ thống tìm kiếm thông tin 11
1.3 Các chức năng của hệ thống tìm kiếm thông tin 13
1.3.1 Chức năng tìm kiếm 13
1.3.1.1 Logic Boolean 14
1.3.1.2 Xác định mức độ gần gũi 14
1.3.1.3 Mệnh đề từ gần nhau 15
1.3.1.4 Tìm ki ếm mờ 16
1.3.1.5 Che giấu thuật ngữ 16
1.3.1.6 Các l ĩnh vực về số và ngày tháng 17
1.3.1.7 Mở rộng về khái niệm và từ điển đồng nghĩa 17
1.3.1.8 Các truy vấn ngôn ngữ tự nhiên 19
1.3.2 Chức năng duyệt 21
1.3.2.1 Xếp hạng 21
1.3.2.2 Phân vùng 22
Trang 41.3.2.3 Đánh dấu 23
1.4 Kỹ thuật đánh chỉ mục 23
1.4.1 Mục đích của việc đánh chỉ mục 23
1.4.2 Đánh chỉ mục tự động 25
1.4.2.1 Đánh chỉ mục bằng thuật ngữ 26
1.4.2.2 Đánh chỉ mục bằng khái niệm 28
1.4.3 Mô hình Latent Semantic Indexing (LSI) 28
1.5 Các cấu trúc dữ liệu thường sử dụng trong hệ thống tìm kiếm thông tin 32 1.5.1 Giới thiệu về các cấu trúc dữ liệu 32
1.5.2 Các thuật toán lấy gốc từ 33
1.5.2.1 Giới thiệu về quá trình stemming 33
1.5.2.2 Thuật toán Porter Stemming 34
1.5.2.3 Stemmer tra c ứu từ điển 35
1.5.2.4 Stemmer kế thừa 36
1.5.3 Cấu trúc file nghịch đảo 39
1.5.4 C ấu trúc dữ liệu N-Grams 42
1.5.5 Cấu trúc dữ liệu PAT (Patricia Trees) 44
1.5.6 C ấu trúc dữ liệu siêu văn bản và XML 48
1.5.7 Mô hình Markov ẩn 48
1.6 Các kỹ thuật tìm kiếm hướng người dùng 52
1.6.1 Các câu l ệnh tìm kiếm và ràng buộc 52
1.6.2 Độ tương tự và xếp hạng 53
1.6.2.1 Độ tương tự 54
1.6.2.2 Các k ỹ thuật mô hình Markov ẩn 55
1.6.2.3 Thuật toán xếp hạng 55
1.6.3 Phản hồi thông tin liên quan 57
Chương 2 59 MỘT SỐ PHƯƠNG PHÁP BIỂU DIỄN TÀI LIỆU TRONG CÁC HỆ THỐNG TÌM KIẾM THÔNG TIN 59
Trang 52.1 Mô hình Boolean (Boolean Model) 60
2.2 Mô hình không gian vector (Vector Space Model) 62
2.2.1 Mô hình Boolean 63
2.2.2 Mô hình tần suất (Term Frequency - TF) 63
2.2.3 Mô hình nghịch đảo tần số văn bản (Inverse Document Frequency - IDF) 63
2.2.4 Mô hình kết hợp TFxIDF 64
2.2.5 Áp dụng phương pháp vector thưa trong biểu diễn văn bản 64
2.3 Mô hình xác suất (Probabilistic Model) 65
2.4 Mô hình tập mờ (Fuzzy Set Model) 67
2.4.1 Lý thuyết tập mờ FS 67
2.4.2 Biểu diễn văn bản dựa trên khái niệm mờ 68
2.5 Mô hình tập thô (Rough Set Model) 70
2.5.1 Giới thiệu về lý thuyết tập thô và mô hình tập thô dung sai 70
2.5.2 Ứng dụng mô hình tập thô trong bài toán tìm kiếm thông tin 72
Chương 3 74 HỆ THỐNG TRỢ GIÚP TÌM KIẾM THÔNG TIN 74
3.1 Giới thiệu 74
3.2 Quá trình phát triển của hệ tìm kiếm 76
3.2.1 Quá trình phát triển từ hệ tìm kiếm dữ liệu (DRS) lên hệ tìm kiếm thông tin (IRS) 76
3.2.2 Quá trình phát triển từ IRS lên IRSS 78
3.3 Các vấn đề cơ bản của hệ thống trợ giúp tìm kiếm thông tin 80
3.3.1 Khái niệm về hệ thống trợ giúp tìm kiếm IRSS 80
3.3.2 Đặc điểm của IRSS 80
3.3.3 Các thành phần của IRSS 83
3.3.4 Các l ĩnh vực liên quan đến IRSS 84
3.4 Các kỹ thuật trợ giúp người dùng 85
3.4.1 Gợi ý thuật ngữ tới người dùng 85
Trang 63.4.1.1 Phương thức hỗ trợ tìm kiếm thông tin 87
3.4.1.2 K ỹ thuật mở rộng truy vấn 89
3.4.1.3 Quá trình xếp hạng các tài liệu tìm kiếm 90
3.4.2 Một số chức năng nâng cao khác 92
Chương 4 93 MÔ TẢ CHƯƠNG TRÌNH VÀ KẾT QUẢ THỬ NGHIỆM 93
4.1 Mô tả thuật toán Knuth-Morris-Pratt 93
4.4.2 Tư tưởng của thuật toán 93
4.1.2 Phát biểu thuật toán 94
4.1.3 Nhận xét về thuật toán 95
4.2 Giới thiệu chương trình 95
4.2.1 Phương pháp tìm kiếm 95
4.2.2 Giao diện chương trình 96
4.3 Thực nghiệm khả năng của chương trình 99
4.3.1 Điều kiện thực nghiệm 99
4.3.2 Kết quả thực nghiệm 99
4.4 Nhận xét kết quả thực nghiệm 101
Chương 5 101 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 102
5.1 Kết luận chung 102
5.1.1 Những kết quả đạt được 102
5.1.2 Những khó khăn còn tồn tại 102
5.2 Hướng phát triển 103
Trang 8L ỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Hệ thống trợ giúp tìm kiếm thông tin” là do
tôi thực hiện, dưới sự hướng dẫn của PGS TS Nguyễn Thanh Thuỷ - Viện Công nghệ thông tin và Truyền thông, Trường Đại học Bách Khoa Hà Nội Các kết quả nghiên cứu được trình bày trong luận văn hoàn toàn trung thực Mọi trích dẫn và tài liệu tham khảo được sử dụng trong luận văn đều được tôi chỉ rõ nguồn gốc
Hà nội, ngày 22 tháng 10 năm 2009
Tác giả luận văn
V ũ Thị Việt Thanh
Trang 9DANH M ỤC HÌNH VẼ VÀ BẢNG
Hình 1.1: Mô hình của hệ thống tìm kiếm thông tin 7
Hình 1.2 : Minh họa về độ chính xác và gọi lại 13
Hình 1.3: Sự sử dụng của các phép toán Boolean 14
Hình 1.4: Cách sử dụng che giấu thuật ngữ 17
Hình 1.5: Các từ đồng nghĩa với thuật ngữ “computer” 19
Hình 1.6: Cấu trúc lớp khái niệm phân cấp của “computer” 19
Hình 1.7: Mạng Bayesian 2 mức 27
Hình 1.8: Hệ số k trên các tập dữ liệu mẫu 31
Hình 1.9: Biểu diễn ma trận xấp xỉ A k có hạng là k 31
Hình 1.10: Giải thuật k-means áp dụng cho hệ IR 32
Hình 1.11: Các cấu trúc dữ liệu chính 33
Hình 1.12: Cây biểu tượng của các thuật ngữ bag, barn, bring, box, bottle, both 38
Hình 1.13: Các Stemming kế thừa 38
Hình 1.14: Cấu trúc file nghịch đảo 40
Hình 1.15: Bigrams, Trigrams, và Pentagrams đối với “sea colony” 42
Hình 1.16: Các loại lỗi chính tả 43
Hình 1.17: Các ví dụ của xâu bán vô hạn 45
Hình 1.18: Các xâu bán vô hạn đối với xâu đầu vào “100110001101” 46
Hình 1.19: Cây nhị phân PAT với đầu vào “100110001101” 47
Hình 1.20: Cây nhị phân PAT bỏ qua bit với đầu vào “100110001101” 47
Hình 1.21: Các ví dụ về ràng buộc truy vấn 53
Bảng 2.1: Đặc điểm của một số mô hình tìm kiếm thông tin 59
Hình 2.1: Ma trận ảnh hưởng thuật ngữ – tài liệu 61
Hình 2.2: Biểu diễn các vector văn bản trong không gian chỉ có 2 thuật ngữ 62
Bảng 2-2: Ví dụ biểu diễn vector thưa 65
Trang 10DANH M ỤC THUẬT NGỮ
STT Từ viết tắt Thuật ngữ Tiếng Anh Thuật ngữ Tiếng Việt
2 DR Data Retrieval Tìm kiếm dữ liệu
3 DRS Data Retrieval System Hệ thống tìm kiếm dữ liệu
4 DSS Decision Support System Hệ hỗ trợ quyết định
5 DBMS Database Management
System Hệ quản trị cơ sở dữ liệu
6 HMM Hiden Markov Model Mô hình Markov ẩn
7 HTML Hypertext Markup
Language
Ngôn ngữ đánh dấu siêu văn bản
8 HTTKTT Information Retrieval
System Hệ thống tìm kiếm thông tin
9 HTTT Information System Hệ thống thông tin
10 IDF Inverse Document
Frequency Nghịch đảo tần số văn bản
11 IR Information Retrieval Tìm kiếm thông tin
12 IRS Information Retrieval
System Hệ thống tìm kiếm thông tin
13 IRSS Information Retrieval
Support System
Hệ thống trợ giúp tìm kiếm thông tin
14 MBMS Model Base Management
System Hệ quản trị cơ sở mô hình
15 PAT PAtricia Trees Cấu trúc dữ liệu cây PAT
16 TF Term Frequency Tần suất xuất hiện
của thuật ngữ
17 XML eXtensible Markup
Language Ngôn ngữ đánh dấu mở rộng
Trang 11Ch ương 0
0.1 Đặt vấn đề
Ngày nay, cùng với sự phát triển nhanh chóng, mạnh mẽ của thông tin,
đặc biệt là sự phát triển vượt bậc của World Wide Web, vấn đề làm thế nào để
tìm kiếm được các thông tin và kiến thức có ích đã trở thành đề tài rất quan trọng trong khoa học máy tính và thông tin Thông tin được lưu trữ hàng ngày, thậm chí hàng giờ, trở thành một kho tàng khổng lồ cung cấp những kiến thức quý báu về đời sống, khoa học, kỹ thuật cho người sử dụng Tuy nhiên, không phải ai cũng dễ dàng tìm được chính xác thông tin cần thiết do nhiều lý do khách quan khác nhau Hiện nay, các hệ thống tìm kiếm thông tin (thường gọi là máy tìm kiếm - Search Engine ) như Google, Yahoo, Live,
dùng, nhưng họ vẫn chưa hoàn toàn thấy thỏa mãn, khi phải mất rất nhiều thời gian để đọc các tài liệu không liên quan
Nhằm nghiên cứu các vấn đề có liên quan đến giảm thời gian và công sức trong tìm kiếm thông tin, tác giả lựa chọn đề tài “Hệ thống trợ giúp tìm
kiếm thông tin” với mong muốn có được một cách nhìn tổng quan về hệ
thống tìm kiếm thông tin hiện nay, cùng với các công cụ, tiện ích, ngôn ngữ
và tính năng nâng cao hỗ trợ thêm cho người dùng
Tôi xin trân trọng cảm ơn Viện Đào tạo Sau đại học - Trường Đại học Bách Khoa Hà Nội, các thầy cô giáo, cùng toàn thể các bạn đồng nghiệp Và đặc biệt tôi xin chân thành cảm ơn PGS TS Nguyễn Thanh Thuỷ, người đã
trực tiếp hướng dẫn và cho tôi những ý kiến quý báu để tôi có thể hoàn thành
luận văn này
Trang 12Trong một thời gian ngắn, những nội dung được trình bày trong luận
khoa học Luận văn sẽ tiếp tục được nghiên cứu, hy vọng nhận được những ý kiến đóng góp để luận văn được hoàn thiện hơn
0.2 M ục tiêu
Nghiên cứu về hệ thống trợ giúp tìm kiếm thông tin và xây dựng chương trình thử nghiệm ứng dụng cho tìm kiếm văn bản
0.3 Bố cục nội dung luận văn
Toàn bộ nội dung luận văn được thể hiện qua các chương như sau:
• Chương 0: Giới thiệu về đề tài “Hệ thống trợ giúp tìm kiếm thông tin”
• Chương 1: Trình bày tổng quan về hệ thống thông tin, mục tiêu, chức năng, các cấu trúc dữ liệu thường sử dụng trong hệ thống thông tin và các kỹ thuật tìm kiếm hướng người dùng
• Chương 2: Trình bày về một số phương pháp biểu diễn tài liệu trong hệ thống tìm kiếm thông tin như mô hình Boolean, mô hình không gian vector, mô hình xác suất, mô hình tập thô, mô hình tập mờ cùng với các
ưu, nhược điểm của mỗi mô hình
• Chương 3: Trình bày về hệ thống trợ giúp tìm kiếm thông tin Lịch sử
ra đời, định nghĩa, thành phần và chức năng
• Chương 4: Giới thiệu về chương trình xây dựng và các kết quả thực nghiệm kiểm thử chất lượng của hệ thống
• Chương 5: Nhận xét về những mặt đã được và những vấn đề tồn tại, từ
đó đề ra những hướng phát triển trong thời gian tiếp theo
Trang 13Ch ương 1:
TỔNG QUAN VỀ HỆ THỐNG TÌM KIẾM THÔNG TIN
1.1 Gi ới thiệu về hệ thống tìm kiếm thông tin
Chương này đưa ra định nghĩa hệ thống lưu trữ và tìm kiếm thông tin (nói ngắn gọn là hệ thống tìm kiếm thông tin - HTTKTT), mục tiêu, chức năng, các cấu trúc dữ liệu thường sử dụng trong hệ thống thông tin (HTTT) và các kỹ thuật tìm kiếm hướng người dùng
1.1.1 Định nghĩa hệ thống tìm kiếm thông tin
Hệ thống tìm kiếm thông tin là một hệ thống có khả năng lưu trữ, tìm kiếm và bảo trì thông tin Thông tin có thể bao gồm văn bản (dữ liệu số và
khác Thuật ngữ Information Retrieval (IR) tạm dịch là tìm kiếm thông tin, trong đó ứng dụng quan trọng nhất là tìm kiếm các tài liệu được người sử dụng quan tâm trong cơ sở dữ liệu (bao gồm việc tìm kiếm và sắp xếp thứ tự các tài liệu liên quan theo độ tương tự), đặc biệt là trong các công cụ tìm kiếm Đôi khi thuật ngữ này được hiểu như toàn bộ quá trình, từ việc xử lý tới phân lớp và tìm kiếm tài liệu
Các HTTKTT không giống các hệ thống trả lời câu hỏi ở chỗ nó chỉ ra
sự tồn tại và vị trí các tài liệu có chứa thông tin cần thiết Những tài liệu được
hệ thống trả lời, thoả mãn yêu cầu của người sử dụng được gọi là các tài liệu
liên quan (relevant document) Một hệ thống tìm kiếm hoàn hảo sẽ chỉ tìm và đưa ra các tài liệu liên quan, mà không đưa ra các tài liệu ít có liên quan Tuy nhiên, trên thực tế các hệ thống này không tồn tại bởi cách biểu diễn câu hỏi không đầy đủ và mức độ liên quan phụ thuộc vào quan điểm chủ quan của từng người Hai người sử dụng có thể cùng đưa ra một truy vấn với một hệ
Trang 14thống thông tin và sau đó, sẽ có những đánh giá khác nhau về mức độ liên quan trên các tài liệu đã tìm được
Nhiệm vụ của HTTKTT là giải quyết các vấn đề như biểu diễn, lưu trữ,
tổ chức và truy cập đến các mục thông tin theo yêu cầu của người sử dụng Một HTTKTT bao gồm ba quá trình cơ bản sau: biểu diễn nội dung tài liệu, biểu diễn yêu cầu của người sử dụng và so sánh hai biểu diễn này để tìm các tài liệu phù hợp với câu hỏi truy vấn
Hình 1.1: Mô hình của hệ thống tìm kiếm thông tin
Biểu diễn tài liệu thường gắn với quá trình đánh chỉ mục (indexing)
Công việc này thường dẫn đến chỉ lưu trữ một phần tài liệu trong hệ thống để phục vụ tìm kiếm, chẳng hạn như phần tiêu đề và phần tóm tắt Diễn đạt yêu
cầu người sử dụng gọi là quá trình biểu đạt câu hỏi truy vấn (query formulation process) Câu hỏi truy vấn thể hiện sự tương tác giữa hệ thống và người sử dụng, do đó HTTKTT cần có một cơ chế thuận tiện và hiệu quả để người sử dụng biểu diễn nội dung yêu cầu của mình Việc so sánh câu hỏi
truy vấn với tài liệu được gọi là quá trình so khớp (matching process) và kết
quả đưa ra của hệ thống là một danh sách các tài liệu được sắp xếp theo thứ tự mức độ liên quan với truy vấn
Trang 15Như vậy, để mô tả thông tin yêu cầu một cách đầy đủ, người sử dụng không thể trực tiếp truy vấn thông tin bằng cách sử dụng các giao diện hiện có của hệ thống, mà phải chuyển đổi các yêu cầu này thành một câu hỏi truy vấn
để hệ thống tìm kiếm có thể hiểu và thực hiện được Thông thường, phép chuyển đổi này tạo ra một tập các thuật ngữ mô tả khái quát yêu cầu của người sử dụng
Để tìm kiếm thông tin hiệu quả, đáp ứng yêu cầu của người sử dụng, HTTKTT cần phải “hiểu” được các nội dung của tài liệu trong cơ sở dữ liệu (CSDL) và sắp xếp theo mức độ phù hợp với câu hỏi truy vấn Sự “hiểu biết” nội dung tài liệu này bao gồm việc trích chọn thuật ngữ, biểu diễn các thuật ngữ này trong không gian ngữ nghĩa và sử dụng chúng để so sánh với yêu cầu của người sử dụng Để xây dựng một hệ thống tìm kiếm có hiệu quả cao, trước hết các tài liệu và câu hỏi truy vấn ở dạng ngôn ngữ tự nhiên cần phải được tiền xử lý và chuẩn hóa Quá trình tiền xử lý dữ liệu thường bao gồm các thao tác chính là loại bỏ các từ dừng trong danh sách, loại bỏ các từ chỉ xuất hiện duy nhất một lần trong toàn bộ CSDL và lấy gốc của từ (đối với các ngôn ngữ mà các từ có hậu tố)
Từ dừng (stop words) là những từ mang ít ý nghĩa hay nội dung trong
xử lý văn bản, nhưng lại xuất hiện trong hầu hết các văn bản, chẳng hạn như: các liên từ, giới từ, đại từ … (như trong tiếng Việt: nếu, thì, vì thế, hơn nữa, tuy nhiên, …) Việc loại bỏ các từ dừng đồng nghĩa với việc giảm số chiều của không gian lưu trữ và biểu diễn, do đó làm tăng chất lượng của HTTKTT
Các từ có tần suất xuất hiện quá thấp trong CSDL cũng cần được loại
bỏ vì nó mang lại rất ít giá trị thông tin trong quá trình xử lý Thông thường, các hệ thống đều thực hiện loại bỏ những thuật ngữ chỉ xuất hiện một lần duy nhất trong CSDL để tăng hiệu năng xử lý và giảm kích thước lưu trữ dữ liệu
Trang 16Quá trình lấy gốc từ (stemming) cũng có tác dụng làm giảm số chiều
của không gian lưu trữ Trong nhiều trường hợp, tài liệu có độ phù hợp cao nhất so với câu hỏi truy vấn lại không chứa thông tin mà người sử dụng đang tìm kiếm Chính vì lý do này, thông tin phản hồi rất quan trọng khi muốn tăng chất lượng của hệ thống tìm kiếm Một số công cụ tìm kiếm văn bản cao cấp xây dựng riêng một giao diện để thu thập các thông tin phản hồi của người sử dụng để thay đổi trọng số của văn bản, từ đó nâng cao chất lượng của hệ thống
Hầu hết các công cụ tìm kiếm chỉ tập trung vào các quá trình đầu, còn quá trình thu thập thông tin phản hồi chỉ được phát triển bởi một số công cụ tìm kiếm phức tạp và có tài nguyên đủ mạnh để thực hiện
1.1.2 Mục tiêu của hệ thống tìm kiếm thông tin
Mục tiêu chung của HTTKTT là cực tiểu hóa chi phí người dùng trong
việc định vị các thông tin họ cần Chi phí có thể hiểu là thời gian người sử
dụng dùng để thực hiện tất cả các bước, đưa ra được tài liệu có chứa thông tin
cần thiết (chẳng hạn đưa ra truy vấn, thực hiện truy vấn, quét các kết quả của truy vấn để chọn ra các tài liệu cần đọc, đọc các tài liệu không liên quan) Trong một số trường hợp, thông tin cần thiết được hiểu là tất cả các thông tin trong hệ thống có liên quan đến yêu cầu của người dùng Trong một số trường
hợp khác, nó có thể hiểu là có đủ thông tin để hoàn thành công việc, thậm chí ngay cả khi dữ liệu bị mất
Mục đích đầu tiên của HTTKTT là hỗ trợ tìm kiếm người dùng Có
những trở ngại khách quan tới việc xác định chính xác được thông tin người dùng cần như: sự nhập nhằng cố hữu trong ngôn ngữ, giới hạn trong khả năng
trong CSDL Ngôn ngữ tự nhiên hay bị nhập nhằng như từ đồng âm khác nghĩa và sử dụng các từ viết tắt giống nhau nhưng nghĩa khác nhau Đã có
Trang 17những kỹ thuật giải quyết nhập nhằng nhưng đòi hỏi chi phí hệ thống trong
khả năng xử lý, tìm kiếm mở rộng và thường yêu cầu giao tiếp với người dùng
Người sử dụng có thể gặp rắc rối khi đưa ra một phát biểu tìm kiếm
biểu logic Boolean Việc sử dụng logic Boolean kế thừa trong quá trình phát triển hệ quản trị CSDL Cho đến nay, các hệ thống thương mại (như RetrievalWare, TOPIC, AltaVista, Infoseek và INQUERY) vẫn dựa trên tiếp cận CSDL, sử dụng các truy vấn ngôn ngữ tự nhiên Điều này cho phép người
sử dụng biểu đạt rõ ràng bằng ngôn ngữ tự nhiên điều họ đang quan tâm tìm
tính sẵn có trong hệ thống để xây dựng các truy vấn ngôn ngữ tự nhiên dưới dạng một mệnh đề hoàn chỉnh Trong hầu hết ứng dụng, người sử dụng Internet chỉ gõ một hoặc hai thuật ngữ tìm kiếm
Dữ liệu đa phương tiện cũng là nguyên nhân làm tăng độ phức tạp tìm
kiếm Vấn đề là tạo lập cách thức chuyển các dữ liệu đó thành văn bản để các
kỹ thuật thao tác tìm kiếm văn bản chuẩn vẫn có thể áp dụng được Tuy vậy, khi truy vấn tìm kiếm hình ảnh, âm thanh hoặc đoạn video, không có phương pháp chuyển đổi nào là tốt cả Thông thường, chúng biểu diễn thông qua các
mẫu lưu trữ về đối tượng trong phương tiện truyền thông để cho người dùng lựa chọn khi tìm kiếm
Ngoài những khó khăn phức tạp khi biểu đạt truy vấn, người sử dụng hoàn toàn không phải là một chuyên gia trong lĩnh vực chuyên môn đang tìm
kiếm thông tin Họ thiếu vốn từ vựng để tham chiếu đến vùng đối tượng quan
tổng quát về thông tin yêu cầu, nhưng khó thể hiện chính xác cái họ cần Kiến thức từ vựng giới hạn liên quan tới lĩnh vực chuyên biệt, đòi hỏi không tập
Trang 18trung chính xác vào thông tin cần thiết dẫn đến sử dụng không chính xác và trong một vài trường hợp sai lạc thuật ngữ tìm kiếm Thậm chí ngay cả khi người sử dụng là một chuyên gia trong lĩnh vực tìm kiếm, khả năng lựa chọn các thuật ngữ tìm kiếm đúng đắn cũng bị giới hạn do thiếu kiến thức về từ
vựng và yếu về khả năng diễn đạt Điều này cũng khá hạn chế trong lĩnh vực
hợp từ vựng của tác giả khi tạo lập văn bản ban đầu Người sử dụng thường
sử dụng với các truy vấn đơn giản, nên tỉ lệ thất bại có thể lên tới 50%
Do đó, một HTTKTT cần cung cấp các công cụ, cho phép khắc phục các vấn đề đã nêu ra ở trên Các công cụ tìm kiếm trợ giúp cho người dùng
một cách tự động và thông qua tương tác hệ thống, phát triển cách thức tìm kiếm biểu đạt được điều người dùng cần
Ngoài việc tìm kiếm thông tin có liên quan đến yêu cầu người dùng,
một mục tiêu nữa của hệ thống tìm kiếm là phải đưa ra được các kết quả trong
một khuôn dạng, tạo điều kiện thuận lợi cho người dùng khi xác định các thông tin liên quan HTTKTT đưa ra các kết quả của truy vấn theo thứ tự liên quan đến yêu cầu của người dùng
1.2 Các tiêu chí đánh giá một hệ thống tìm kiếm thông tin
Để đánh giá chất lượng của một HTTKTT, ta thường dựa vào các tiêu chí sau:
kiếm thông tin càng lớn, càng đa dạng về nội dung, nhưng hệ thống tìm kiếm vẫn thực hiện hiệu quả, điều này có nghĩa là chất lượng của hệ thống càng cao Chính vì vậy, người ta đã đưa ra một tập dữ liệu chuẩn cùng với các câu hỏi và câu trả lời tương ứng để có thể so sánh chất lượng của các
Trang 19• Thời gian phản hồi của hệ thống Khoảng thời gian này được tính từ khi hệ thống nhận được câu hỏi truy vấn cho đến khi người sử dụng nhận được câu trả lời của hệ thống Thời gian phản hồi càng ngắn nghĩa là hệ thống thực hiện tìm kiếm càng nhanh, do đó hiệu năng của hệ thống càng cao và ngược lại
thống chỉ có thể thực hiện tìm kiếm và trả lời cho người sử dụng các tài liệu liên quan đến câu hỏi, mà không trả lời được mức độ liên quan tương ứng của tài liệu Việc hiển thị kết quả như vậy rõ ràng là không hiệu quả, người sử dụng sẽ phải đọc tất cả các tài liệu được hệ thống trả về, từ đó tự tìm ra được các tài liệu quan tâm
• Khả năng biểu diễn câu hỏi thuận lợi và dễ dàng Trong thực tế, để biểu diễn chính xác và hiệu quả nội dung người sử dụng thực sự muốn tìm kiếm không phải đơn giản Một số hệ thống biểu diễn câu hỏi dưới dạng một dãy các từ khoá hay thuật ngữ, một số khác biểu diễn dưới dạng một chuỗi các phép toán logic (AND, OR, NOT) đối với các từ khoá trong câu hỏi Như vậy, hệ thống có khả năng biểu diễn các câu hỏi chính xác và hiệu quả, càng gần với ngôn ngữ tự nhiên của con người sẽ càng được đánh giá cao
• Không gian lưu trữ hệ thống yêu cầu cũng là một tiêu chí quan trọng Do tài nguyên của máy tính có hạn nên các hệ thống đòi hỏi càng ít không gian đĩa và sử dụng bộ nhớ hiệu quả sẽ càng được đánh giá cao hơn
• Độ chính xác P(precision) và độ gọi lại R (recall) của hệ thống tìm kiếm
Đây là hai tiêu chí quan trọng nhất để đánh giá chất lượng của một HTTKTT
Độ chính xác P của hệ thống là tỷ lệ giữa số tài liệu tìm được và có liên quan đến câu hỏi trên tổng số tài liệu hệ thống tìm được
Trang 20tập dữ liệu hệ thống trả lời cho người sử dụng hoàn toàn trùng khớp với tập
dữ liệu thực sự liên quan đến câu hỏi truy vấn có trong CSDL
Hình 1.2 : Minh họa về độ chính xác và gọi lại
1.3 Các ch ức năng của hệ thống tìm kiếm thông tin
Phần này trình bày các chức năng chính của HTTKTT Tìm và duyệt là hai chức năng chủ yếu giúp người sử dụng trong việc định vị các thông tin liên quan Chức năng tìm kiếm xử lý cả truy vấn Boolean và truy vấn ngôn
ngữ tự nhiên
1.3.1 Ch ức năng tìm kiếm
Mục tiêu của chức năng tìm kiếm là cho phép một ánh xạ giữa yêu cầu người dùng với các tài liệu trong CSDL và đưa ra câu trả lời Câu truy vấn tìm
Số tài liệu tìm được
nh ưng không đúng Số tài liệu liên quan nh ưng không tìm được
T ổng số tài liệu
Số tài liệu tìm được và đúng
Trang 21thiết trong hệ thống Nó có thể bao gồm văn bản ngôn ngữ tự nhiên kết hợp
với các thuật ngữ truy vấn and/ or với các chỉ thị logic Boolean giữa chúng
1.3.1.1 Logic Boolean
Logic Boolean cho phép người dùng có thể liên hệ một cách logic các khái niệm với định nghĩa về thông tin cần thiết Các phép toán Boolean điển
được sử dụng để chỉ rõ thứ tự thực hiện các phép toán Boolean Nếu không sử dụng dấu ngoặc đơn, hệ thống sẽ theo thứ tự ưu tiên mặc định của các phép toán (thông thường là NOT trước, sau đó đến AND, sau là đến OR) Trong ví
dụ về sự ảnh hưởng của các phép toán Boolean trong hình 1.3, không có thứ
tự ưu tiên thì các phép toán và truy vấn được thực hiện từ trái sang phải (trừ khi sử dụng dấu ngoặc đơn )
Hầu hết các HTTKTT đều cho phép các phép toán Boolean thực hiện trên giao diện ngôn ngữ tự nhiên
COMPUTER OR PROCESSOR
NOT MAINFRAME
Đưa ra tất cả các tài liệu nói về máy tính hoặc bộ xử lý, chứ không phải về máy tính lớn
COMPUTER OR (PROCESSOR
NOT MAINFRAME)
Đưa ra tất cả các tài liệu nói về máy tính hoặc các tài liệu nói về bộ xử lý
chứ không phải về máy tính lớn
COMPUTER AND NOT
PROCESSOR OR MAINFRAME
Đưa ra tất cả các tài liệu về máy tính nói chung chứ không phải chỉ về bộ vi
xử lý hoặc các tài liệu về máy tính lớn
Hình 1.3: S ự sử dụng của các phép toán Boolean 1.3.1.2 Xác định mức độ gần gũi
Mức độ gần gũi được sử dụng để xác định mức độ tương tự nhau trong tài liệu giữa hai thuật ngữ tìm kiếm Về mặt ngữ nghĩa, hai thuật ngữ gần
Trang 22nhau trong văn bản có liên quan đến mô tả khái niệm về cùng một đối tượng
các thuật ngữ COMPUTER và DESIGN tìm thấy đi liền nhau, ta cho rằng tài liệu nói về thiết kế của máy tính, hơn là khi các từ rời nhau trong các đoạn
văn
Dạng thức biểu đạt mức độ gần gũi là: “Thuật ngữ 1 xuất hiện trong m
“units” của thuật ngữ 2”, ở đây m là một số nguyên và “units” có thể là các ký
tự, các từ, các câu hoặc các đoạn văn Với các tài liệu có cấu trúc, khoảng cách giữa các ký tự tỏ ra khá hữu ích Đối với các tài liệu có những hình ảnh nhúng, văn bản giữa các ảnh có thể cho phép làm tăng độ chính xác khi cần định vị một ảnh nào đó Đôi lúc, mức độ gần gũi cũng chứa đựng các tham số định hướng xác định hướng (trước hoặc sau) thuật ngữ thứ hai phải được tìm thấy trong các “units” đã cho Trường hợp đặc biệt xác định mức độ gần gũi
là toán tử liền kề (Adijacent - ADJ) đi cùng với hằng số khoảng cách Trường
hợp đặc biệt nữa xảy ra khi khoảng cách là 0, với ý nghĩa trùng nhau
1.3.1.3 M ệnh đề từ gần nhau
Mệnh đề từ gần nhau (Contiguous Word Phrases - CWP) là cách xác định thuật ngữ truy vấn cùng với toán tử tìm kiếm đặc biệt tương ứng Mệnh đề từ
nghĩa đơn Ví dụ “United States of America”, gồm 4 từ nhưng chỉ biểu diễn một khái niệm ngữ nghĩa đơn (về một đất nước), có thể được sử dụng trong bất kỳ toán tử nào đã nêu ở trên Do đó truy vấn có thể là “manufacturing” AND “United States of America” với mong muốn trả lại các tài liệu có chứa
từ “manufacturing” và cụm từ “United States of America”
Mệnh đề từ gần nhau cũng giống như toán tử tìm kiếm đặc biệt, nhưng cho phép thêm vào các đặc trưng bổ sung Đối với các mệnh đề từ gần nhau
Trang 23có nhiều hơn hai thuật ngữ, phải tạo một câu lệnh tìm kiếm tương đương sử
dụng các toán tử từ gần nhau và các liên kết logic Boolean
1.3.1.4 Tìm kiếm mờ
Tìm kiếm mờ cung cấp khả năng xác định các lỗi chính tả của các thuật
chỉnh sửa các lỗi chính tả của từ Tìm kiếm mờ làm tăng độ gọi lại nhưng lại làm giảm độ chính xác Trong quá trình mở rộng thuật ngữ truy vấn, tìm kiếm
mờ cho phép tham chiếu cả đến các thuật ngữ khác về mặt chính tả, xác định trọng số cho cả các từ không nằm trong CSDL, có cùng chiều dài nhưng vị trí
“computter”, “compute”
Tìm kiếm mờ được sử dụng rất tốt trong các hệ thống tài liệu được đọc qua thiết bị quang học Trong quá trình đọc tài liệu theo công nghệ OCR (Optical Character Read), tài liệu được quét, chuyển thành ảnh nhị phân (thường ở độ phân giải 300 điểm ảnh/ inch hoặc hơn), nhận dạng mẫu, phân các vùng trong ảnh thành các các miền có ý nghĩa, tương ứng với các đoạn là một ký tự đơn, xác định ký tự tương ứng và chuyển sang mã hoá lưu trữ trên máy tính (bộ mã ASCII hoặc các chuẩn ngôn ngữ khác) Phụ thuộc chất lượng
của tài liệu trên giấy, quá trình đọc này có thể tạo lỗi khi nhận dạng ký tự Với đầu vào có chất lượng ảnh tốt, hệ thống đạt được độ chính xác từ 90 – 99%
1.3.1.5 Che gi ấu thuật ngữ
Che giấu thuật ngữ là kỹ thuật cho phép mở rộng thuật ngữ tìm kiếm
bằng cách che giấu một phần thuật ngữ, thay vào đó là một ký hiệu hợp lệ ăn
hiện rất rõ trong các hệ thống không thực hiện stemming hoặc chỉ cung cấp thuật toán stemming ở mức đơn giản Có hai kiểu che giấu thuật ngữ tìm
Trang 24kiếm: che một khoảng có chiều dài cố định và che một khoảng có chiều dài thay đổi
Che giấu với chiều dài cố định là che giấu vị trí đơn, có thế là ký tự nào
đó hoặc ký tự thiếu trong từ Kiểu che giấu này không những cho phép bất cứ
ký tự nào trong vị trí che giấu mà còn chấp nhận các từ có vị trí không tồn tại Che giấu thuật ngữ chiều dài cố định ít khi được sử dụng
Che giấu thuật ngữ với chiều dài thay đổi cho phép che giấu ký tự bất
kỳ trong token xử lý Việc che giấu có thể thực hiện ở phần trước, ở phần sau,
cả phần trước cả phần sau Ba trường này tương ứng được gọi là tìm kiếm tiền
tố, tìm kiếm hậu tố và tìm kiếm chuỗi ký tự nhúng Trong hình 1.4, “*” biểu đạt cho việc che giấu chiều dài thay đổi, sau đây là một số cách sử dụng thông thường:
Hình 1.4: Cách s ử dụng che giấu thuật ngữ 1.3.1.6 Các lĩnh vực về số và ngày tháng
Che giấu thuật ngữ chỉ phù hợp khi áp dụng đối với chữ, không phù
hợp khi tìm kiếm trong lĩnh vực số và ngày tháng Để tìm các số lớn hơn
“125”, sử dụng hạng thức “125*” chỉ tìm thấy các số bắt đầu bằng “125” Trong các hệ thống chuẩn hóa, người ta sử dụng mô tả các chữ như số hoặc ngày tháng Có thể nhập “125-425” đối với số hoặc “4/2/93-5/2/95” đối với ngày tháng hoặc các phạm vi mở như “>125”, “<=233” trong truy vấn
1.3.1.7 M ở rộng về khái niệm và từ điển đồng nghĩa
Liên quan tới truy vấn Boolean và truy vấn ngôn ngữ tự nhiên là khả năng mở rộng thuật ngữ thông qua từ điển đồng nghĩa hoặc lớp khái niệm Từ
Trang 25điển đồng nghĩa là mở rộng cấp 1 hoặc cấp 2 của các thuật ngữ sang thuật ngữ khác, có ý nghĩa tương tự nhau Lớp khái niệm là một cấu trúc cây mở rộng, tương ứng mỗi nghĩa của một từ có các khái niệm có thể có liên quan tới thuật ngữ gốc Các lớp khái niệm đôi khi được xem như cấu trúc mạng liên kết với
tất cả các từ gốc Ví dụ cấu trúc từ điển đồng nghĩa và lớp khái niệm được cho trên hình 1.5 và 1.6 Các đại diện lớp khái niệm cho phép người dùng mở rộng các khái niệm cụ thể thành các khái niệm có liên quan CSDL dựa trên khái niệm cho biết mối liên kết có thể không thấy trong các từ điển ngôn ngữ Người dùng xem rằng khái niệm ở mức cao hơn trong mô hình phân cấp sẽ có
ý nghĩa tổng quát hơn
Từ điển đồng nghĩa bao gồm cả ngữ nghĩa và số liệu thống kê Từ điển ngữ nghĩa là một danh sách các từ có ý nghĩa tương tự Khi thực hiện truy vấn, một thuật ngữ có thể được mở rộng tới tất cả các thuật ngữ có liên quan trong từ điển đồng nghĩa hoặc cây khái niệm Chức năng này là rất cần thiết, cho phép loại ra các từ đồng nghĩa nhưng thực tế không có ý nghĩa trong câu
lệnh tìm kiếm của người dùng
Thông thường có thể duyệt từ điển đồng nghĩa hoặc cây khái niệm, thêm thuật ngữ và các quan hệ thuật ngữ vào cây khái niệm Điều này cho phép người dùng cải tiến từ điển đồng nghĩa hoặc cây khái niệm khi có các biệt ngữ riêng trong các phạm vi họ quan tâm
Từ điển đồng nghĩa có thể chỉ phù hợp với một ngôn ngữ cụ thể và có thể đưa ra nhiều thuật ngữ tìm kiếm Một giải pháp khắc phục là sử dụng CSDL hoặc mẫu đại diện để tạo ra các thuật ngữ liên quan theo thống kê Cách làm này đưa tới từ điển đồng nghĩa dựa trên khái niệm, trong đó các từ liên quan thống kê tới các từ khác thông qua tần số xuất hiện cùng nhau trong các tài liệu Kiểu từ điển này phụ thuộc vào CSDL văn bản tìm kiếm và có thể không linh hoạt bằng các CSDL khác
Trang 26Về mặt lý thuyết, từ điển đồng nghĩa và cây khái niệm có thể được sử
nó cụ thể hơn Dựa trên cách đánh giá này, việc mở rộng các thuật ngữ làm tăng độ gọi lại nhưng lại làm giảm độ chính xác
Hình 1.5: Các t ừ đồng nghĩa với thuật ngữ “computer”
Hình 1.6: C ấu trúc lớp khái niệm phân cấp của “computer”
1.3.1.8 Các truy v ấn ngôn ngữ tự nhiên
Thay vì người dùng phải nhập vào câu truy vấn Boolean, bằng việc xác định các thuật ngữ tìm kiếm và mối quan hệ logic giữa chúng, các truy vấn ngôn ngữ tự nhiên cho phép người dùng nhập vào một câu văn bản mô tả
COMPUTER
COMPUTER
CPU DATA
APPLICATION
Trang 27thông tin người dùng cần tìm kiếm Văn bản càng dài, kết quả trả về càng chính xác Vấn đề khó khăn nhất đối với các truy vấn ngôn ngữ tự nhiên là khả năng chỉ rõ sự phủ định trong câu tìm kiếm và hệ thống đoán nhận nó như
sự phủ định Hệ thống sẽ tìm tất cả các tài liệu giống với câu truy vấn nhập vào nhất
Đối với nhiều người, đây là loại giao diện cung cấp phần mở rộng tự nhiên để yêu cầu ai đó thực hiện tìm kiếm Một ví dụ về truy vấn ngôn ngữ tự nhiên là:
Find for me all the items that discuss oil reserves and current attemps to find new oil reserves Include any items that discuss the international financial aspects of the oil production process Do not include items about the oil industry in the United States
Vấn đề xảy ra với nhiều kỹ thuật và hệ thống là không đưa ra các tài
liệu nói về ngành công nghiệp dầu mỏ ở Mỹ Khi khả năng này xảy ra, người dùng có xu hướng nhập vào một đoạn câu phản ánh cái họ cần tìm hơn là một câu đầy đủ Điều này có thể hiểu được, vì người dùng muốn sử dụng ít nhất tài nguyên của họ (về thời gian) Họ sẽ chỉ nhập vào như sau:
oil reserves and attemps to find new oil reserves, international financial aspects of the oil production not United States oil industry
Kiểu sử dụng này rất quan trọng, vì các đoạn câu tạo ra các phân tích hình thái học của truy vấn ngôn ngữ tự nhiên khó và có thể giới hạn khả năng của
hệ thống trong việc thực hiện làm rõ nghĩa thuật ngữ
Sử dụng cùng câu truy vấn tìm kiếm, truy vấn Boolean cố gắng tìm cùng thông tin có thể xuất hiện như sau:
(“locate” AND “new” AND “oil reserves”) OR (“international”AND
“financ*” AND “oil production”) NOT (“oil industry” AND “United States”)
Trang 28Liên quan tới các truy vấn ngôn ngữ tự nhiên là hàm gọi là phản hồi
đến hệ thống ngôn ngữ tự nhiên, hầu hết các hệ thống thương mại đều có giao diện người dùng có khả năng cung cấp cả ngôn ngữ tự nhiên và cả logic
tự nhiên cải thiện độ gọi lại của hệ thống và làm giảm độ chính xác khi sự phủ
định được yêu cầu
1.3.2 Ch ức năng duyệt
người dùng khả năng quyết định xem cái nào thú vị và lựa chọn chúng để hiển thị Có hai cách để hiển thị các tài liệu có liên quan: hiển thị các dòng trạng thái tài liệu và hiển thị trực quan dữ liệu Với hai cách hiển thị tổng quát đó, người dùng có thể chọn tài liệu nhất định và các vùng trong tài liệu hiển thị
Hệ thống cũng cho phép dễ dàng chuyển đổi giữa các hiển thị và xem lại các tài liệu Nếu tìm kiếm trả về kết quả có độ chính xác cao, tầm quan trọng của khả năng duyệt sẽ bị giảm bớt Do các tìm kiếm trả về rất nhiều kết quả có thể không liên quan đến thông tin người dùng cần, nên khả năng duyệt giúp người dùng tập trung vào tài liệu mà có khả năng đáp ứng được nhu cầu của
họ cao nhất
1.3.2.1 Xếp hạng
Trong hệ thống Boolean, hiển thị trạng thái cho phép đếm số lượng các tài liệu được tìm thấy bởi truy vấn Mỗi một tài liệu đều đáp ứng một khía
cạnh của truy vấn Boolean Các kết quả được tìm thấy theo trật tự nào đó
hoặc theo trật tự thời gian từ tài liệu mới đến tài liệu cũ Có thể xếp hạng dựa trên các giá trị liên quan dự đoán, trạng thái hiển thị tổng quát, điểm số liên quan tới các tài liệu cùng với những mô tả ngắn của tài liệu Điểm cần lưu ý là
Trang 29đưa ra ước lượng của hệ thống, dựa trên các tài liệu thỏa mãn câu lệnh tìm
1.0 Giá trị cao nhất 1.0 thể hiện rằng hệ thống chắc chắn tìm thấy tài liệu thỏa mãn hoàn toàn câu truy vấn tìm kiếm Điều này cho phép người dùng quyết định với ngưỡng nào sẽ dừng xem xét các tài liệu Về lý thuyết, mỗi tài liệu trong hệ thống đều có thể tìm được, nhưng có rất nhiều tài liệu sẽ có giá trị liên quan là 0.0 Trên thực tế, các hệ thống cho phép người dùng có thể thay đổi và không trả về các tài liệu có giá trị liên quan nhỏ hơn ngưỡng đó Ngoài việc xếp hạng dựa trên đặc điểm của tài liệu và CSDL, trong nhiều trường
hợp việc lọc kết hợp cung cấp một tùy chọn, lựa chọn và sắp xếp đầu ra Trong trường hợp này, người dùng xem lại các tài liệu, cung cấp phản hồi tới
hệ thống giá trị liên quan của tài liệu đang được truy cập Hệ thống tích lũy các xếp hạng do người dùng cung cấp và sử dụng thông tin này để sắp xếp đầu ra trong các truy vấn người dùng tương tự về sau Lọc kết hợp tỏ ra rất
khi xác định tài liệu nào sẽ hiển thị tới người dùng dựa trên các truy vấn của
họ
Thông thường người ta chỉ dành riêng một dòng mô tả đối với mỗi tài
liệu, nên cần có trên màn hình các trọng số liên quan của tài liệu tương ứng Vùng này thường chỉ chứa tiêu đề và những thông tin bổ sung chẳng hạn trọng số liên quan để tránh lựa chọn các tài liệu không liên quan
Trang 30của tài liệu được người dùng cần xem Chẳng hạn, hiển thị phần tiêu đề và
quan của tài liệu Việc giới hạn vùng hiển thị của các tài liệu cho phép hiển thị nhiều tài liệu trên màn hình
1.3.2.3 Đánh dấu
Một trợ giúp hiển thị khác là chỉ dẫn xác định một tài liệu được lựa chọn Chỉ dẫn này, thường được đánh dấu, cho phép người dùng tập trung ngay vào các phần liên quan của văn bản, lướt qua các phần tài liệu ít liên
hết các hệ thống cho phép hiển thị tài liệu với từ đánh dấu đầu tiên và con trỏ
chỉ tiếp đến từ đánh dấu tiếp theo
Đánh dấu tỏ ra hữu ích trong các hệ thống Boolean cho phép ánh xạ trực tiếp giữa các thuật ngữ trong tìm kiếm với các thuật ngữ xuất hiện trong tài liệu
1.4 K ỹ thuật đánh chỉ mục
1.4.1 Mục đích của việc đánh chỉ mục
Mục đích của việc đánh chỉ mục thay đổi theo quá trình phát triển của HTTKTT Tính sẵn sàng của văn bản tài liệu ở dạng có thể tìm kiếm đã làm thay đổi mục tiêu ban đầu của việc đánh chỉ mục thủ công Cấu trúc dữ liệu văn bản đầy đủ của tài liệu trong tệp tài liệu cung cấp lớp chỉ mục, gọi là chỉ mục tài liệu tổng thể Trong môi trường này, tất cả các từ trong tài liệu là bản
mô tả chỉ mục tiềm năng về chủ đề của tài liệu Các hệ thống hiện nay đều có
khả năng đánh trọng số tự động các token, dựa trên tầm quan trọng của chúng trong định nghĩa các khái niệm trong tài liệu
Việc đánh chỉ mục thủ công tạo ra chỉ mục tài liệu tổng thể phục vụ cho tìm kiếm, khó có thể tìm theo từ bất kỳ trong tài liệu, do cần phải thêm thuật ngữ chỉ mục mở rộng Việc đánh chỉ mục định nghĩa các khái niệm
Trang 31nguồn của tài liệu cho ta cơ chế chuẩn hóa các thuật ngữ chỉ mục, sử dụng bộ
trong số các thuật ngữ chỉ mục cần lựa chọn Khi đánh chỉ mục thủ công, sử dụng bộ từ vựng hạn chế có thể làm quá trình đánh chỉ mục chậm hơn, nhưng
lại đơn giản hóa quá trình tìm kiếm, do cần có thời gian xử lý thêm để bộ lập
chỉ mục chỉ xác định các thuật ngữ chỉ mục, thích hợp với những khái niệm không được cụ thể trong bộ từ vựng hạn chế Các bộ từ vựng hạn chế hỗ trợ người dùng xác định miền của thuật ngữ mà bộ lập chỉ mục phải chọn và do
đó, xác định được thuật ngữ mô tả đúng nhất thông tin người dùng cần Các
nhanh hơn nhưng quá trình tìm kiếm lại khó khăn hơn rất nhiều
Tính sẵn sàng của các tài liệu ở dạng điện tử đã làm thay đổi mục tiêu của việc đánh chỉ mục thủ công Thông tin nguồn (thường gọi là dữ liệu trích
dẫn) có thể được trích rút một cách tự động Các hệ thống hiện đại với việc sử
thích được sự đa dạng của ngôn ngữ/ từ vựng và do đó, làm giảm nhu cầu cần
có từ vựng hạn chế Hầu hết, các khái niệm được nói tới trong tài liệu đều có thể định vị thông qua tìm kiếm chỉ mục tài liệu tổng thể Mục đích chính của
việc đánh chỉ mục thủ công là thay đổi sự trừu tượng của đối tượng và đánh giá dựa trên giá trị của thông tin Các thuật toán phân tích văn bản tự động không thể thực hiện việc trừu tượng hóa trên tất cả các khái niệm có trong tài liệu Chúng không thể tương quan với các sự kiện theo mối quan hệ nguyên
thiện độ gọi lại của hệ thống Đối với những câu hỏi nhất định, nó cũng cho phép làm tăng độ chính xác
Trang 32Từ được dùng trong tài liệu không phải lúc nào cũng phản ánh giá trị
của các khái niệm hiện có Đó là sự kết hợp của các từ và các liên quan ngữ nghĩa của chúng chứa giá trị khái niệm đang được xem xét Tính có ích của khái niệm cũng được xác định dựa trên nhu cầu người dùng Người dùng cá nhân của hệ thống có phạm vi quan tâm riêng, giới hạn các khái niệm họ quan tâm Nó giúp đánh giá chất lượng của khái niệm được tham chiếu trong tài liệu, để quyết định xem khái niệm nào sẽ được dùng để đánh chỉ mục Sự khác nhau trong “yêu cầu người dùng” về lớp thư viện các bộ đánh chỉ mục
và các người dùng cá nhân cho thấy tại sao các tệp có chỉ mục riêng biệt lại là
dựa trên giá trị khái niệm sẽ làm tăng độ chính xác trong tìm kiếm
Tính sẵn sàng của việc đánh chỉ mục tài liệu sẽ giúp người đánh chỉ mục không phải nhập các thuật ngữ chỉ mục giống với các từ trong tài liệu Người dùng có thể sử dụng các file chỉ mục chung như một phần tiêu chuẩn tìm kiếm để gia tăng độ gọi lại, có thể hạn chế tìm kiếm bằng việc sử dụng file chỉ mục riêng để làm tăng độ chính xác
Ngoài mục đích chính là biểu diễn các khái niệm trong tài liệu, giúp người dùng dễ dàng tìm được thông tin liên quan, chỉ mục điện tử còn cung
nhiều trường hợp sẽ hỗ trợ việc xếp hạng đầu ra khi hiển thị các tài liệu thỏa mãn cao nhất với thông tin người dùng cần Chỉ mục cũng được dùng để phân nhóm tài liệu theo khái niệm Việc phân nhóm tài liệu làm cho hệ thống điện
tử giống như một thư viện vật lý Từ mô hình đến thư viện và tìm trên các kệ sách cũng giống như duyệt các tài liệu đã được phân nhóm theo khái niệm
1.4.2 Đánh chỉ mục tự động
Đánh chỉ mục tự động là khả năng hệ thống tự động gán các thuật ngữ chỉ mục cho tài liệu Trường hợp đơn giản nhất là tất cả các từ trong tài liệu
Trang 33được sử dụng như thuật ngữ chỉ mục Quá trình trở nên phức tạp hơn khi mục tiêu là cạnh tranh với bộ lập chỉ mục thủ công và xác định số lượng giới hạn thuật ngữ chỉ mục của các khái niệm chính trong tài liệu Ưu điểm của lập chỉ mục thủ công là khả năng xác định trừu tượng khái niệm và đánh giá giá trị
của khái niệm Nhược điểm của nó so với đánh chỉ mục tự động là giá thành đắt, thời gian xử lý lâu và có thể thiếu tính nhất quán Đánh chỉ mục tự động chỉ mất vài giây cho một tài liệu dài từ 300 đến 500 từ (hoặc có thể ít hơn) phụ thuộc vào kích thước của bộ vi xử lý và độ phức tạp của thuật toán tạo chỉ mục
của thuật toán Nếu việc đánh chỉ mục được thực hiện tự động thì sẽ đảm bảo tính nhất quán trong quá trình lựa chọn thuật ngữ chỉ mục Bộ lập chỉ mục thủ công có thể tạo ra các chỉ mục khác nhau với cùng một tài liệu Trong một thí nghiệm về tính nhất quán trên TREC-2, trung bình có 20% sự khác biệt trong đánh giá các tài liệu có cùng chủ đề giữa bản ban đầu và bản đánh giá độc lập
thứ hai của hơn 400 tài liệu Do các bản đánh giá trên sự liên quan khác nhau, nên việc lựa chọn thuật ngữ chỉ mục và trọng số của chúng tương ứng với các chủ đề là khác nhau Trong đánh chỉ mục tự động, các nhà nghiên cứu hiểu quá trình tự động, có thể dự đoán lợi ích và những khiếm khuyết của nó, cho phép bù đắp cho hệ thống những đặc điểm trong chiến lược tìm kiếm
Đánh chỉ mục tự động cho phép bảo toàn văn bản gốc của tài liệu, dựa trên tập giá trị chỉ mục tìm kiếm cuối cùng trên văn bản gốc hoặc ánh xạ tài
liệu sang một dạng biểu diễn hoàn toàn khác, gọi là đánh chỉ mục khái niệm
và sử dụng khái niệm này làm cơ sở cho tập giá trị chỉ mục cuối cùng
1.4.2.1 Đánh chỉ mục bằng thuật ngữ
Khi các thuật ngữ của tài liệu ban đầu được sử dụng làm cơ sở cho quá trình đánh chỉ mục, có hai kỹ thuật chính để tạo chỉ mục: thống kê và xử lý
Trang 34ngôn ngữ tự nhiên Kỹ thuật thống kê dựa trên mô hình vector và mô hình xác
suất (các mô hình này sẽ được trình bày trong chương 2) với trường hợp đặc biệt là các mô hình Bayesian Chúng được xếp vào loại toán thống kê do các tính toán trọng số của chúng đều sử dụng thông tin thống kê như: tần số xuất
hiện của từ và sự phân phối của chúng trong CSDL tìm kiếm Kỹ thuật xử lý ngôn ngữ tự nhiên cũng sử dụng một vài thông tin thống kê, nhưng thực hiện các phân tích phức tạp hơn để định nghĩa tập khái niệm chỉ mục cuối cùng
Thông thường các hệ thống có trọng số đều được coi như hệ thống biểu diễn thông tin vector, xem các trọng số này là cơ sở để phát hiện thông tin và lưu trữ chúng dưới dạng vector Mỗi vector biểu diễn một tài liệu và mỗi vị trí trong vector biểu diễn một từ duy nhất (token xử lý) trong CSDL Giá trị gán cho mỗi vị trí là trọng số của thuật ngữ đó trong tài liệu Giá trị 1 cho biết thuật ngữ có trong tài liệu, 0 cho biết thuật ngữ không có trong tài liệu Các
việc tính khoảng cách giữa vector truy vấn và vector tài liệu
này khá thành công trong tiếp cận Bayesian Các tiếp cận Bayesian đã được
áp dụng cho HTTKTT Mạng Bayesian là một đồ thị định hướng không có chu trình, trong đó mỗi nút biểu diễn một biến ngẫu nhiên và mỗi cung nối
giữa các nút biểu diễn xác suất phụ thuộc giữa mỗi nút và nút cha của nó Hình 1.7 cho thấy tiếp cận trọng số cơ bản cho các thuật ngữ chỉ mục hay mối quan hệ giữa thuật ngữ truy vấn và thuật ngữ chỉ mục
Trang 35Nút C1 và C2 biểu diễn tài liệu chứa khái niệm Ci và node F biểu diễn cho tài
liệu có chứa đặc điểm Fij Mạng cũng có thể hiểu C là biểu diễn cho các khái niệm trong câu truy vấn và F là đại diện cho các khái niệm trong tài liệu
Một hướng tiếp cận khác là định nghĩa các chỉ mục cho tài liệu thông qua quá trình xử lý ngôn ngữ tự nhiên Hệ thống DR-LINK (tìm kiếm tài liệu thông qua tri thức ngôn ngữ) xử lý các tài liệu ở các mức hình thái học, từ vựng, ngữ nghĩa, cấu trúc và ngôn từ Mỗi mức sử dụng thông tin từ mức trước để thực hiện các phân tích bổ sung Mức ngôn từ trừu tượng hóa thông tin dựa trên mức câu và có thể quyết định các khái niệm trừu tượng sử dụng các mô hình định nghĩa lại của những quan hệ sự kiện
1.4.2.2 Đánh chỉ mục bằng khái niệm
Cơ sở của đánh chỉ mục khái niệm là biểu diễn một ý tưởng và làm tăng hiệu quả tìm kiếm bằng việc sử dụng biểu diễn đơn Đánh chỉ mục bằng
điển đồng nghĩa hoặc các kỹ thuật mở rộng truy vấn khác để tìm các cách
tập khái niệm hợp tiêu chuẩn dựa trên tập thuật ngữ kiểm thử và sử dụng chúng làm cơ sở cho việc đánh chỉ mục tất cả các tài liệu Điều này còn gọi là đánh chỉ mục ngữ nghĩa ẩn bởi vì nó đánh chỉ mục thông tin ngữ nghĩa ẩn trên các thuật ngữ Tập khái niệm xác định không có nhãn liên quan đến mỗi khái niệm nhưng có biểu diễn toán học là vector
1.4.3 Mô hình Latent Semantic Indexing (LSI)
Mô hình Latent Semantic Indexing (LSI – Đánh chỉ mục ngữ nghĩa ẩn) được sử dụng để đánh chỉ mục (indexing), quản lý và truy xuất trên các tập
văn bản lớn LSI là một mô hình khá hiệu quả, gần đây được quan tâm rất nhiều cho các ứng dụng hệ tìm kiếm thông tin Trong mô hình này, không những trình bày giảm số chiều rất nhiều của ma trận term - document A, mà
Trang 36quan trọng là tìm chính xác theo ngữ nghĩa các tập văn bản và trả về một cách chính xác các văn bản người dùng cần tìm kiếm Tuy nhiên, để trả về các tập văn bản người dùng cần tìm, mô hình LSI phải tính độ đo Cosinse của tất cả các tập văn bản trong ma trận xấp xỉ Ak Điều này dẫn đến việc hạn chế tốc độ tìm kiếm của giải thuật Để khắc phục điều này, trước khi thực hiện tính Cosin giữa vector truy vấn với các vector văn bản trong ma trận Ak ta tiến hành gom cụm văn bản trước trong ma trận Ak
Khi tiến hành gom cụm văn bản trên ma trận Ak, mỗi cụm văn bản sẽ
có một vector trọng tâm đặc trưng cho từng cụm Thay vì tính độ đo Cosine của câu truy vấn với tất cả các vector văn bản trong ma trận Ak theo mô hình LSI, ta tính độ đo Cosinse của vector truy vấn với từng vector trọng tâm của từng cụm Khi đó, ta trả về các cụm có độ đo thỏa một ngưỡng cho trước và thực hiện lại việc tính độ đo Cosinse của vector truy vấn với các vector văn bản nằm trong các cụm đó Điều này sẽ giúp cải thiện một cách hiệu quả việc truy tìm thông tin
Sau đây là kiến trúc cơ bản và xây dựng thử nghiệm hai hệ IR dựa trên
mô hình LSI và sau khi gom cụm văn bản loại HTML bằng ngôn ngữ tiếng Anh
Phương pháp thực hiện:
1 Thiết lập ma trận term - document với:
+ Các dòng là các vector từ chỉ mục, m văn bản được biểu diễn thành m dòng
+ Các cột là các vector văn bản, n văn bản được biểu diễn thành m cột + aij: là số lần xuất hiện của từ chỉ mục i trong văn bản j
Trang 37n d
n
d d
d
d d
d d
d
A
2 1
2 22
12
1 21
11
+ Hàm tính trọng số của từ chỉ mục:
wij = l ij x g i x n j
trong đó:
- lij là trọng số cục bộ của từ chỉ mục i trong văn bản j - là hàm đếm số
lần xuất hiện của mỗi từ chỉ mục trong một văn bản
- gi là trọng số toàn cục của từ chỉ mục i - là hàm đếm số lần xuất hiện của mỗi từ chỉ mục trong toàn bộ tập văn bản
- nj là hệ số được chuẩn hoá của văn bản j - là hệ số cân bằng chiều dài của các văn bản trong tập văn bản
trong đó:
- f ij là số lần xuất hiện của từ chỉ mục i trong văn bản j
- - là xác suất số lần xuất hiện của từ chỉ mục i
trong văn bản j
2 Chọn hệ số k cho mô hình LSI sao cho hệ thống hoạt động tốt nhất có thể Đánh giá phương pháp đưa ra về hiệu quả truy tìm của hệ thống trên các tập dữ liệu mẫu NPL, LISA, MEDLINE, CACM, CRAN và CISI Những nghiên cứu này làm cơ sở lý thuyết cũng như thực nghiệm tiến đến xây dựng các hệ thống IR hiệu quả trong tương lai
Trang 38Hình 1.8: Hệ số k trên các tập dữ liệu mẫu
k k k
A = Σ có hạng là k với k << r Trong đó, các cột của
Uk là k cột đầu tiên của U, các cột của Vk là k cột đầu tiên của của V vàΣk là
ma trận đường chéo cấp k x k với các phần tử nằm trên đường chéo là k giá trị suy biến lớn nhất của A
Hình 1.9: Bi ểu diễn ma trận xấp xỉ A k có hạng là k
hoạt động tối ưu Ở đây chọn hệ số k của thuật toán gom cụm K-Means cũng chính là hệ số k trong mô hình LSI Vì hệ số k trong mô hình LSI là việc chọn ra k vector ngữ nghĩa đúng với việc phân k cụm theo ngữ nghĩa trong giải thuật K-Means
k
Σ
Trang 39Hình 1.10: Giải thuật k-means áp dụng cho hệ IR
1.5 Các c ấu trúc dữ liệu thường sử dụng trong hệ thống tìm kiếm thông tin
Tri thức về cấu trúc dữ liệu sử dụng trong HTTKTT cung cấp cách hiểu
thấu đáo về các khả năng của các hệ thống thực thi chúng Phần này đưa ra các cấu trúc dữ liệu chính được sử dụng trong HTTKTT
1.5.1 Giới thiệu về các cấu trúc dữ liệu
Có hai cấu trúc dữ liệu thường được sử dụng trong các hệ thống thông tin Một cấu trúc lưu trữ và quản lý tài liệu nhận được trong dạng chuẩn của chúng Trong quá trình xử lý, cấu trúc này được gọi là “nhà quản lý tài liệu”
Cấu trúc thứ hai chứa các kí hiệu đang được xử lý và dữ liệu liên quan để trợ giúp tìm kiếm Hình 1.11 mở rộng chức năng tạo file tài liệu, cho thấy chức năng quản lý dữ liệu Phần này tập trung vào các cấu trúc dữ liệu được sử
liệu, cấu trúc dữ liệu và lý thuyết liên quan đến phân tích cú pháp của các truy
vấn
Trang 40Hình 1.11: Các c ấu trúc dữ liệu chính 1.5.2 Các thu ật toán lấy gốc từ
Khái niệm stemming đã được sử dụng trong các hệ thống thông tin từ đầu những năm 1960 Mục đích ban đầu của stemming là cải thiện hiệu năng, giảm yêu cầu về tài nguyên hệ thống bằng việc giảm số lượng các từ duy nhất
mà hệ thống phải lưu trữ Với những cải thiện quan trọng trong lưu trữ và sức
quan trọng nữa Hiện nay stemming đang được xem xét cải tiến để có thể tăng
độ chính xác khi tìm kiếm
1.5.2.1 Giới thiệu về quá trình stemming
Thuật toán stemming được sử dụng để cải thiện hiệu quả của hệ thống
và độ gọi lại Sự kết hợp là thuật ngữ thường được dùng để chỉ việc so khớp các dạng đa hình với một biểu diễn đơn Tiền đề là từ gốc mang ý nghĩa khái niệm liên quan đến từ và phụ ngữ (phần cuối), được sử dụng cho mục đích cú
TẠO FILE TÀI LIỆU