Tỷ lệ recall tổng thể R kết hợp với bộ thử Dtest của tài liệu và Ttest của chủ điểm cho bởi: Nói cách khác hình 4.2 ta cần đếm mọi tài liệu trong phần giao của hai vùng và cộng thêm 1 rồ
Trang 1Error!
Ngược lại, recall của thuật toán A là thước đo bao nhiêu tài liệu là kết quả đúng đã được truy vấn cho lại Độ chính xác hỏi câu hỏi “Bao nhiêu tài liệu do thuật toán A
tìm ra là đúng?” Recall hỏi câu hỏi “Bao nhiêu tài liệu được tìm ra bởi thuật toán A?”
Error!
Sử dụng cùng ký pháp như độ chính xác, recall Rt kết hợp với chủ điểm t cho bởi công thức sau:
Error!
Tỷ lệ recall tổng thể R kết hợp với bộ thử Dtest của tài liệu và Ttest của chủ điểm cho bởi:
Nói cách khác (hình 4.2) ta cần đếm mọi tài liệu trong phần giao của hai vùng (và cộng thêm 1) rồi chia nó cho tổng số thành phần trong vùng không tô (cộng thêm 1)
Error!
Thí dụ, giả sử tổng các đối tượng trong mỗi vùng của hình 4.2 được chỉ ra trong hình 4.3 Sau đó, độ chính xác của truy vấn chủ điểm cụ thể cho bởi:
Error!
Cùng cách suy diễn, recall của cùng chủ điểm này được tính như sau:
Trang 2Độ chính xác và recall hình thành hai cách nổi tiếng nhất để đo thuật toán truy vấn
văn bản “tốt như thế nào” Trong nhiều trường hợp, một thuật toán với độ chính
xác rất cao có thể có recall rất tồi Thí dụ, thuật toán không cho lại cái gì có thể có
độ chính xác 100%, nhưng thuật toán này không hữu ích Mặt khác, thuật toán với
tỷ lệ recall rất cao có thể có độ chính xác rất tồi Thuật toán luôn cho lại mỗi tài liệu với 100% recall nhưng lại không được sử dụng nhiều
6.1 Danh sách dừng, gốc từ và bảng tần số
Trong phần này, một số kỹ thuật cơ bản sử dụng trong phần lớn các hệ thống truy vấn tài liệu/văn bản được trình bày
Danh sách dừng (Stop List) kết hợp với tập tài liệu D là tập StopL của các từ không thích hợp lắm (deemed irrelevant), mặc dù nó có thể xuất hiện thường xuyên Thí
dụ, hệ thống SMART của Cornell University sử dụng stop list với 439 từ Thí dụ các từ xuất hiện trong danh sách dừng có thể là the, and, for, with Rõ ràng, danh sách dừng có thể khác nhau vì D khác nhau Thí dụ, nếu D là tập tài liệu kết hợp với các bài báo khoa học của Bộ môn máy tính, University of Meryland, thì hiệu quả nếu đưa từ (word) computer vào danh sách dừng liên kết với cơ sở tài liệu này Ngược lại, không nên cho từ computer vào danh sách dừng của tập tài liệu về địa
chất Như chúng ta đã dự đoán, mục tiêu của danh sách dừng là hạn chế các từ “vô dụng” từ góc nhìn tìm kiếm và chỉ số hoá
Thông thường, một số từ có thể là biến thể cú pháp của từ khác Thí dụ, từ drug,
drugged và drugs là cùng chia sẻ từ gốc (word stem)-drug Tài liệu d1 chứa từ
drugged, có thể là về drug khi tài liệu tương tự d2 có được từ d 1 bằng cách thay thế
mọi từ drugged trong d 1 bởi drug Bằng giảm các từ khác nhau về từ gốc, ta có thể
nhóm các từ suy diễn từ cùng gốc Do vậy, thay vì chỉ số hóa tài liệu trên cơ sở ba
từ khác nhau – drug, drugged và drugs – chúng ta chỉ cần sử dụng một từ cho chúng, đó là drug
Giả sử D là tập N tài liệu, T là tập M từ/từ gốc trong tài liệu D Giả sử rằng không
có từ trong danh sách dừng D trong T và mọi từ trong T đều là từ gốc Bảng tần số với tên FreqT kết hợp với D và T là ma trận (MxN) như sau Freq(i,j) bằng tổng lần
xuất hiện của từ ti trong tài liệu dj
Thí dụ, hãy xem xét tập tài liệu D={d8, d9, d10} chỉ ra trong hình 4.1 Hơn nữa, giả
sử ta có tài liệu khác tên d11 với tiêu đề “Drugs, drugs, drugs” Các từ có trong bốn tiêu đề tài liệu này là sex, drug, videotape, iran, connection, boat, slip, own,
calivàcartel Chú ý rằng các từ như and và the không được liệt kê trong danh sách
Trang 3này bởi vì chúng có mặt trong danh sách dừng D Tương tự, các từ như owned được thay thế bởi các từ gốc own Bảng tần số cho bốn tài liệu này là:
Trong bảng tần số FreqT, mỗi tài liệu dj được biểu diễn bởi cột j của FreqT Tương
tự, sự xuất hiện của term/word ti được biểu diễn bởi cột i Nhưng tại sao tần số lại quan trọng? Nó có ích lợi gì? Để trả lời phi hình thức câu hỏi này, ta sẽ xem xét thí
dụ đơn giản chứa một vài tài liệu với 5 thuật ngữ như trong bảng sau đây:
t1 615 390 10 10 18 65
t4 312 511 677 11 711 2
t5 45 33 516 64 491 59
Khi khảo sát tài liệu này ta thấy d1 và d2 là tương đương bởi vì phân bổ các từ trong d1 phản ánh phân bổ từ trong d2 Cả hai chứa rất nhiều t1 và t4, tương đối ít t2
và t3, và chứa vừa phải t5 Cùng mạch như vậy, ta có d3 và d5 cũng tương tự Tuy nhiên, d4 và d6 là hoàn toàn khác
Trang 4Có cần quan tâm đến độ dài tương đối của tài liệu hay không? Việc đếm đơn thuần các từ không cho thấy tầm quan trọng các từ trong tài liệu Thí dụ, nếu một từ xuất hiện ba lần trong tài liệu dài 10 từ thì nó được xem là quan trọng Mặt khác nếu nó xuất hiện ba lần trong tài liệu dài 1 triệu từ thì ý nghĩa của nó bị giảm Do vậy, trong bảng tần số, chúng ta quan tâm đến tỷ lệ tổng số lần xuất hiện của từ trong tài liệu với tổng số toàn bộ từ có trong tài liệu Bổ sung vào thước đo này, có nhiều
thước đo tầm quan trọng của khái niệm/từ (Term/Words) được đề xuất trong nhiều
tài liệu Trong phần tiếp theo ta chỉ giả sử đơn thuần rằng FreqT(i,j) là số thực lớn hơn hay bằng 0, và giá trị chính xác của nó được xác định theo một trong hai cách nói trên Cần chú ý rằng, một vài định nghĩa khác của FreqT(i,j) cũng được đề xuất trong tài liệu này
Bây giờ giả sử rằng người sử dụng muốn khai thác (retrieve) n tài liệu đầu tiên trong CSDL tài liệu D mà nó thích hợp (relevant) với truy vấn Q Thí dụ, người sử dụng có thể phát biểu “Find the 25 documents that are maximally relevant with
respect to banking operations and drugs” Trong trường hợp này, truy vấn Q thử
tìm lấy ra các tài liệu thích hợp với hai từ khóa, sau khi lấy từ gốc, là bank và drug
Nếu ta suy nghĩ truy vấn Q là tài liệu thì ta tìm kiếm các cột trong FreqT mà nó
“gần” nhất tới véctơ kết hợp với Q Tính “gần” được xác định trong khái niệm thước đo như sau đây:
1
Error!
Khoảng cách khái niệm (term distance): Giả sử vecQ(i) biểu thị tổng số lần xuất hiện khái niệm ti trong Q Sau đó khoảng cách khái niệm giữa Q và tài liệu dr được xác định bởi:
Dĩ nhiên thước đo này là khá tuỳ ý
2
Error!
Trang 5Khoảng cách cosin (cosine distance): Thước đo này được sử dụng rộng rãi trong
thế giới CSDL và được mô tả như sau đây:
Tại đây, ta tính tích các véctơ kết hợp với truy vấn Q và tài liệu di, và chia nó cho tích căn bậc hai của các véctơ liên quan
Trong trường hợp xấu nhất, cần đến O(N) so sánh, mỗi so sánh cho một tài liệu, mỗi so sánh cần O(M) thời gian cho từng khái niệm Vậy, sẽ cần O(MxN) thời gian
để tìm giải pháp tốt nhất Tuy nhiên ngay cả với CSDL rất nhỏ như CSDL chứa
các bài báo khoa học của Bộ môn máy tính, University of Meryland từu 1990 thì
(MxN) có thể là hàng trăm triệu hay hàng tỷ phép so sánh Kỹ thuật chỉ số hoá ngữ
nghĩa tiềm tàng (LSI-Latent Sematic Indexing) sẽ làm giảm đáng kể thời gian nói
trên
4.3 Chỉ số hoá ngữ nghĩa tiềm tàng (LSI)
Ý tưởng cơ bản của chỉ số hoá ngữ nghĩa tiềm tàng (LSI-Latent Sematic Indexing”
là các tài liệu tương tự có tần số xuất hiện từ tương tự Tuy nhiên, với bất kỳ CSDL tài liệu không tầm thường nào đều có tổng số tài liệu M và tổng số khái niệm N là
rất lớn Nếu ta muốn chỉ số hoá các bài báo khoa học của trường đại học bằng full
text, chúng ta sẽ nhanh chóng nhận ra rằng tổng số khái niệm sẽ là hàng trăm ngàn
chứ không phải hàng triệu Cho trước hàng trăm ngàn tài liệu kỹ thuật đang tồn tại, bảng tần số sẽ lớn ghê gớm (MxN), có đến hàng trăm triệu đầu vào Xử lý bảng lớn như vậy là khó khăn đáng kể
Cái LSI sẽ làm là sử dụng kỹ thuật gọi là tách giá trị khác thường (SVD-Singular
Value Decomposition), nó được quen biết trong lý thuyết ma trận, để giảm kích
thước bảng tần số xuống còn ít hơn (MxN) Tổng quát, bất kỳ giảm thiểu nào đều dẫn tới mất mát thông tin, do vậy, ta phải đảm bảo rằng SVD phải có “năng lực
thông tin – information efficient” cao nhất có thể Có nghĩa rằng, chúng chỉ mất
phần bảng tần số ít ý nghĩa nhất Nói cách khác, kỹ thuật LSI sử dụng ma trận (MxN) để biểu diễn ma trận nhỏ hơn (KxK) Nó được thực hiện bằng loại bỏ vài hàng và vài cột của ma trận tần số gốc Thông thường K có giá trị khoảng 200 cho tập hợp tài liệu lớn
Nhớ lại rằng, mỗi cột trong ma trận tần số biểu diễn một tài liệu LSI coi mỗi tài liệu là một véctơ độ dài K bởi đơn thuần giữ lại K hàng có ý nghĩa nhất trong bảng tần số Các bước cơ bản của LSI như sau:
1 Tạo bảng: Tạo ma trận tần số FreqT
Trang 62 Xây dựng SVD: Tính toán phân chia giá trị véc tơ khác thường (A, S, B) của
FreqT bằng cách chia FreqT thành ba ma trận A, S, B (xem phần sau)
3 Nhận dạng véctơ: Với mỗi tài liệu d, gọi vec(d) là tập các khái niệm trong
FreqT mà các hàng tương ứng của nó không bị loại bỏ trong ma trận đơn S
4 Tạo chỉ số: Lưu trữ tập các véctơ vec(d) được chỉ số bởi một trong các kỹ
thuật như nghiên cứu sau
Khi khai thác tài liệu tương tự với tài liệu truy vấn dQ, ta chỉ đơn giản tìm cấu trúc chỉ số tạo ra trên đây và tìm tài liệu d trong lưu trữ sao cho vec(d0) gần nhất với vec(d) thừa nhận thước đo đã chọn trên véctơ