Bài giảng Tìm kiếm và trình diễn thông tin: Bài 9 - TS.Nguyễn Bá Ngọc tập trung trình bày các vấn đề về tiến trình tìm kiếm và phù hợp phản hồi; mô hình Berry-picking; phương pháp phù hợp phản hồi; các bước tìm kiếm cơ bản với phù hợp phản hồi;...
Trang 1(IT4853) Tìm kiếm và trình diễn thông tin
Tiến trình tìm kiếm và phù hợp phản hồi
Trang 4Tiến trình tìm kiếm thông tin
Trang 5Tiến trình tìm kiếm thông tin
Người dùng tiếp nhận thông tin mới trong quá
trình tìm kiếm:
Kéo theo sự thay đổi nhu cầu thông tin;
Kéo theo những hiệu chỉnh truy vấn;
Nảy sinh những nhu cầu thông tin mới
Thông thường nhu cầu thông tin không được
thỏa mãn bởi một văn bản đơn lẻ:
Trong thực tế nhu cầu thông tin thường được thỏa
Trang 6Mô hình “Berry-picking”
Trang 8Các bước tìm kiếm cơ bản với phù
hợp phản hồi
1 Người dùng cung cấp một truy vấn ban đầu;
2 Công cụ tìm kiếm trả về tập kết quả tương ứng
3 Người dùng phản hồi thông tin về những văn bản phù hợp
và những văn bản không phù hợp
4 Công cụ tìm kiếm sinh câu truy vấn mới:
Hy vọng sẽ tốt hơn truy vấn hiện tại.
5 Thực hiện truy vấn mới và cập nhật lại kết quả:
Hy vọng sẽ đầy đủ hơn.
Có thể lặp nhiều vòng phản hồi (Các bước 3, 4, 5)
Trang 9Giả thuyết phù hợp phản hồi
Mục đích: Tăng tính đầy đủ của kết quả tìm kiếm
Điều kiện 1: Truy vấn ban đầu thể hiện đúng nhu cầu
thông tin của người dùng
Điều kiện 2: Những văn bản phù hợp chứa những thuật ngữ tương tự
Giải quyết vấn đề từ đồng nghĩa, vd: Ô tô / xe máy
Nhờ đó có thể thu được những văn bản phù hợp khác khi sử dụng thông tin phản hồi.
Tuy nhiên có thể làm giảm tính chính xác vì các văn bản phù hợp chứa từ không liên quan đến chủ đề.
Trang 10Ví dụ tập kết quả tìm kiếm
Truy vấn: “xe máy”
Trang 11Thông tin phản hồi
Trang 12Tập kết quả mới
Trang 13Ví dụ phù hợp phản hồi trong không gian vec-tơ
truy vấn “canine”
Trang 14Ví dụ phù hợp phản hồi trong không gian vec-tơ
Fernando Díaz
Trang 15Ví dụ phù hợp phản hồi trong không gian vec-tơ
Trang 16Ví dụ phù hợp phản hồi trong không gian vec-tơ
Fernando Díaz
Trang 18Giải thuật Rocchio
Rocchio lựa chọn truy vấn để cực đại hóa hàm
Dr tập văn bản phù hợp; Dnr tập văn bản không phù hợp
xu hướng: ~qopt là vec-tơ tách biệt tối đa văn bản phù hợp
và không phù hợp
))]
( , ( ))
( , ( [
r
j nr
D d
j r
D
d D
Trang 19Truy vấn tối ưu trên lý thuyết
o
o
xx
x
x
xx
Trang 20Trọng tâm của bộ văn bản
Trong mô hình không gian vec-tơ, mỗi văn bản được biểudiễn như một điểm trong không gian đa chiều:
Trọng tâm của một bộ văn bản D được định nghĩa như sau:
Trọng tâm của một tập điểm được xác định tương tự khốitâm của vật rắn
D d
d D
(
Trang 21Ví dụ trọng tâm
Trang 22Giải thuật Rocchio 1971 (SMART)
qm: vec-tơ truy vấn đã thay đổi; q0: vec-tơ truy vấn gốc;
Dr và Dnr : tập văn bản phù hợp và không phù hợp đã biết;
α, β, và γ: là các trọng số
Sự cân bằng giứa α vs β/γ: Có thể sử dụng β/γ cao nếu
có nhiều thông tin phản hồi
r
j nr
D d
j r
D
d D
Trang 23Phản hồi phù hợp vs phản hồi không phù hợp
Phản hồi phù hợp được đánh giá cao hơn phản
hồi không phù hợp.
Ví dụ, đặt β = 0.75, γ = 0.25 để có trọng số lớn hơn cho những phản hồi phù hợp.
Trang 24Nhược điểm của phù hợp phản hồi
Chi phí cao
Phù hợp phản hồi sinh ra truy vấn dài
Chi phí xử lý truy vấn dài sẽ cao hơn
Người dùng cần nhiều hời gian để đưa ra phản hồi.
Có thể gây khó hiểu vì sao một tài liệu cụ thể được trả về sau khi áp dụng phù hợp phản hồi.
Công cụ tìm kiếm Excite có phù hợp phản hồi đầy
đủ ở một thời điểm nhưng đã loại bỏ nó sau đó.
Trang 25Phù hợp phản hồi giả lập
xếp hạng là những kết quả phù hợp.
Thực hiện phù hợp phản hồi (v.d., Rocchio)
Áp dụng phản hồi giả lập có thể làm xê dịch hoàn toàn truy vấn.
Trong hệ thống SMART:
Đánh giá tốt trên nhiều truy vấn
Kết quả rất thấp cho một vài truy vấn
Trang 26Bài tập
Các vòng tròn: những văn bản phù hợp, Xs: những văn bản không phù hợp
q0 là tâm của tập văn bản phù hợp,
Hãy xác định qm theo phương pháp Rocchio
Trang 27Minh họa thuật toán Rocchio
Trang 28Minh họa Rocchio
không tách biệt những văn bản phù hợp / không phù hợp
Trang 29Minh họa Rocchio
Trang 30Minh họa Rocchio
Trang 31Minh họa Rocchio
Trang 32Minh họa Rocchio
cộng vec-tơ khác biệt vào …
Trang 33Minh họa Rocchio
Trang 34Minh họa Rocchio
phân biệt văn bản phù hợp / không phù hợp rất hiệu quả
Trang 35Minh họa Rocchio
Trang 36Tài liệu tham khảo
Chương 9 của IIR
Tài nguyên tại địa chỉ http://ifnlp.org/ir
Salton and Buckley 1990 (tài liệu gốc về phù hợpphản hồi)
Spink, Jansen, Ozmultu 2000: Relevance feedback
at Excite