Mời các bạn cùng tìm hiểu đánh giá kết quả tìm kiếm; MRR; NDCG; sự phù hợp đa mức; xây dựng bộ dữ liệu đánh giá;... được trình bày cụ thể trong Bài giảng Tìm kiếm và trình diễn thông tin: Bài 8 do TS.Nguyễn Bá Ngọc biên soạn.
Trang 1(IT4853) Tìm kiếm và trình diễn thông tin
Trang 3Nội dung chính
1 MRR
2 NDCG
Trang 4 MRR – Mean Reciprocal Rank
Giả sử chỉ có một văn bản phù hợp duy nhất
Tìm kiếm văn bản đã biết,
Truy vấn định hướng,
Tìm kiếm một sự khẳng định (fact).
Thời gian tìm kiếm tỉ lệ với vị trí văn bản phù hợp
Phản ánh thời gian người dùng cần bỏ ra để tìm thấy kết quả phù hợp.
Trang 5 Gọi K là vị trí của kết quả đầu tiên phù hợp với q
q
RR Q
(
MRR
Trang 6Nội dung chính
1 MRR
2 NDCG
3 Xây dựng bộ dữ liệu
Trang 7 Có thể sử dụng sự phù hợp đa mức để đo mức
độ hữu ích của tập kết quả;
Người dùng đánh giá cao những kết quả phùhợp được trả về;
Vị trí của văn bản trong danh sách kết quả cóảnh hưởng tới sự tiếp nhận của người dùng:
Mức hữu ích bị thuyên giảm khi tăng dần khoảng cách tới đầu danh sách,
Luật giảm giá trị phổ biến là 1/log ( rank )
Sự phù hợp đa mức
Trang 8 DCG = r1 + r2/log22 + r3/log23 + … rn/log2n
Có thể sử dụng hệ cơ số bất kỳ cho hàm log
Trang 9 DCG tại vị trí p:
Công thức tương đương:
Nhấn mạnh những văn bản có độ phù hợp cao
DCG
Trang 12Ví dụ
i
Giá trị mẫu Hàm xếp hạng1 Hàm xếp hạng2Thứ tự
4 4 log
0 3
log
1 2
log
2 2
2 2
0 3
log
1 2
log
2 2
2 2
4 0
2 1
Trang 13Nội dung chính
1 MRR
2 NDCG
Trang 15Ví dụ một truy vấn trong TREC
Trang 16Định nghĩa sự phù hợp
TREC định nghĩa sự phù hợp như sau:
If you were writing a report on the subject of the topic and would use the information contained in the document in the report, then the document is relevant Only binary judgments ("relevant" or "not relevant") are made, and a document is judged relevant if any piece of
it is relevant (regardless of how small the piece is in relation to the rest
of the document).
Giả sử nếu bạn đang viết một báo cáo về chủ đề đang xét và bạn muốn
sử dụng thông tin chứa trong một văn bản cụ thể trong báo cáo của mình thì văn bản đó được coi là phù hợp Chỉ thực hiện đánh giá nhị phân (“phù hợp" hoặc “không phù hợp"), và một văn bản được coi là phù hợp nếu một phần bất kỳ của nó là phù hợp (không quan tâm phần
đó nhỏ tới mức nào nếu so sánh với phần còn lại của văn bản).
Trang 17Kiểm định đánh giá phù hợp
Kết quả thu được bởi các thành viên có thể được
sử dụng để đánh giá kết quả tìm kiếm nếu đảmbảo tính thống nhất trên một ngưỡng xác định
Đo sự thống nhất bằng cách nào?
Mức độ thống nhất giữa các bộ kết quả thườngđược đo bằng hệ số Kappa
Trang 18Hệ số Kappa
P ( E ) = giá trị mong đợi của tỉ lệ thống nhất ngẫu nhiên,
P ( A ) = tỉ lệ số lần thống nhất giữa những đánh giá
Thường chấp nhận к trong khoảng [2/3, 1.0].
Ngược lại, cần điều chỉnh phương pháp đánh giá phù hợp đang sử dụng nếu к quá nhỏ.
Trang 19Total 310 90 400
Theo dõi tỉ lệ số lần thống nhất của kết quả