Ba vấn đề cơ bản của IR Đánh chỉ mục cho tài liệu và câu hỏi: làm thế nào để có biểu diễn tốt nhất cho tài liệu docurments và câu hỏi query?. Lập chỉ mục tài liệu Mục tiêu: tìm ngữ n
Trang 1Tìm kiếm và truy xuất thông tin(Information Retrieval)
Trang 2Nội dung
Trang 31 Bài toán IR
các tài liệu để có được thông tin thích hợp
Trang 4Ví dụ
G o o g l e
Web
Trang 72 Ba vấn đề cơ bản của IR
Đánh chỉ mục cho tài liệu và câu hỏi: làm
thế nào để có biểu diễn tốt nhất cho tài liệu
(docurments) và câu hỏi (query)?
Phương pháp tìm kiếm và thu thập: mức độ
phù hợp của tài liệu đối với một query?
Đánh giá hệ thống:
Làm thế nào ta biết hệ thống IR là tốt?
Tài liệu tìm kiếm được có phù hợp hay không?
Tài liệu tìm kiếm được có đầy đủ hay không?
Trang 83 Lập chỉ mục tài liệu
Mục tiêu: tìm ngữ nghĩa quan trọng và tạo nên biểu
diễn trong của tài liệu
Các nhân tố xem xét:
Độ chính xác của phương pháp biểu diễn ngữ nghĩa(semantics)
Tính toàn diện (Exhaustiveness) hay mức độ bao phủ(cover) đến tất cả nội dung
Khả năng thực thi trên máy tính
Phương pháp nào biểu diễn tốt nhất nội dung tài liệu
Word : độ bao phủ tốt, độ chính xác thấp
Coverage
(Recall)
Accuracy (Precision) String Word Phrase Concept
Trang 9Lựa chọn và ước lượng trọng số
từ khóa (key works)
Sử dụng tần xuất xuất hiện trung bình frequency words)
Trang 10 tf (term frequency): tần xuất xuất hiện từ
Tần xuất xuất hiện của từ bằng thương giữa số lần xuất hiện từ và
tổng số từ trong một tài liệu Giá trị tf cao phản ánh từ đó quan trọng
df (document frequency): tần xuất tài liệu
Số lượng tài liệu chứa đựng từ
Phân bố của từ trên toàn bộ tài liệu
idf (inverse document frequency): tần xuất nghịch đảo
Sự thay đổi phân bố của từ trên toàn bộ tài liệu
Sự riêng biệt của từ đối với mỗi tài liệu
The more the term is distributed evenly, the less it is specific to a document
weight(t,D) = tf(t,D) * idf(t)
Lược đồ ước lượng trọng số tf*idf
Trang 11Một số lược đồ xác định tf*idf
tf(t, D)=freq(t,D) idf(t) = log(N/n)
tf(t, D)=log[freq(t,D)] n = #số tài liệu chứa t
tf(t, D)=log[freq(t,D)]+1 N = #số tất cả tài liệu
tf(t, D)=freq(t,d)/Max[f(t,d)]
weight(t,D) = tf(t,D) * idf(t)
Phép chuẩn hóa: Cosine normalization, /max, …
Trang 12 Một số từ không đem theo thông tin ví dụ
of, in, about, with, I, although, …
Stoplist: contain stopwords, not to be used as index
Giới từ (Prepositions)
Mạo từ (Articles)
Đại từ (Pronouns)
Một số phó từ và tính từ (Some adverbs and adjectives)
Một số từ thông dụng (e.g document)
Lược bỏ stopwords thường nâng cao hiệu quả cho IR
Một số ít stoplists được sử dụng (e.g compare,
however…)
Từ dừng (Stopwords /
Stoplist)
Trang 13Phần sau của từ (Stemming)
Lý do :
Các từ khác nhau có thể có thông tin tương tự
nhau (e.g search, searching): ta tạo biểu diễn cho tất cả các từ này
Stemming :
Loại bỏ phần sau của từ để có được từ gốc
computer compute computes computing computed
comput
Trang 14Porter algorithm
(Porter, M.F., 1980, An algorithm for suffix stripping,
Program, 14(3) :130-137)
Step 1: Gặp số nhiều hoặc động tính từ quá khứ:
SSES -> SS caresses -> caress
(*v*) ING -> motoring -> motor
Step 2: adj->n, n->v, n->adj, …
(m>0) OUSNESS -> OUS callousness -> callous
(m>0) ATIONAL -> ATE relational -> relate
Trang 15Kết quả của indexing
Mỗi văn bản được biểu diễn bởi tập trọng số các từ
khóa keywords (terms):
Đây chính là dữ liệu đầu vào được sử dụng trong tìm kiếm
và thu thập thông tin một cách hiệu quả.
Trang 164 Retrieval
Mô hình tìm kiếm và thu thập
Làm thế nào một tài liệu được biểu diễn với tập
từ khóa cho trước?
Làm thế nào một tài liệu và một câu hỏi biểu diễn và so sánh để tính toán điểm số?
Một số vấn đề về cài đặt (Implementation)
Trang 18Các mô hình IR
Tài liệu D = tập các từ khóa đã được đánh trọng số.
Câu hỏi Q = tập các từ khóa chưa được
đánh trọng số.
Kết quả tìm kiếm: R(D, Q) = i w(ti , D)
trong đó ti là từ khóa trong Q
Trang 19Mô hình logic
Tài liệu = Phép hội các từ khóa
Query = biểu diễn logic các từ khóa
Kết quả có thể rất nhiều hoặc rất ít tài liệu
Người dùng khó biểu diễn các câu hỏi logic.
Trang 21Mô hình không gian Vector
Vector space = tập tất cả các từ khóa có được
Trang 22Document space
Trang 23i i
i
i i
i i
i
i i
i i
b a b
a
b a Q
D Sim
b a
b a Q
D Sim
b a
b a Q
D Sim
b a Q
D Sim
)
* (
)
* ( )
, (
)
* ( 2 )
, (
*
)
* ( )
, (
)
* ( )
, (
2 2
2 2
2 2
t1
t2 D
Q
Trang 24i i
i
i i
i
i i
i i
t
x i
x i t
x i
x i
t
x i
x i t
x i
x i
D x t
i i
q q
NR t
P NR
t P NR
D
P
p p
R t
P R
t P
R x t
P R
D
P
) 1 ( )
1 (
) 1 ( )
1 (
) (
) 1
( )
| 0 (
)
| 1 (
)
| (
) 1
( )
| 0 (
)
| 1 (
)
| (
)
| (
Trang 25Prob model
)1
(
)1
(log
1
1log)
1(
)1
(log
)1
(
)1
(log
)
|(
)
|
(log
)
) 1 (
i i
i i
t
i
i i
i
i i
t
i
t
x i
x i t
x i
x i
p q
q
p x
q
p p
q
q
p x
q q
p p
NR D
P
R D
P D
Odd
i
i i
i
i i
i
i i
Trang 265 Đánh giá hệ thống
Hiệu quả về thuật toán: thời gian, không gian
Hiệu quả về kết quả:
Làm thế nào ta biết được hệ thống có khả năng thu thập và tìm kiếm tài liệu thích hợp?
Làm thế nào ta biết một hệ thống IR này tốt hơn các
hệ thống khác?
Các độ đo thường sử dụng:
Precision = retrieved relevant docs / retrieved docs
Recall = retrieved relevant docs / relevant docs
retrieved relevant
Trang 27MAP (Mean Average Precision)
rij = rank of the j-th relevant document for Qi
|Ri| = #rel doc for Qi
)]
2
1(
1)
32
1(
1[
Trang 286 Một số nghiên cứu hiện nay
Keywords: chưa đại diện hoàn hảo cho các khái niệm
Định hướng ngữ nghĩa theo ngữ cảnh
Sử dụng hợp nhất từ (chưa có từ điển hợp nhất chuẩn mực)
Sử dụng cụm danh từ (các mẫu cú pháp kết hợp với thống
kê)
Still a long way to go
Trang 30Mô hình logic
quan như một biểu thức logic?
D => Q
chắc chắn trong khung logic?
Trang 31Các ứng dụng liên quan:
Lọc thông tin
IR: thay đổi câu hỏi trên tập tài liệu cho trước
IF: quan tâm đến dòng tài liệu có sự quan tâm cao
Quyết định yes/no trong việc sắp đặt thứ tự tài liệu
Lợi thế: mô tả sở thích người dùng tích hợp được nhiều tài
nguyên sẵn có.
Khó khăn: điều chỉnh ngưỡng để giữ lại hoặc bỏ qua tài liệu.
Các kỹ thuật cơ sở giống như IF: “Lọc thông tin và IF là hai mặt của cùng một đồng tiền”.
IF
… doc3, doc2, doc1
keep
Trang 32Một số bình luận cuối cùng
IR liên quan đến nhiều lĩnh vực khác nhau:
NLP, AI, database, machine learning, user
modeling…
library, Web, multimedia search, …
Liên quan đến nhiều vấn đề lý thuyết.
Liên quan đến nhiều thử nghiệm thực tế
Chứa đựng nhiều vấn đề lý thú cần được giải.
Lĩnh vực khó: không thể giải quyết vấn đề
bằng các mô hình trực quan.
Trang 34CASE STUDY
tạo chỉ mục tài liệu theo các phương pháp dưới đây:
Biểu diễn tài liệu tiếng Anh bằng N-Grams.
Biểu diễn tài liệu tiếng Anh bằng từ (word).
Biểu diễn tài liệu tiếng Anh bằng cụm từ (word pharse).
Biểu diễn tài liệu tiếng Việt bằng N-Grams.
Biểu diễn tài liệu tiếng Việt bằng từ (word).
Biểu diễn tài liệu tiếng Việt bằng cụm từ (word pharse).
Tìm hiểu về các công cụ biểu diễn tài liệu tiếng Anh, tiếng Việt: Weka,
VnTockenizer.
Mô hình không gian vector ứng dụng trong phân loại văn bản
Mô hình thống kê ứng dụng trong phân loại văn bản
Mô hình ma trận nhân tử ứng dụng trong phân loại văn bản
Mô hình phân cụm ứng dụng trong phân loại văn bản