Tìm kiếm và truy xuất thông tin(Information Retrieval)

Ba vấn đề cơ bản của IR Đánh chỉ mục cho tài liệu và câu hỏi: làm thế nào để có biểu diễn tốt nhất cho tài liệu docurments và câu hỏi query?. Lập chỉ mục tài liệu Mục tiêu: tìm ngữ n

Trang 1

Trang 2

Nội dung

Trang 3

1 Bài toán IR

các tài liệu để có được thông tin thích hợp

Trang 4

Ví dụ

G o o g l e

Web

Trang 7

2 Ba vấn đề cơ bản của IR

 Đánh chỉ mục cho tài liệu và câu hỏi: làm

thế nào để có biểu diễn tốt nhất cho tài liệu

(docurments) và câu hỏi (query)?

 Phương pháp tìm kiếm và thu thập: mức độ

phù hợp của tài liệu đối với một query?

 Đánh giá hệ thống:

 Làm thế nào ta biết hệ thống IR là tốt?

 Tài liệu tìm kiếm được có phù hợp hay không?

 Tài liệu tìm kiếm được có đầy đủ hay không?

Trang 8

3 Lập chỉ mục tài liệu

 Mục tiêu: tìm ngữ nghĩa quan trọng và tạo nên biểu

diễn trong của tài liệu

 Các nhân tố xem xét:

 Độ chính xác của phương pháp biểu diễn ngữ nghĩa(semantics)

 Tính toàn diện (Exhaustiveness) hay mức độ bao phủ(cover) đến tất cả nội dung

 Khả năng thực thi trên máy tính

 Phương pháp nào biểu diễn tốt nhất nội dung tài liệu

 Word : độ bao phủ tốt, độ chính xác thấp

Coverage

(Recall)

Accuracy (Precision) String Word Phrase Concept

Trang 9

Lựa chọn và ước lượng trọng số

từ khóa (key works)

 Sử dụng tần xuất xuất hiện trung bình frequency words)

Trang 10

 tf (term frequency): tần xuất xuất hiện từ

 Tần xuất xuất hiện của từ bằng thương giữa số lần xuất hiện từ và

tổng số từ trong một tài liệu Giá trị tf cao phản ánh từ đó quan trọng

 df (document frequency): tần xuất tài liệu

 Số lượng tài liệu chứa đựng từ

 Phân bố của từ trên toàn bộ tài liệu

 idf (inverse document frequency): tần xuất nghịch đảo

 Sự thay đổi phân bố của từ trên toàn bộ tài liệu

 Sự riêng biệt của từ đối với mỗi tài liệu

The more the term is distributed evenly, the less it is specific to a document

weight(t,D) = tf(t,D) * idf(t)

Lược đồ ước lượng trọng số tf*idf

Trang 11

Một số lược đồ xác định tf*idf

 tf(t, D)=freq(t,D) idf(t) = log(N/n)

 tf(t, D)=log[freq(t,D)] n = #số tài liệu chứa t

 tf(t, D)=log[freq(t,D)]+1 N = #số tất cả tài liệu

 tf(t, D)=freq(t,d)/Max[f(t,d)]

weight(t,D) = tf(t,D) * idf(t)

 Phép chuẩn hóa: Cosine normalization, /max, …

Trang 12

 Một số từ không đem theo thông tin ví dụ

of, in, about, with, I, although, …

 Stoplist: contain stopwords, not to be used as index

 Giới từ (Prepositions)

 Mạo từ (Articles)

 Đại từ (Pronouns)

 Một số phó từ và tính từ (Some adverbs and adjectives)

 Một số từ thông dụng (e.g document)

 Lược bỏ stopwords thường nâng cao hiệu quả cho IR

 Một số ít stoplists được sử dụng (e.g compare,

however…)

Từ dừng (Stopwords /

Stoplist)

Trang 13

Phần sau của từ (Stemming)

 Lý do :

 Các từ khác nhau có thể có thông tin tương tự

nhau (e.g search, searching): ta tạo biểu diễn cho tất cả các từ này

 Stemming :

 Loại bỏ phần sau của từ để có được từ gốc

computer compute computes computing computed

comput

Trang 14

Porter algorithm

(Porter, M.F., 1980, An algorithm for suffix stripping,

Program, 14(3) :130-137)

 Step 1: Gặp số nhiều hoặc động tính từ quá khứ:

 SSES -> SS caresses -> caress

 (*v*) ING -> motoring -> motor

 Step 2: adj->n, n->v, n->adj, …

 (m>0) OUSNESS -> OUS callousness -> callous

 (m>0) ATIONAL -> ATE relational -> relate

Trang 15

Kết quả của indexing

 Mỗi văn bản được biểu diễn bởi tập trọng số các từ

khóa keywords (terms):

Đây chính là dữ liệu đầu vào được sử dụng trong tìm kiếm

và thu thập thông tin một cách hiệu quả.

Trang 16

4 Retrieval

 Mô hình tìm kiếm và thu thập

 Làm thế nào một tài liệu được biểu diễn với tập

từ khóa cho trước?

 Làm thế nào một tài liệu và một câu hỏi biểu diễn và so sánh để tính toán điểm số?

 Một số vấn đề về cài đặt (Implementation)

Trang 18

Các mô hình IR

 Tài liệu D = tập các từ khóa đã được đánh trọng số.

 Câu hỏi Q = tập các từ khóa chưa được

đánh trọng số.

 Kết quả tìm kiếm: R(D, Q) = i w(ti , D)

trong đó ti là từ khóa trong Q

Trang 19

Mô hình logic

 Tài liệu = Phép hội các từ khóa

 Query = biểu diễn logic các từ khóa

 Kết quả có thể rất nhiều hoặc rất ít tài liệu

 Người dùng khó biểu diễn các câu hỏi logic.

Trang 21

Mô hình không gian Vector

 Vector space = tập tất cả các từ khóa có được

Trang 22

Document space

Trang 23

i i

i

i i

i

i i

b a b

a

b a Q

D Sim

b a

b a Q

D Sim

b a

b a Q

D Sim

b a Q

D Sim

)

* (

)

* ( )

, (

)

* ( 2 )

, (

*

)

* ( )

, (

)

* ( )

, (

2 2

t1

t2 D

Q

Trang 24

i i

i

i i

i

i i

t

x i

x i t

x i

t

x i

x i t

x i

D x t

i i

q q

NR t

P NR

t P NR

D

P

p p

R t

P R

t P

R x t

P R

D

P

) 1 ( )

1 (

) 1 ( )

1 (

) (

) 1

( )

| 0 (

)

| 1 (

)

| (

) 1

( )

| 0 (

)

| 1 (

)

| (

)

| (

Trang 25

Prob model

)1

(

)1

(log

1

1log)

1(

)1

(log

)1

(

)1

(log

)

|(

)

|

(log

)

) 1 (

i i

t

i

i i

i

i i

t

i

t

x i

x i t

x i

p q

q

p x

q

p p

q

p x

q q

p p

NR D

P

R D

P D

Odd

i

i i

i

i i

i

i i

Trang 26

5 Đánh giá hệ thống

 Hiệu quả về thuật toán: thời gian, không gian

 Hiệu quả về kết quả:

 Làm thế nào ta biết được hệ thống có khả năng thu thập và tìm kiếm tài liệu thích hợp?

 Làm thế nào ta biết một hệ thống IR này tốt hơn các

hệ thống khác?

 Các độ đo thường sử dụng:

 Precision = retrieved relevant docs / retrieved docs

 Recall = retrieved relevant docs / relevant docs

retrieved relevant

Trang 27

MAP (Mean Average Precision)

 rij = rank of the j-th relevant document for Qi

 |Ri| = #rel doc for Qi

)]

2

1(

1)

32

1(

1[

Trang 28

6 Một số nghiên cứu hiện nay

 Keywords: chưa đại diện hoàn hảo cho các khái niệm

 Định hướng ngữ nghĩa theo ngữ cảnh

 Sử dụng hợp nhất từ (chưa có từ điển hợp nhất chuẩn mực)

 Sử dụng cụm danh từ (các mẫu cú pháp kết hợp với thống

kê)

 Still a long way to go

Trang 30

Mô hình logic

quan như một biểu thức logic?

D => Q

chắc chắn trong khung logic?

Trang 31

Các ứng dụng liên quan:

Lọc thông tin

 IR: thay đổi câu hỏi trên tập tài liệu cho trước

 IF: quan tâm đến dòng tài liệu có sự quan tâm cao

 Quyết định yes/no trong việc sắp đặt thứ tự tài liệu

 Lợi thế: mô tả sở thích người dùng tích hợp được nhiều tài

nguyên sẵn có.

 Khó khăn: điều chỉnh ngưỡng để giữ lại hoặc bỏ qua tài liệu.

 Các kỹ thuật cơ sở giống như IF: “Lọc thông tin và IF là hai mặt của cùng một đồng tiền”.

IF

… doc3, doc2, doc1

keep

Trang 32

Một số bình luận cuối cùng

 IR liên quan đến nhiều lĩnh vực khác nhau:

 NLP, AI, database, machine learning, user

modeling…

 library, Web, multimedia search, …

 Liên quan đến nhiều vấn đề lý thuyết.

 Liên quan đến nhiều thử nghiệm thực tế

 Chứa đựng nhiều vấn đề lý thú cần được giải.

 Lĩnh vực khó: không thể giải quyết vấn đề

bằng các mô hình trực quan.

Trang 34

CASE STUDY

tạo chỉ mục tài liệu theo các phương pháp dưới đây:

 Biểu diễn tài liệu tiếng Anh bằng N-Grams.

 Biểu diễn tài liệu tiếng Anh bằng từ (word).

 Biểu diễn tài liệu tiếng Anh bằng cụm từ (word pharse).

 Biểu diễn tài liệu tiếng Việt bằng N-Grams.

 Biểu diễn tài liệu tiếng Việt bằng từ (word).

 Biểu diễn tài liệu tiếng Việt bằng cụm từ (word pharse).

 Tìm hiểu về các công cụ biểu diễn tài liệu tiếng Anh, tiếng Việt: Weka,

VnTockenizer.

 Mô hình không gian vector ứng dụng trong phân loại văn bản

 Mô hình thống kê ứng dụng trong phân loại văn bản

 Mô hình ma trận nhân tử ứng dụng trong phân loại văn bản

 Mô hình phân cụm ứng dụng trong phân loại văn bản

Định dạng
Số trang	34
Dung lượng	328,46 KB