LUẬN VĂN: HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG VÀ TẠO NHÃN CỤM TÀI LIỆU pdf

Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xutại ICML năm 2007 [59], mô hình t

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THU TRANG

HỌC XẾP HẠNG TRONG TÍNH HẠNG ĐỐI TƯỢNG

VÀ TẠO NHÃN CỤM TÀI LIỆU

Ngành: Công nghệ Thông tin

Chuyên ngành: Hệ thống Thông tin

Mã số: 60 48 05

luận văn thạc sĩ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy

Hà Nội - 2008

Trang 2

Tôi xin cam đoan đây là công trình nghiên cứu của bản thân Các số liệu, kết quảtrình bày trong luận văn này là trung thực và chưa từng được ai công bố trong bất

kỳ công trình luận văn nào trước đây

Học ViênNguyễn Thu Trang

ii

Trang 3

Lời cảm ơn

Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến PGS.TS Hà Quang Thụy Người thầy kính yêu, người hướng dẫn, chỉ bảo em tận tình từ những bước nghiêncứu đầu tiên và hoàn thành luận văn

-Tôi chân thành cảm ơn các thầy cô trong bộ môn Các Hệ Thống Thông Tin, vàphòng thí nghiệm SISLAB, nhóm xemina Data Mining và đặc biệt gửi lời cảm ơntới ThS.Nguyễn Cẩm Tú đã giúp đỡ, hỗ trợ tôi trong quá trình nghiên cứu, hoànthành đề tài

Tôi cảm ơn các thầy cô và các cán bộ của trường Công nghệ đã tạo cho tôi nhữngđiều kiện thuận lợi để học tập và nghiên cứu

Cuối cùng, xin gửi lời cảm ơn tới gia đình, GB và bạn bè nguồn động viên tinhthần to lớn với tôi, luôn cổ vũ và tin tưởng tôi

Nguyễn Thu Trang

iii

Trang 4

MỞ ĐẦU 1

1.1 Giới thiệu 2

1.2 Phương pháp PageRank 3

1.3 Xếp hạng đối tượng 5

1.4 Phương pháp đánh giá xếp hạng 6

1.5 Tổng kết 8

2 Học xếp hạng 9 2.1 Giới thiệu 9

2.2 Phương pháp học xếp hạng 11

2.2.1 Hồi quy có thứ tự và Pairwise 11

2.2.2 Học xếp hạng danh sách Listwise 13

2.3 Tổng kết chương 15

3 Xếp hạng trong máy tìm kiếm thực thể 16 3.1 Máy tìm kiếm thực thể 17

iv

Trang 5

MỤC LỤC v

3.2 Xếp hạng thực thể 21

3.2.1 Mô hình Impression 22

3.2.2 Nhận xét, đánh giá mô hình Impression 27

3.2.3 Mô hình đề xuất 29

3.3 Thực nghiệm 32

3.3.1 Công cụ sử dụng 32

3.3.2 Dữ liệu 33

3.3.3 Kết quả và đánh giá 34

4 Tạo nhãn cụm tài liệu 37 4.1 Giới thiệu 37

4.2 Phương pháp lựa chọn nhãn 39

4.3 Học xếp hạng nhãn cụm 42

4.3.1 Các đặc trưng 42

4.3.2 Học hàm tính hạng 44

4.4 Thực nghiệm 45

4.4.1 Nguồn dữ liệu 45

4.4.2 Dữ liệu học 46

4.4.3 Kết quả và đánh giá 47

Trang 6

A.1 Dữ liệu tìm kiếm thuốc 59A.2 Cây wiki 60

Trang 8

Xếp hạng các đối tượng (trang Web, tác giả, chủ đề, trường đại học, công ty ) có ýnghĩa quan trọng trong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng

- điển hình là máy tìm kiếm Các phương pháp tính hạng được nghiên cứu và pháttriển từ rất nhiều năm trước, nhưng khoảng 3 năm trở lại đây, hướng tiếp cận sửdụng phương pháp học máy để xếp hạng đối tượng trở thành một vấn đề thu hútđược rất nhiều sự quan tâm như trong SIGIR 2007 và SIGIR 2008 đã tổ chức hộithảo chuyên đề về học xếp hạng (learning to rank: LTR)[49]

Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu

và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xutại ICML năm 2007 [59], mô hình tính hạng thực thể trong máy tìm kiếm thực thểcủa nhóm các tác giả Tao Cheng, Kevin Chang trong [17, 18, 19], và sử dụng họcxếp hạng để đánh giá trọng số của các cụm từ [65, 53]

Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thựchiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiệnnay và từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thểtrong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc và học xếp hạng để tạo nhãncho cụm tài liệu Qua đó cho thấy ứng dụng to lớn và ý nghĩa quan trọng của bàitoán học xếp hạng

Luận văn này gồm bốn chương, nội dung được mô tả như dưới đây

Chương 1 Tổng quan về xếp hạng đối tượng giới thiệu những nội dung cơ bảnnhất về bài toán xếp hạng và đặt vấn đề học xếp hạng đối tượng

1

Trang 9

MỞ ĐẦU 2

Chương 2 Học xếp hạng đối tượng trình bày hai phương pháp học xếp hạng cơbản Đồng thời, chương này cũng giới thiệu thuật toán học được sử dụng nhiềutrong học xếp hạng là máy véc-tơ hỗ trợ (SVM) và hồi quy tuyến tính.Chương 3 Học xếp hạng trong máy tìm kiếm thực thể đưa ra mô hình học xếphạng đối tượng và thực nghiệm tính hạng thực thể thuốc trong máy tìm kiếmthực thể

Chương 4 Gán nhãn cụm tài liệu phân tích, áp dụng và báo cáo kết quả thựcnghiệm học xếp hạng từ/cụm từ để tạo nhãn cho các cụm tài liệu

Phần kết luận tổng kết và tóm lược nội dung chính của luận văn

Trang 10

Một điển hình của bài toán xếp hạng là việc xếp hạng các kết quả trả về củamáy tìm kiếm Trong máy tìm kiếm thông thường (như Google, Yahoo) độ quantrọng hay còn gọi hạng trang là đại lượng cơ sở để xếp hạng Giá trị này được xácđịnh dựa vào việc phân tích đồ thị liên kết giữa các trang web Với tập các tài liệu

D = d1, dn, khi có truy vấn q của người dùng máy tìm kiếm cần tìm những tài liệu

2

Trang 11

CHƯƠNG 1 XẾP HẠNG ĐỐI TƯỢNG 3

trong D phù hợp với truy vấn q, và sau đó sắp xếp các tài liệu theo độ phù hợp vớitruy vấn và độ quan trọng giảm dần Đó là quá trình xếp hạng và hàm tính hạng

là hàm kết hợp của giá trị độ tương tự giữa tài liệu với truy vấn similarity(q, di)

và hạng trang thành chỉ số xếp hạng được Arvind Arasu và các tác giả đề cập tớitrong [6] Việc xác định hàm tính hạng đóng vai trò quan trọng và quyết định đốivới chất lượng của máy tìm kiếm

Từ những năm 98, Cohen [21] đã đưa ra nhận định rằng có nhiều ứng dụng cầnsắp xếp các đối tượng hơn là cần phân lớp chúng Mọi ứng dụng mà kết quả trả vềcho người dùng là một danh sách các đối tượng cần được sắp xếp, xếp hạng giúpngười dùng nhanh chóng tiếp cận với kết quả gần với yêu cầu của mình nhất có thể.Thực tế chúng ta gặp rất nhiều các bảng xếp hạng như ví dụ ở trên Điều đó chothấy, xếp hạng là một bài toán quan trọng và có ý nghĩa

Tuy nhiên khái niệm xếp hạng (ranking) ra đời ban đầu với định hướng xếphạng các đối tượng trên Web - cụ thể là các trang web Các trang web cần được sắpxếp theo độ quan trọng giảm dần Giá trị độ quan trọng đó gọi là hạng trang vàPageRank [43] là phương pháp tính hạng đầu tiên, tính hạng trang các trang webdựa vào phân tích mối liên kết giữa các trang web trong đồ thị Web

1.2 Phương pháp PageRank

Page và các đồng tác giả [43] đã đưa ra ý tưởng: độ quan trọng của một trangchịu ảnh hưởng của độ quan trọng từ các trang liên kết đến nó Và công thức tínhPageRank cho một trang u, gọi là πu được tính như sau:

Với BI(i) là tập hợp các trang có liên kết đến trang i

và Ni là số trang liên kết ra từ trang i

Biểu diễn đồ thị Web bởi ma trận chuyển P , khi đó phương trình 1.1 được viếtlại dưới dạng ma trận:

Trang 12

Trong đó: π = (π1, π2, πn) là véc-tơ hạng các trang web, với thành phần πi làhạng của trang i.

Từ 1.2 cho thấy véc-tơ hạng trang π chính là véc-tơ riêng của ma trận chuyển

P tương ứng với giá trị riêng λ = 1

Do tính chất của chuỗi Markov, để tính véc-tơ riêng của P thuật toán giả thiếtrằng đồ thị trang web là liên thông, tức với cặp hai trang web i, j bất kì luôn cóđường đi từ i tới j và ngược lại Tuy nhiên thực tế trên World Wide Web (WWW)vẫn tồn tại không ít các trang web không có liên kết đến hoặc liên kết ra nên việcgiả thiết đồ thị Web liên thông là không hợp lý Và trong ma trận P vẫn tồn tạihàng chỉ toàn số 0, nên không tồn tại một phân phối xác suất dừng ổn định của Phay chính là véc-tơ hạng trang Vì vậy cần phải biến đổi ma trận P thành P0 saocho phù hợp

Định nghĩa véc-tơ v, được chuẩn hóa kvk = 1, xác định xác suất phân phối với

vi là xác suất trang web i được gọi đến ở lần duyệt web đầu tiên véc-tơ v có vai tròtrong việc hướng kết quả PageRank theo chủ đề, lĩnh vực mong muốn Khi khôngxét đến ngữ cảnh đó có thể chọn vi = n1 với ∀i = 1, 2 n

Gọi d là véc-tơ n × 1 xác định các trang không có liên kết ra (dangling nút trên

Để đảm bảo phân phối dừng ổn định (duy nhất), chuỗi Markov tương ứng vớiquá trình duyệt Web của người dùng cần có tính chất ergodic, tức từ một trangweb người dùng có thể chuyển tới một trang bất kì khác Do vậy ma trận Markove

P được xác định như sau:

e

P = αP0+(1 − α)

Trang 13

CHƯƠNG 1 XẾP HẠNG ĐỐI TƯỢNG 5Với: J = [1]n×1v và α: là hệ số hãm

αthường được chọn giá trị 0.85, với ý nghĩa tại mỗi bước duyệt Web người dùng

có thể chuyển tới một trang trong các liên kết ra từ trang hiện tại với xác suất α vàchuyển tới các trang khác trong đồ thị Web với xác suất (1 − α) theo phân phối v.Khi đó, thay vì tính vector riêng của ma trận P ta tính vector riêng π của matrận eP: π = π eP

Theo tính chất của chuỗi Markov, tổng các thành phần của véc-tơ π bằng 1:

Với những xếp hạng đơn giản như xếp hạng học sinh theo điểm trung bình, xếphạng các doanh nghiệp theo doanh thu năm có một tiêu chí xếp hạng rõ ràng vàhàm tính hạng "dễ dàng" xác định Tuy nhiên trong nhiều ứng dụng như xếp hạngcác trường đại học, xếp hạng các nhà khoa học, xếp hạng các kết quả trả về củamáy tìm kiếm, mỗi loại đối tượng cần xếp hạng có nhiều đặc trưng khác nhau,cần tìm ra mối quan hệ về độ quan trọng của các đặc trưng đó Và từ đó kết hợpcác đặc trưng thành một hàm gọi l hàm tính hạng để xếp hạng các đối tượng Đốitượng có giá trị hạng càng cao thì có thứ hạng càng cao (thứ hạng cao nhất là 1,

và lần lượt giảm dần 2, 3 )

Ví dụ, vấn đề xếp hạng các trường đại học đang nhận được nhiều sự quan tâm.Webometric [55, 4] là một phương pháp xếp hạng trường đại học dựa vào các thôngtin trên web với có 4 chỉ số đặc trưng được xác định Hàm xếp hạng các trường là

Trang 14

một hàm tuyến tính của 4 chỉ số đó và Webometric cũng đưa ra hệ số cụ thể chotừng chỉ số Việc xếp hạng các trường đại với độ đo Webometric vẫn đang được cácnhà khoa học quan tâm nghiên cứu [55, 4] với các nghiên cứu về các chỉ số và xácđịnh hàm xếp hạng.

Học xếp hạng được Joachims [36, 49] đánh giá là lĩnh vực nổi lên với sự pháttriển lớn mạnh trong các nghiên cứu về truy tìm thông tin (information retrieval)vàhọc máy (machine learning) Nói một cách khác, học hàm tính hạng hiện đang làvấn đề được quan tâm trong lĩnh vực học máy và có nhiều ứng dụng trong truy tìmthông tin, theo [61] Học xếp hạng là học hàm của các đặc trưng để sắp xếp các đốitượng theo độ phù hợp, ưu tiên hay độ quan trọng tùy vào từng ứng dụng cụ thể.Hiện nay nghiên cứu các phương pháp học tính hạng đang được nhiều nhà khoa họctrên thế giới quan tâm [8, 12, 16, 26, 37, 44, 46, 45, 50], có nhiều phương pháp họcxếp hạng được đưa ra như RankSVM [34], SVM-MAP [62]

Chương sau sẽ giới thiệu cụ thể các phương pháp học xếp hạng hiện nay

1.4 Phương pháp đánh giá xếp hạng

Để đánh giá chất lượng một xếp hạng, các độ đo thông dụng trong học máy như độchính xác (precision), độ hồi tưởng (recall), độ đo F không sử dụng Xếp hạng yêucầu các đối tượng "đúng" (phù hợp tiêu chí) cần được xếp ở các vị trí đầu tiên củabảng xếp hạng càng tốt

Giả sử 6 đối tượng tương ứng là: a, b, c, d, e

Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không phùhợp

Một xếp hạng của các đối tượng cần đánh giá là: c, a, d, b, e

Các độ đo về độ chính xác của xếp hạng thường được sử dụng:

Trang 15

CHƯƠNG 1 XẾP HẠNG ĐỐI TƯỢNG 7

Độ chính xác mức K: P @K

Độ chính xác xếp hạng ở mức K - P recision@K (P @K): độ chính xác của K đốitượng đầu bảng xếp hạng Xác định số đối tượng đúng ở K vị trí đầu tiên của xếphạng và gọi là Match@K, và độ chính xác mức K:

P @K = Match@K

KVới ví dụ trên ta có: P @3 = 2/3 ; P @4 = 3/4; P @5 = 3/5;

Pn j=1I(j)Với n là số đối tượng được xét

Giá trị trung bình trên m xếp hạng (với bài toán tìm kiếm thì đó là giá trị trungbình của AP trên các truy vấn):

MAP =

Pm i=1APi

m

Trang 16

Một số độ đo khác

Các độ đo ít được sử dụng hơn như:

• Số đối tượng đúng ở mức K: Match@K

• Trung bình tổng nghịch đảo thứ hạng của các đối tượng đúng (MTRR): Vớigiá trị tổng nghịch đảo được xác định:

1.5 Tổng kết

Xếp hạng là một bài toán phổ biến, có ý nghĩa quan trọng và có nhiều ứng dụngtrong thực tế Vấn đề học xếp hạng là vấn đề thời sự đang nhận được nhiều sự quantâm của các nhà khoa học Hướng tiếp cận bài toán học xếp hạng đã được giới thiệutrong chương này, các chương sau tiếp tục làm rõ hơn về bài toán học xếp hạng vàứng dụng

Trang 17

Dữ liệu học S là xếp hạng đúng của một tập các đối tượng X0 ⊂ X được đưa

ra để học hàm h(x) Tùy từng ứng dụng mà người dùng có các mức yêu cầu khácnhau về sắp xếp thứ hạng đúng và có các kiểu dữ liệu học:

1 Xác định giá trị độ phù hợp y cụ thể của từng đối tượng trong S Do trongứng dụng xếp hạng, người dùng quan tâm nhiều tới thứ tự thay vì giá trị xếp

9

Trang 18

hạng (độ phù hợp) nên y thường được xác định:

• Hai giá trị tương ứng xếp hạng phù hợp (releval) và không phù hợp(inreleval) Người dùng chỉ quan tâm các đối tượng có phù hợp tiêu chíđặt ra hay không (2 hạng)

• N giá trị xác định tương ứng N hạng nhất định, ví dụ: rất phù hợp, phùhợp, có thể phù hợp, không phù hợp

2 Đưa ra các so sánh độ phù hợp của từng cặp đối tượng

3 Danh sách sắp thứ tự đúng của "tất cả" các đối tượng theo độ phù hợp

Với mỗi kiểu dữ liệu trên, xác định các kiểu ràng buộc xếp hạng khác nhau và cócác phương pháp học xếp hạng tương ứng Các phương pháp học xếp hạng theoSoumen Chakrabarti [14] và Tie-Yan Liu [40]:

Hồi quy (Regression): Có S = {(xi, yi)} mỗi đối tượng xi xác định giá trị yi

tương ứng về độ phù hợp Học hàm h(x) thỏa mãn:

h(xi) = yi với ∀x ∈ X0

Trong học xếp hạng, khi giá trị yi xác định thứ hạng của đối tượng xi thìphương pháp gọi là hồi quy có thứ tự (Ordinal Regression)

Cặp thứ tự (Pairwise): Có S = {(xi, xj)} là tập các cặp đối tượng được sắp thứ

tự, với mỗi cặp (xi, xj) có nghĩa xi có thứ hạng cao hơn xj (xi phù hợp hơn

xj : xi xj) Tìm h(x):

∀(xi, xj) ∈ S có xi xj thì h(xi) > h(xj)Danh sách sắp xếp (Listwise): Một thứ tự sắp xếp của tất cả các đối tượngđược xác định [62] Tuy nhiên trong nhiều ứng dụng (ví dụ máy tìm kiếm),việc sắp thứ tự của tất cả các đối tượng là không khả thi, thì một xếp hạngcủa K đối tượng đầu tiên được xác định, và tất cả các đối tượng khác đều cóhạng thấp hơn [12]

Có S = {x1, x2, , xm} với xi ∈ X0 là một sắp thứ tự (x1 x2 xm)tìm hàm h(x) sao cho: h(x1) > h(x2) > > h(xm)

Trang 19

CHƯƠNG 2 HỌC XẾP HẠNG 11

2.2 Phương pháp học xếp hạng

2.2.1 Hồi quy có thứ tự và Pairwise

Học xếp hạng với phương pháp hồi quy có thứ tự: tập dữ dữ liệu học S = {(xi, yi)}l

i=1với

yi ∈ 1, 2, R là một tập sắp thứ tự, cần học hàm h(x) thỏa mãn:

Với mọi cặp (xi, yi) và (xj, yj) thuộc S thì yi > yj ⇔ h(xi) > h(xj)

Gọi P là tập hợp tất cả các cặp (i, j) mà thứ hạng của xicao hơn của xj (xi xj)trong S: P = {(i, j) : yi > yj} và |P | = m Do vậy có thể phát biểu lại bài toán: cócác cặp so sánh thứ tự S0 = {(xi, xj)

h(x) = wTx

SVM[33] (Support Vector Machine - máy véc-tơ hỗ trợ) là phương pháp học máyhọc bộ phân lớp nhị phân (chia các đối tượng thành hai lớp) Tư tưởng chính củaSVM là xác định biên (siêu phẳng) chia không gian các đối tượng thành hai nửa vàtìm siêu phẳng tốt nhất (tối ưu) mà khoảng cách từ siêu phẳng tới đối tượng gầnnhất trong cả 2 tập phân chia là lớn nhất

Với dữ liệu có thể phân tách tuyến tính, siêu phẳng có dạng wTx + b = 0 Dễdàng nhận thấy mối liên hệ giữa hàm tính hạng h(x) và siêu phẳng Do vậy vớiphương pháp SVM tìm được siêu phẳng ta suy ra hàm tính hạng h(x)

Trang 20

Để xác định siêu phẳng tối ưu, Joachims [33] đưa ra công thức tối ưu:

Trong đó ξi là hệ số nới lỏng được mô tả như trong hình 2.2

Herbrich [30] đã dựa vào công thức tối ưu trên của Joachims để đưa ra tối ưutương tự trong hồi quy có thứ tự gọi là ordinal regression SVM (OR-SVM):

Thuật toán SVM với tối ưu này tìm hàm h(x) tuyến tính, siêu phẳng tốt nhất

mà làm cực tiểu số cặp đối tượng x phải hoán đổi vị trí trong sắp xếp được dùngbởi siêu phẳng Mô tả ý tưởng như hình 2.1

Viết lại ràng buộc của công thức tối ưu trên ta có:

với ∀(i, j) ∈ P : wT(xi− xj) ≥ 1 − ξij

Công thức tương tự với công thức của ràng buộc trong tối ưu phân lớp SVM [33]

Do vậy mọi biến đổi tối ưu trên phân lớp SVM đều có thể được thực hiện đối vớihồi quy có thứ tự như các biến đổi của Joachims [34]

Vậy hồi quy có thứ tự đã được đưa về bài toán học phân lớp nhị phân, sử dụngphân lớp SVM để học được mô hình tham số w cho hồi quy tuyến tính, được gọi làphương pháp RankSVM

Wei Chu và S Sathiya Keerthi [20] năm 2005 cũng đưa ra phương pháp học hồiquy có thứ tự dựa vào SVM với việc xác định các ngưỡng phân chia thứ hạng: Với

r thứ hạng trong S cần tối ưu (r − 1) ngưỡng để phân các đối tượng vào từng lớp,

Trang 22

Hai xếp hạng trên đều chỉ xếp hạng sai một cặp đối tượng, nhưng có thể thấyviệc xếp sai g,p là lỗi lớn hơn so với xếp sai b,g Đây chính là điểm yếu của phươngpháp Pairwise Do chỉ xét từng cặp đối tượng để so sánh nên phương pháp Pairwisekhông tối ưu các độ đo đánh giá chất lượng xếp hạng ví dụ như MAP, vì vậy khôngphân biệt được sự khác nhau giữa hai xếp hạng trên [40].

Do đó, thay vì chuyển bài toán xếp hạng về bài toán hồi quy và phân lớp, họcxếp hạng từ danh sách sắp thứ hạng đã được các tác giả [62, 12, 10, 50] quan tâm.Với Listwise, dữ liệu học là tập S = {x1, , xn}các đối tượng thuộc X với thứ hạngsắp xếp tương ứng Y = {y1, , yn}

Phương pháp học xếp hạng trực tiếp từ danh sách xếp hạng do Yisong Yue vàcác đồng tác giả [62] đưa ra sử dụng SVM để tìm tối ưu và ràng buộc về độ đo đánhgiá MAP trên danh sách xếp hạng

Yisong Yue đã dựa vào tối ưu Multivar [35] của Joachims, công thức:

minw,ξ i,j ≥0

1

2w

Tw + Cm

N

X

i=1

ξij

Với ràng buộc: ∀i, ∀y ∈ Y có wTΨ(xi, yi) ≥ wTΨ(xi, y) + ∆(yi, y) − ξi

Trong đó Ψ(x, y) là độ đo xác định độ khác biệt giữa các sắp xếp thứ hạng vớisắp thứ hạng đúng Yisong Yue hướng tối ưu độ đo MAP và xác định:

(i : rel) có nghĩa thứ hạng i được xếp đúng và (j :!rel) là thứ hạng j xếp sai

yij = 1 nếu xi có thứ hạng cao hơn xj và ngược lại yij = −1 nếu xi có thứ hạngthấp hơn xj

Khi số lượng đối tượng được xếp hạng tăng thì số ràng buộc cũng tăng nhanh,

do vậy Yisong Yue và các đồng tác giả đưa ra phương pháp học từng bước Mỗibước, xác định ràng buộc mà bị vi phạm lớn nhất (lỗi nhất) trong tập các ràng buộc

Trang 23

(một dự án về học xếp hạng), phương pháp SVM-MAP có chất lượng cao (so vớicác phương pháp đã công bố kết quả của cùng dữ liệu của LETOR).

2.3 Tổng kết chương

Chương này đã giới thiệu chung về các phương pháp học xếp hạng hiện nay và haiphương pháp học xếp hạng SVM-MAP, RankSVM được đề cập Đó là hai phươngpháp được áp dụng vào hai ứng dụng học xếp hạng được trình bày ở chương sau

∗ http://research.microsoft.com/en-us/um/beijing/projects/letor/

Trang 24

Với sự phát triển của các kỹ thuật rút trích thông tin (Information IE) cụ thể là rút trích các thực thể, hướng phát triển máy tìm kiếm thực thể đãđược Kevin Chang và các cộng sự [17, 18, 19] nghiên cứu, xây dựng Truy vấn củangười dùng trên máy tìm kiếm thực thể không đơn thuần là các từ khóa mà ngườidùng xác định rõ hơn về loại đối tượng dữ liệu đang muốn tìm và ngữ cảnh tìmkiếm Kết quả trả về cho người dùng thay vì chỉ là các địa chỉ web, người dùng cònnhận được các thông tin cụ thể về đối tượng mình mong muốn tìm kiếm Cũng nhưvới máy tìm kiếm thông thường xếp hạng là vấn đề quan trọng, xếp hạng thực thể

Extraction-16

Trang 25

CHƯƠNG 3 XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 17

là cốt lõi và quan trọng của máy tìm kiếm thực thể

Không chỉ các tác giả T.Cheng, X.Yan, K.Chang [17, 18, 19] mà xếp hạng thựcthể thu hút được sự quan tâm của nhiều nhà khoa học với các nghiên cứu xếp hạngthực thể trên các trang web của wikipedia∗ [51, 23, 68, 24, 54, 64] Đặc điểm dữ liệuwiki là các trang web đều được xác định chủ đề/thể loại (category) và trong mỗitrang có các khái niệm (concept) được đánh dấu (tag) hay tạo liên kết tới các trang

mô tả khái niệm đó Do vậy, với cấu trúc web giàu ngữ nghĩa đó, việc xếp hạng cácthực thể trên wikipedia thường dựa trên các liên kết giữa các thực thể (hay các kháiniệm), liên kết giữa các trang web, độ tương đồng ngữ nghĩa giữa các khái niệm nhưđược đề cập trong [23] Song song với các nghiên cứu đó là các nghiên cứu xếp hạngthực thể dựa trên việc xây dựng đồ thị quan hệ giữa các thực thể, mạng xã hội cácthực thể trên web [47, 15, 13, 2, 7]

Qua phân tích các nghiên cứu [51, 23, 24, 54, 47, 13, 15, 17, 18, 19], với địnhhướng xây dựng hệ tìm kiếm thực thể trên web nói chung, việc xếp hạng trong tìmkiếm thực thể của nhóm T.Cheng, X.Yan và K.Cheng được quan tâm và phân tích

3.1 Máy tìm kiếm thực thể

Người dùng thường tìm kiếm thông tin về đối tượng nào đó, ví dụ như khi sử dụngtruy vấn "thuốc chống viêm", người dùng muốn tìm các thực thể thuốc mà có tácdụng chống viêm Và các máy tìm kiếm hiện nay (như Google, Yahoo, MSN) bằngcách so sánh văn bản (text) trên từng trang web với truy vấn và trả về cho ngườidùng địa chỉ các trang mà có chứa từ khóa trong truy vấn Do vậy người dùng khôngtrực tiếp nhận được thông tin mong muốn mà phải duyệt qua nội dung các trangweb trả về đó và không chắc chắn có được thông tin mong muốn ở những kết quảđầu tiên Đó là nhược điểm của các máy tìm kiếm này, không hiểu mục đích tìmkiếm của người dùng, và tìm kiếm trên các trang web độc lập chỉ dựa vào từ khóa.Theo [17] máy tìm kiếm thực thể hướng người dùng tốt hơn, cho phép chỉ ra trongtruy vấn đối tượng mà người dùng muốn tìm Và kết quả trả về của máy tìm kiếm là

∗ http://wikipedia.org

Trang 26

các thực thể của đối tượng cần tìm, mỗi thực thể được xác định không chỉ xét trênmột trang độc lập mà có thể được tổng hợp qua nhiều trang web Ví dụ máy tìmkiếm thực thể của dự án WISDM∗ của nhóm T.Cheng, X.Yan và K.Chang Với truyvấn thông thường q = "phone number of New York Department of Motor Vehices"tức người dùng đang cần tìm điện thoại của văn phòng của "Motor Vehices" ở "NewYork" Khi đó truy vấn của người dùng tương ứng trong máy tìm kiếm thực thểWISDM là q = "New York DMV #phone", chỉ rõ đối tượng muốn tìm "phone" vàngữ cảnh xuất hiện của đối tượng "New York DMV" Kết quả trả về của máy tìmkiếm là các số điện thoại, và với mỗi số điện thoại có danh sách các địa chỉ webtương ứng chứa thông tin điện thoại đó như bảng 3.1.

Bảng 3.1: Ví dụ kết quả trả về của truy vấn q

1-800-225-5368 http://www.dmv-department-of-motor-vehicles.com,

https://www.nysdot.gov/about-nysdot/contact,http://nysparks.state.ny.us/snow/contact.asp

• Input: Truy vấn q = α(E1, , Em, k1, , kl) là một hàm của các kiểu thực thể

và các từ khóa thể hiện yêu cầu của người dùng tìm kiếm các loại thực thể

∗ http://parrot.cs.uiuc.edu/entitysearch/large-demo.html

Trang 27

Hình 3.1: Đồ thị web với khung nhìn thực thể [18]

Tìm kiếm truyền thống Tìm kiếm thực thể

Hình 3.2: Mô hình tìm kiếm truyền thống và tìm kiếm thực thể [56]

E1, , Em với ngữ cảnh các từ khóa k1, , kl

• Output: Danh sách đã xếp hạng của các bộ t = (e1, , em)

Tao Cheng, X.Yan và Kevin C.C Chang tại SIGMOD’07 [19] đã đưa ra kiến trúc cơbản của hệ thống tìm kiếm thực thể hình 3.3 Hệ thống được chia thành hai phần:một phần xử lý ngoại tuyến (offline) gồm rút trích thực thể (Entity extraction) và

Trang 28

Global Query Processing

…

Aggregation

Local Index

Local QueryProcessingSort Merge Join

, 0 5 , 7 1 , , 2 1 6

d amazon

,

8 0 , 123

, , 3 2

#phone d6

Hình 3.3: Kiến trúc hệ thống[19]

đánh chỉ mục (indexing) (khối được bao nét đứt), và phần xử lý trực tuyến (online)

đó là xếp hạng thực thể (khối bao nét liền Ranking Model)

Entity Extraction thực hiện việc rút trích các thực thể từ các trang tài liệu đượclấy về

Indexing tạo chỉ mục và chỉ mục ngược của các thực thể được trả về từ mô-dulrút trích trên

Ranking xếp hạng các thực thể, với hai bước chính: cục bộ (locally), và toàn cục

Trang 29

(globally) Như kiến trúc được đề cập ở phần trên do T.Cheng, X.Yan vàK.Chang [19] đưa ra, modul xếp hạng gồm có hai thành phần chính: xử lýtruy vấn cục bộ (local) và xử lý truy vấn toàn cục (global)

1 Xử lý cục bộ: Từ chỉ mục ngược của tất cả các thực thể thuộc kiểu Ei

và từ khóa kj, modul thực hiện phép nối trên tài liệu để tìm các tài liệuchứa các thực thể thuộc Ei, và các từ khóa kj thỏa mãn hàm α Trọng sốcục bộ (local score) được xác định dựa vào độ tin cậy của thực thể đượcrút trích và mối quan hệ ngữ cảnh giữa các thực thể đó với các từ khóatrong từng tài liệu

2 Xử lý toàn cục: Module thực hiện nhận truy vấn người dùng, gửi truyvấn cho modul xử lý cục bộ, sau đó đợi kết quả trả về từ modul xử lý cục

bộ Sau khi nhận được tất cả các trọng số cục bộ, modul tiến hành tổnghợp trọng số cho từng bộ thực thể t, kết hợp trọng số cục bộ với trọng

số xác định cho t trên toàn tập tài liệu để có giá trị Score cuối cùng choxếp hạng

Trong giới hạn của luận văn này, tôi tập trung phân tích thành phần xếp hạng.Vấn đề xếp hạng thực thể được phân tích ở phần tiếp sau và mô hình áp dụng vàobài toán xếp hạng thực thể thuốc được đề cập

3.2 Xếp hạng thực thể

Máy tìm kiếm thực thể trả về cho người dùng kết quả là danh sách các thực thể.Không chỉ tìm được thực thể mà vấn đề của máy tìm kiếm là những thực thể phùhợp nhất với truy vấn cần được đưa lên từ những kết quả đầu tiên trả về cho ngườidùng Do đó xếp hạng thực thể là vấn đề quan trọng, cốt lõi của máy tìm kiếm thựcthể

Giả thiết có tập tài liệu D = {d1, d2, , dn}, tập các kiểu thực thể E = {E1, , EN},truy vấn q = α(E1, , Em, k1, , kl) với kj là các từ khóa, và bộ các thực thể

t = (e1, , em) Khi đó độ phù hợp của t đối với truy vấn q trên tập tài liệu D được

Trang 30

xác định bởi:

Score(q(t)) = p(q(t)|D) =X

d∈D

p(d) × p(q(t)|d) (3.1)Với p(q(t)|d) là xác suất xảy ra quan hệ α của t trên tài liệu d

Giá trị của Score(q(t)) được dùng để xếp hạng các bộ kết quả trả về, do đó việcxác định hàm Score(q(t)) là vấn đề quan trọng chúng ta quan tâm

Những đặc điểm của tìm kiếm thực thể có ảnh hưởng tới giá trị xếp hạng Score()

đã được đưa ra trong [18]:

R-Contextual : Xác suất liên kết giữa thực thể và từ khóa phụ thuộc vào các ngữcảnh khác nhau và ảnh hưởng bởi hai yếu tố chính:

• Pattern: Từ khóa và thực thể có thể liên kết với nhau theo các mẫu, vídụ: tên thường xuất hiện liền trước số điện thoại

• Proximity: Từ khóa và thực thể có thể xuất hiện nhiều lần trong trangweb và không giống nhau, khi chúng càng gần nhau thì mối quan hệ càng

có ý nghĩa cao hơn

R-Holistic: Một thực thể có thể xuất hiện cùng với từ khóa nhiều lần trong mộttrang, do đó cần ước lượng tìm liên kết phù hợp nhất

R-Uncertainty: Việc rút trích thực thể không chính xác tuyệt đối, do đó cần cógiá trị độ tin cậy tương ứng cho mỗi thực thể

R-Associative: Cần phân biệt liên kết giữa từ khóa và thực thể là liên kết mang ýnghĩa thực hay chỉ là sự xuất hiện ngẫu nhiên giữa chúng Do đó cần có kiểmđịnh để loại bỏ những liên kết ngẫu nhiên

R-Discriminative: Các thực thể trên các trang phổ biến hơn sẽ được đánh giácao hơn so với trên trang ít phổ biến hơn

3.2.1 Mô hình Impression

Từ những phân tích về máy tìm kiếm thực thể, nhóm tác giả Tao Cheng[18] đãđưa ra mô hình xếp hạng "Impression Model" hình 3.4 Mô hình gồm 3 tầng: Truy

Trang 31

Global Access Layer

Local Recognition Layer

Global Access Layer Local Recognition Layer Validation Layer

Collection E over D Virtual Collection E’over D’

< amazon customer service, >: ??

đó tác giả Tao Cheng đã chọn PageRank (PR) [43] để xác định: p(d) = PR[d] Tacó:

Score(q(t)) =X

d∈D

PR[d] × p(q(t)|d) (3.2)

Trang 32

DICLOFENAC Tên gốc: Diclofenac

Tên thương mại: VOLTAREN, CATAFLAM, VOLTAREN-XR

Nhóm thuốc và cơ chế: Diclofenac là một thuốc chống viêm phi steroid

(NSAID) hiệu quả trong điều trị sốt, đau và viêm trong cơ thể Các NSAID là

những thuốc không gây ngủ giảm các chứng đau từ nhẹ đến vừa do nhiều

nguyên nhân gây ra, như chấn thương, thống kinh, viêm khớp và các chứng

bệnh cơ xương khác Vì mỗi bệnh nhân có đáp ứng khác nhau với NSAID,

Với mỗi tài liệu d được xét ở tầng truy nhập, trọng số cục bộ - xác suất xuất hiệncủa từng bộ thực thể t = (e1, , em) với các từ khóa k = {k1, , kl} trong tài liệu

đó được xác định bởi p(q(t)|d) Gọi γ = (o1, , og) là một quan sát (xuất hiện)của q(t) = α(e1, , em, k1, , kl) trên d (có g = m + l) Ví dụ: trong hình 3.5 với

E = {#drug}, k ="viêm", q = {"viêm"#drug} thì ta có một quan sát γ = (o1, o2).Trong mỗi tài liệu có thể có nhiều quan sát γ (tính chất R-Holistic) và do đó p(q(t)|d)cần được ước lượng trên tất cả các quan sát γ đó, [18] đưa ra công thức ước lượng:

p(α(γ)) = Y

e ∈γ

ei.conf × pcontext(α(γ) (3.4)

Trang 33

CHƯƠNG 3 XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 25Thay vào công thức 3.3 suy ra:

pcontext(α(γ)) = αB(γ) × αP(γ)

• αB là hàm lô-gic trả về giá trị 0 hoặc 1, cho biết quan sát γ với các oi có thỏamãn ràng buộc về mẫu không Ví dụ mẫu phrase(o1, , om) yêu cầu các oi

phải xuất hiện đúng thứ tự như xác định

• αP là xác suất quan sát γ phù hợp với t trong cửa sổ quan sát s Để đơn giản,trong [18] các tác giả đã sử dụng mô hình Span Proximity để ước lượng xácsuất này, và đưa ra công thức: αP(γ) = p(s|γ)

Thay vào công thức 3.5 ta được:

Giả thuyết không: giả thiết rằng liên kết giữa các thực thể, từ khóa trong t =(e1, , em, k1, , kl) xảy ra ngẫu nhiên Tập D0 được lấy ngẫu nhiên từ tập D, D0

Trang 34

cần "giống" với D ngoại trừ trong D0 liên kết của các từ khóa và các thực thể hoàntoàn là ngẫu nhiên Xây dựng tập D0 từ D bằng việc tạo các tài liệu d0 ngẫu nhiên:Đưa ngẫu nhiên các thực thể và từ khóa vào d0, mỗi thực thể, từ khóa được đưa vàođộc lập, với xác suất giống như xác suất xuất hiện của chúng trong D Do đó mốiliên hệ giữa thực thể và từ khóa là ngẫu nhiên, nhưng vẫn đảm bảo xác suất quansát một từ khóa, hay thực thể trong D0 cũng giống như trong D:

Trang 35

CHƯƠNG 3 XẾP HẠNG TRONG MÁY TÌM KIẾM THỰC THỂ 27Với |s| là số các giá trị s được xét.

Thay các công thức trên vào 3.8 được:

Sử dụng kiểm định giả thiết thống kê G-test so sánh quan sát p0 với ngẫu nhiên pr

để kiểm tra quan sát p0 có phải là ngẫu nhiên không:

1 Tính chất R-Contextual được thể hiện ở các trọng số αB và p(s|γ)

2 Xác định giá trị cực đại theo γ để chọn ra quan sát "phù hợp" nhất (R-Holistic)

Hai xếp hạng xếp hạng sai cặp đối tượng, thấyviệc xếp sai g,p lỗi lớn so với xếp sai b,g Đây điểm yếu phươngpháp Pairwise Do xét cặp đối tượng để so sánh nên phương pháp... đánh giá chất lượng xếp hạng ví dụ MAP, khơngphân biệt khác hai xếp hạng [40].

Do đó, thay chuyển toán xếp hạng toán hồi quy phân lớp, họcxếp hạng từ danh sách thứ hạng tác giả [62, 12,...

số xác định cho t tồn tập tài liệu để có giá trị Score cuối choxếp hạng

Trong giới hạn luận văn này, tơi tập trung phân tích thành phần xếp hạng. Vấn đề xếp hạng thực thể phân tích phần

Tiêu đề	Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu
Tác giả	Nguyễn Thu Trang
Người hướng dẫn	PGS.TS Hà Quang Thụy
Trường học	Đại Học Quốc Gia Hà Nội - Trường Đại Học Công Nghệ
Chuyên ngành	Công nghệ Thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2008
Thành phố	Hà Nội

Định dạng
Số trang	71
Dung lượng	1,63 MB