1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm và xếp hạng đối tượng trên web

62 27 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 1,44 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong nghiên cứu luận văn thạc sĩ của tôi, chúng tôi tập trung vào tìm kiếm các đối tượng trên web, một hướng mới quan trọng kể từ truy hồi tài liệu truyền thống.. Tuy nhiên, khác với câ

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

NGUYỄN VĂN TRÍ

TÌM KIẾM VÀ XẾP HẠNG ĐỐI TƯỢNG TRÊN WEB

Chuyên ngành : Khoa học máy tính

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 06 năm 2012

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM

Cán bộ hướng dẫn khoa học : PGS.TS Cao Hoàng Trụ

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 PGS.TS Phan Thị Tươi

2 PGS.TS Cao Hoàng Trụ

3 TS Hồ Bảo Quốc

4 TS Lê Thành Sách

5 TS Nguyễn Thanh Hiên

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Văn Trí MSHV: 00708213

Ngày, tháng, năm sinh: 10/02/1979 Nơi sinh: Bình Định

Chuyên ngành: Khoa học máy tính Mã số : 60.48.01

I TÊN ĐỀ TÀI: TÌM KIẾM VÀ XẾP HẠNG ĐỐI TƯỢNG TRÊN WEB

II NHIỆM VỤ VÀ NỘI DUNG: Luận án nhằm nghiên cứu đề xuất một mô hình tìm kiếm các đối tượng trên Web, với đầu vào là lớp của đối tượng muốn tìm và các từ khóa

diễn đạt các tính chất của đối tượng đó

III NGÀY GIAO NHIỆM VỤ : 04/07/2011

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 02/12/2011

V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): PGS.TS Cao Hoàng Trụ

Tp HCM, ngày 23 tháng 06 năm 2012 CÁN BỘ HƯỚNG DẪN (Họ tên và chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký) TRƯỞNG KHOA….………

(Họ tên và chữ ký)

Trang 4

Lời cảm ơn

Tôi xin chân thành cảm ơn sâu sắc đến Thầy PGS.TS Cao Hoàng Trụ Thầy đã tận tình hướng dẫn, định hướng tôi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học, cách thức trình bày vấn đề, đến những công việc cụ thể để hoàn thành luận văn này

Tôi xin chân thành cảm ơn các thầy cô khoa Công nghệ thông tin đã dạy dỗ và truyền đạt kiến thức lẫn kinh nghiệm cho tôi trong hơn hai năm học vừa qua

Con xin cảm ơn gia đình đã động viên, giúp đỡ con trong học tập và trong cuộc sống

Trang 5

Tóm tắt

Tài nguyên web đã phát triển thành một kho lưu trữ dữ liệu vô cùng phong phú, các động cơ tìm kiếm thông tin hiện tại với kiểu “page view” của mình ngày càng không đáp ứng sự đa dạng của tìm kiếm Trong khi chúng ta thường tìm kiếm các dữ liệu có dạng “entities” (ví dụ: số điện thoại, email, tên giáo sư, …), các động cơ tìm kiếm ngày nay trả về cho chúng ta danh sách các liên kết và chúng ta phải duyệt qua các trang này để tìm thông tin mong muốn Trong nghiên cứu luận văn thạc sĩ của tôi, chúng tôi tập trung vào tìm kiếm các đối tượng trên web, một hướng mới quan trọng kể

từ truy hồi tài liệu truyền thống Chúng tôi nghiên cứu các thành phần quan trọng để cấu thành hệ thống tìm kiếm các đối tượng trên web Đầu tiên, thành phần quan trọng nhất là hệ thống xếp hạng đối tượng Chúng tôi phát triển hệ thống dựa trên mô hình EntityRank, một hệ thống xếp hạng đối tượng dựa trên mô hình xác suất, nó tích hợp thông tin cục bộ và thông tin toàn cục để xếp hạng các đối tượng trên web Chúng tôi cũng đã xây dựng một hệ thống thử nghiệm tìm kiếm đối tượng giáo sư và cho thấy sự khả quan của cách tiếp cận này Chúng tôi cũng đã nghiên cứu các yêu cầu về tính toán trong tìm kiếm đối tượng Với quan điểm đầu vào là các đối tượng và đầu ra cũng là các đối tượng, chúng tôi nghiên cứu các cấu trúc chỉ mục để xử lý truy vấn hữu hiệu Ngoài ra, để rút trích đối tượng, chúng tôi cũng đã nghiên cứu vấn đề rút trích thực thể

có tên từ web Kết quả chúng tôi thu được cho thấy sự khả quan ban đầu về tìm kiếm đối tượng, với sự hữu dụng, hiệu quả, hữu hiệu và khả năng mở rộng của nó

Trang 6

Abstract

As the Web has evolved into a data-rich repository, with the standard “page view”, current search engines are becoming increasingly inadequate for a wide range of query tasks While we often search for various data “entities” (e.g., phone number, email, professor), today’s engines only take us indirectly to pages In my Master thesis study, we focus on a novel type of Web search that is aware of data entities inside pages, a significant departure from traditional document retrieval We study the various essential aspects of supporting entity-aware Web search To begin with, we tackle the core challenge of ranking entities, by rely on a probabilistic ranking framework, EntityRank, that is able to seamlessly integrate both local and global information in ranking We also report a prototype system built to show the initial promise of the proposal Then, we aim at distilling and abstracting the essential computation requirements of entity search From the dual views of reasoning–entity as input and entity as output, we review a dual-inversion framework, with two indexing and partition schemes, towards efficient and scalable query processing Further, to extract entity instances, we study the problem of named-entity extraction from the web The results we obtained so far have shown clear promise of entity-aware search, in its usefulness, effectiveness, efficiency and scalability

Trang 7

Mục lục

Lời cảm ơn i

Tóm tắt ii

Abstract iii

Mục lục iv

Danh mục hình v

Danh mục bảng vi

Chương 1: Giới thiệu đề tài 1

1.1 Phát biểu bài toán 1

1.2 Các công trình liên quan 3

Chương 2: Cơ sở lý thuyết 7

2.1 Sắp xếp kết quả tìm kiếm 7

2.2 Rút trích thực thể có tên 12

Chương 3: Mô hình EntityRank 21

3.1 Động cơ tìm kiếm đối tượng 21

3.2 Xếp hạng đối tượng 26

Chương 4: Hệ thống tìm kiếm giáo sư 34

4.1 Kiến trúc hệ thống 34

4.2 Hiện thực hệ thống 35

Chương 5: Kết quả thực nghiệm 39

5.1 Đánh giá kết quả 39

5.2 Nhận xét kết quả 43

Chương 6: Kết luận 45

6.1 Kết quả đạt được 45

6.2 Hướng phát triển 46

Trang 8

Danh mục hình

Hình 1-1: Kết quả tìm kiếm đối tượng 2

Hình 3-1: Đồ thị Web với khung nhìn thực thể 23

Hình 3-2: Mô hình tìm kiếm truyền thống và tìm kiếm đối tượng 23

Hình 3-3: Kiến trúc hệ thống EntityRank 24

Hình 3-4: Mô hình EntityRank 27

Hình 3-5: Nhận dạng đối tượng professor 28

Hình 4-1: Kiến trúc hệ thống tìm kiếm giáo sư 35

Hình 4-2: Đánh chỉ mục cho từ khóa 36

Hình 4-3: Đánh chỉ mục cho thực thể person 37

Hình 4-4: Giải thuật tìm kiếm đối tượng giáo sư 38

Trang 9

Danh mục bảng

Bảng 3-1: Kết quả tìm kiếm số điện thoại 22

Bảng 5-1: Kết quả đánh giá hệ thống tìm kiếm giáo sư 41

Bảng 5-2: Kết quả đánh giá MRR của hệ thống tìm kiếm giáo sư 43

Bảng 6-1: So sánh độ đo MRR của tìm kiếm số điện thoại 47

Bảng 6-2: So sánh độ đo MRR của tìm kiếm email 48

Trang 10

Chương 1: Giới thiệu đề tài

1.1 Phát biểu bài toán

Ngày nay, cách phổ biến để tìm kiếm thông tin là sử dụng các động cơ tìm kiếm như Google, Yahoo hay Bing Tuy nhiên kết quả trả về của các động cơ tìm kiếm thông tin này chỉ là một danh sách các URL của các trang web Người sử dụng phải duyệt qua các liên kết để tìm ra thông tin họ cần Rõ ràng đây không phải là cách tốt nhất để tìm thông tin từ Internet Sẽ là tốt hơn, nếu động cơ tìm kiếm trả về kết quả trực tiếp liên quan đến câu truy vấn của người sử dụng, thay vì liên kết đến những tài liệu

gõ vào “Artificial Intelligence Professor” Bước 2, từ kết quả trả về, anh ta cần duyệt

qua các trang web để tìm tên các giáo sư Anh ta cũng có thể duyệt qua trang chủ của khoa Khoa học máy tính của các trường với hi vọng sẽ có một trang liệt kê các giáo sư theo lĩnh vực nghiên cứu hoặc tìm qua từng trang chủ của các cán bộ giảng dạy Điều này có thể là một quá trình khó nhọc

Từ những nhu cầu thực tế như thế này, ta thấy động cơ tìm kiếm tài liệu chưa đủ tốt Chúng ta muốn một phương pháp tìm kiếm hiệu quả hơn Trong ví dụ trên,

Professor là đối tượng trong câu truy vấn “Artificial Intelligence Professor” Ta muốn

rằng, sau khi gõ từ khóa (“Artificial Intelligence”) và tên đối tượng (“Professor”) vào

động cơ tìm kiếm đối tượng, thì kết quả trả về là tên của các giáo sư, thay vì những liên

kết đến các tài liệu mà chúng chứa từ khóa “Artificial”, “Intelligence”, và “Professor”

Trang 11

Như ta thấy, câu truy vấn cho tìm kiếm đối tượng có hai phần: những từ khóa giống như tìm kiếm tài liệu, và những đối tượng Để phân biệt đối tượng và từ khóa, chúng tôi sử dụng ký hiệu # để chỉ đối tượng trong luận văn này Ví dụ câu truy vấn trên được

viết lại là (“Artificial Intelligence #Professor”)

Tìm kiếm đối tượng làm giảm khoảng cách ngữ nghĩa giữa cái người sử dụng muốn và cái được biểu diễn bằng những từ khóa trong câu truy vấn Ta có thể mô tả câu truy vấn dễ dàng hơn, chính xác hơn, và với việc trả về kết quả trực tiếp giúp ta tiết kiệm được thời gian

Tìm kiếm đối tượng

Gọi ES là một giải thuật tìm kiếm đối tượng Giống như mô hình tìm kiếm tài liệu, đầu vào của giải thuật gồm có một tập các tài liệu D và câu truy vấn Q Trong đó,

D = {d 1 , d 2 , , d n }, với d i là một tài liệu giống như trong tìm kiếm tài liệu Tuy nhiên, khác với câu truy vấn trong tìm kiếm tài liệu là một tập các từ khóa, câu truy

vấn Q bao gồm hai phần: đối tượng mà người sử dụng muốn tìm kiếm và từ khóa trong cùng tài liệu với đối tượng Trong ví dụ trên, thì từ khóa là “Artificial Intelligence” và đối tượng là “Professor” Những đối tượng này được định nghĩa trước cho động cơ tìm

kiếm và chúng thể hiện những câu hỏi thông thường mà ta muốn truy vấn trên Web

1 George A Miller 113.8899 cs.princeton.edu/~rit/geo/

2 John McCarthy 37.3925 www-formal.stanford.edu/jmc/

3 Marvin Minsky 33.0250 web.media.mit.edu/~minsky/

4 Tom Mitchell 28.1598 cs.cmu.edu/~tom/

Hình 1-1: Kết quả tìm kiếm đối tượng

Trang 12

Một cách hình thức, ta có Q = <E, K>, trong đó E là một tập các đối tượng và K

là một tập các từ khóa Kết quả trả về của ES là những thể hiện đối tượng thỏa tiêu chí

tìm kiếm và những liên kết đến những tài liệu có chứa chúng Cũng như tìm kiếm tài liệu, kết quả cũng được xếp thứ tự theo sự phù hợp của đối tượng và câu truy vấn Như

thế ta có đầu ra O = {<E1 , L 1>, <E2 , L 2>, , <En , L n>}, trong đó Ei là một thể hiện đối tượng và Li là tập liên kết đến các tài liệu có chứa Ei Hình 1-1 là một ví dụ kết quả

tìm kiếm đối tượng

1.2 Các công trình liên quan

Như một hệ thống truy hồi thông tin thông thường, hệ thống của chúng tôi cũng dựa trên kỹ thuật rút trích thông tin (Information Extraction - IE) để rút trích đối tượng (Named-Entity Extraction) Để phù hợp với ngữ cảnh được đề cập, trong luận văn này, chúng tôi sử dụng thuật ngữ đối tượng và thực thể để thay thế lẫn nhau Trong [18] chỉ

ra ba loại tài liệu mà chúng ta thường rút trích thông tin trên đó, đó là: tài liệu có cấu trúc, tài liệu bán cấu trúc, và tài liệu văn bản Dữ liệu Web được các tác giả xếp vào loại tài liệu bán cấu trúc [18] cũng trình bày rất nhiều hệ thống rút trích thông tin trên nhiều loại tài liệu Tuy nhiên, theo sự phân loại của các tác giả thì có bốn loại hệ thống rút trích thông tin cơ bản là hệ thống dựa trên luật được xây dựng thủ công, hệ thống học có giám sát, hệ thống học bán giám sát, và hệ thống học không giám sát Từ các nguyên lý này, mà các hệ thống rút trích đối tượng cũng có các kỹ thuật tương tự Trên

dữ liệu Web, chúng tôi nghiên cứu những hệ thống rút trích đối tượng tiên tiến gần đây, để từ đó lựa chọn phương pháp rút trích phù hợp cho từng loại bài toán Etzioni và các cộng sự đã xây dựng hệ thống KnowItAll [11], [12], [21] để rút trích các thực thể

có tên và quan hệ của chúng trên Web KnowItAll dựa trên kỹ thuật thông tin tương hỗ theo từng điểm (Pointwise Mutual Information) và truy hồi thông tin (PMI-IR) để đánh giá rằng một thực thể có tên có thể được phân vào một lớp nhất định Urbansky và các cộng sự cũng đã xây dựng hệ thống WebKnox [14], [15] để rút trích sự kiện (Fact

Trang 13

Extraction) và các thực thể có tên trên web WebKnox dựa trên ba kỹ thuật chính để rút trích thực thể: Phrase Extraction, Focused Crawl Extraction, và Seed Extraction Phrase Extraction dựa trên ý tưởng của KnowItAll, chẳng hạn như “CONCEPTs such as”, “CONCEPTs like”, hay “CONCEPTs including” Focused Crawl Extraction và Seed Extraction sử dụng khái niệm XPath để tìm ra các thực thể Wang và các giáo sư tại trường đại học Carnegie Mellon University đã xây dựng hệ thống Set Expander for Any Language (SEAL) [16] để thu thập các thực thể cùng loại với một tập nhỏ các thực thể đưa vào Ví dụ khi ta đưa vào {“Ford”, “Nissan”, “Toyota”}, thì hệ thống trả

về danh sách các nhà sản xuất xe hơi SEAL xây dựng đồ thị gồm có các nút là các đối tượng: thực thể mẫu (seeds), các trang web (web pages), các biên (wrappers), và các thực thể đã được rút trích (extracted entity), và các cạnh là liên hệ giữa chúng SEAL

sử dụng thuật toán bước trên đồ thị (Graph Walk) để xếp hạng danh sách các thực thể được rút trích Giống như Wang, Dalvi và các giáo sư của mình xây dựng hệ thống WebSets [17] cũng để rút trích các thực thể Tuy nhiên, WebSets có thể gôm cụm các thực thể trên Web thành một lớp mới mà ta chưa biết Tồng quát hơn, Demartini và các cộng sự [28] đề ra hai kiến trúc để rút trích thực thể là dựa trên các động cơ tìm kiếm hiện tại và tự xây dựng hệ thống đánh chỉ mục thực thể

Ngoài chức năng rút trích đối tượng, xếp hạng đối tượng là công việc chính của luận văn này Vercoustre và các cộng sự đã tập trung vào xếp hạng thực thể trên Wikipedia [5] Cách tiếp cận của họ là rút trích các thực thể từ các tài liệu XML trên Wikipedia và thiết lập các độ đo xếp hạng Vercoustre chỉ tập trung vào truy hồi thông tin từ Wikipedia và do đó độ đo xếp hạng cũng bị giới hạn vào lĩnh vực cụ thể này Không chỉ có Vercoustre và các cộng sự [5] mà xếp hạng đối tượng thu hút được sự quan tâm của nhiều nhà khoa học với các nghiên cứu xếp hạng đối tượng trên các trang web của Wikipedia [40], [41], [42], [43], [44] Đặc điểm dữ liệu Wikipedia là các trang web đều được xác định chủ đề/ thể loại (category) và trong mỗi trang có các khái niệm

Trang 14

(concept) được đánh dấu (tag) hay tạo liên kết tới các trang mô tả khái niệm đó Do vậy, với cấu trúc web giàu ngữ nghĩa đó, việc xếp hạng các đối tượng trên Wikipedia thường dựa trên các liên kết giữa các đối tượng (hay các khái niệm), liên kết giữa các trang web, độ tương đồng ngữ nghĩa giữa các khái niệm như được đề cập trong [41] Một ý tưởng khác là dựa trên sự tương đồng của cấu trúc tài liệu để tìm những thực thể khi có các trang mẫu [6] tìm kiếm đối tượng theo hướng ngữ nghĩa, từ một số tài liệu mẫu nó rút trích đối tượng mẫu và đi tìm những đối tượng tương tự trong những tài liệu

có cấu trúc tương tự Miền tìm kiếm còn hạn hẹp (tìm kiếm thông tin những vận động viên trong lĩnh vực bóng rổ, bóng đá, khúc côn cầu và gôn), và nó phụ thuộc vào cấu trúc tài liệu

Tìm quan hệ giữa các đối tượng là một cách tiếp cận khác, EntityEngine [33], [34] có thể trả lời những câu truy vấn như: tìm một danh sách các công ty và người sáng lập với điều kiện công ty ở thung lũng Silicon và người sáng lập tốt nghiệp trường Stanford Thông tin trên một trang không thể trả lời câu truy vấn trên, bởi vì giả sử có một trang cho biết Jerry Yang là người sáng lập Yahoo, trong khi Yahoo là một công ty

ở thung lũng Silicon và Jerry Yang tốt nghiệp trường Stanford được tìm thấy ở những trang khác Tuy nhiên họ mới chạy thử nghiệm trên Wikipedia và các bằng chứng (evidence) giữa các đối tượng chỉ xét trong một câu, điều này là một hạn chế trên Web

Trong [35], Li đã sử dụng năm đặc trưng để xếp hạng thực thể: kiểu thực thể, thời gian xuất hiện thực thể, số từ khóa của thực thể, chất lượng của trang chứa thực thể, và số lượng mỗi thực thể Li cũng dùng phương pháp Support Vector Machines (SVM) để học hàm xếp hạng dựa trên năm đặc trưng này Bởi vì mỗi đặc trưng có các trọng số khác nhau, nên phương pháp học xếp hạng chứng tỏ hiệu suất tốt hơn phương pháp xếp hạng thông thường

Trang 15

Một nghiên cứu khác được tiến hành bởi phòng thí nghiệm cơ sở dữ liệu và hệ thống thông tin của khoa Khoa học máy tính Đại học Illinois at Urbana-Champaign Chang và các cộng sự đã xây dựng một mô hình cho tìm kiếm và xếp hạng các đối

tượng [1], [2], [4], [7], [10], [20] Truy vấn có dạng q = α(E1 , …, E m , k 1 , …, k l ) là một

hàm của các kiểu thực thể và các từ khóa thể hiện yêu cầu của người dùng tìm kiếm

các loại thực thể E1, …, Em với ngữ cảnh các từ khóa k1, …, kl So với công trình của

Vercoustre, mô hình của Cheng có khả năng áp dụng rộng rãi hơn Mô hình của họ được chia làm ba tầng: tầng truy nhập, tầng nhận dạng, và tầng đánh giá Độ đo xếp hạng được tính dựa trên ba tầng này Độ đo xếp hạng trong tầng truy nhập là xác suất tài liệu được chọn Độ đo trong tầng nhận dạng là xác suất câu truy vấn đúng trong tài liệu đã chọn Còn độ đo trong tầng đánh giá là xác suất của truy vấn trên mô hình ảo (hợp lại toàn bộ các tài liệu) Chang cũng xây dựng cấu trúc câu truy vấn tựa SQL [8]

có tên là Content Query Language (CQL) để truy vấn đối tượng hiệu quả hơn Và dựa trên mô hình này cho phép mở rộng kiểu thực thể từ các kiểu có sẵn Ví dụ kiểu

professor được định nghĩa từ kiểu person

Dựa trên khả năng áp dụng rộng rãi của mô hình EntityRank [1], [2], [4], trong luận văn này chúng tôi nghiên cứu và ứng dụng nó cho bài toán tìm kiếm giáo sư

Trang 16

Chương 2: Cơ sở lý thuyết

2.1 Sắp xếp kết quả tìm kiếm

Trong nhiều ứng dụng ta cần xếp hạng các đối tượng (đối tượng nói chung, không chỉ là thực thể) theo một tiêu chí nào đó, ví dụ như việc xếp hạng học sinh trong một lớp theo điểm trung bình, hay xếp hạng các trường đại học, … và đặc biệt là việc xếp hạng các kết quả trả về của một động cơ tìm kiếm Xếp hạng đối tượng là việc sắp xếp các đối tượng theo độ phù hợp với tiêu chí tùy vào từng ứng dụng cụ thể Do đó cần xác định hàm tính giá trị về độ phù hợp để sắp xếp các đối tượng theo tiêu chí đã đặt ra, và hàm đó được gọi là hàm tính hạng (Ranking Function - RF) Mỗi khi nói tới xếp hạng đối tượng chúng ta quan tâm tới hàm tính hạng cho đối tượng

Một điển hình của bài toán xếp hạng là việc xếp hạng các kết quả trả về của động cơ tìm kiếm Trong các động cơ tìm kiếm thông thường (như Google, Yahoo, hay Bing) độ quan trọng hay còn gọi hạng trang là đại lượng cơ sở để xếp hạng Giá trị này được xác định dựa vào việc phân tích đồ thị liên kết giữa các trang web Với tập các tài

liệu D = {d1, …, dn}, khi có truy vấn q của người dùng, động cơ tìm kiếm cần tìm những tài liệu trong D phù hợp với truy vấn q, và sau đó sắp xếp các tài liệu theo độ

phù hợp với truy vấn và có độ quan trọng giảm dần Đó là quá trình xếp hạng và hàm

tính hạng là hàm kết hợp của giá trị độ tương tự giữa tài liệu với truy vấn similarity(q,

d i) và hạng trang để thành chỉ số xếp hạng được Arvind Arasu và các tác giả đề cập tới trong [36] Việc xác định hàm tính hạng đóng vai trò quan trọng và quyết định đối với chất lượng của một động cơ tìm kiếm

Từ những năm 98, Cohen [37] đã đưa ra nhận định rằng có nhiều ứng dụng cần sắp xếp các đối tượng hơn là cần phân lớp chúng Mọi ứng dụng mà kết quả trả về cho người dùng là một danh sách các đối tượng cần được sắp xếp, xếp hạng giúp người

Trang 17

dùng nhanh chóng tiếp cận với kết quả gần với yêu cầu của mình nhất có thể Thực tế chúng ta gặp rất nhiều các bảng xếp hạng như ví dụ ở trên Điều đó cho thấy, xếp hạng

là một bài toán quan trọng và có ý nghĩa

Tuy nhiên khái niệm xếp hạng (ranking) ra đời ban đầu với định hướng xếp hạng các đối tượng trên Web - cụ thể là các trang web Các trang web cần được sắp xếp theo độ quan trọng giảm dần Giá trị độ quan trọng đó được gọi là hạng trang và PageRank [38] là phương pháp tính hạng trang web đầu tiên, nó tính hạng trang cho các trang web dựa vào việc phân tích mối liên kết giữa các trang web trong đồ thị Web

Phương pháp PageRank

Page và các đồng tác giả [38] đã đưa ra ý tưởng: độ quan trọng của một trang chịu ảnh hưởng của độ quan trọng từ các trang liên kết đến nó Và công thức tính PageRank cho một trang 𝑢, gọi là 𝜋𝑢 được tính như sau:

𝜋𝑢 = 𝜋𝑖

𝑁𝑖

Với 𝐵𝐼(𝑢) là tập hợp các trang có liên kết đến trang 𝑢

Và 𝑁𝑖 là số trang liên kết ra từ trang i

Gọi A là một ma trận vuông với số hàng và số cột tương ứng là số trang web n Trong đó các phần tử aij được định nghĩa như sau:

𝑎𝑖𝑗 = 1 𝑁 , 𝑛ế𝑢 𝑐ó 𝑙𝑖ê𝑛 𝑘ế𝑡 𝑡ừ 𝑡𝑟𝑎𝑛𝑔 𝑖 đế𝑛 𝑡𝑟𝑎𝑛𝑔 𝑗𝑖

Biểu diễn đồ thị Web bởi ma trận chuyển vị P = A T, trong đó công thức 2.1 được viết lại dưới dạng ma trận:

Trang 18

𝜋 = 𝜋𝑃 (2.2) Trong đó: 𝜋 = (𝜋1, 𝜋2, … 𝜋𝑛) là véc tơ hạng các trang web, với thành phần 𝜋𝑖 là hạng

của trang i

Từ công thức 2.2 cho thấy véc tơ hạng trang 𝜋 chính là véc tơ riêng của ma trận

chuyển P tương ứng với giá trị riêng 𝜆 = 1

Do tính chất của chuỗi Markov, để tính véc tơ riêng của P thuật toán giả thiết rằng đồ thị các trang web là liên thông, tức là với cặp hai trang web i, j bất kì luôn có đường đi từ i tới j và ngược lại Tuy nhiên thực tế trên World Wide Web (WWW) vẫn

tồn tại không ít các trang web không có liên kết đến hoặc liên kết ra nên việc giả thiết

đồ thị Web liên thông là không hợp lý Và trong ma trận P vẫn tồn tại hàng chỉ toàn số

0, nên không tồn tại một phân phối xác suất dừng ổn định của P hay chính là véc tơ hạng trang Vì vậy cần phải biến đổi ma trận P thành P’ sao cho phù hợp

Định nghĩa véc tơ v, được chuẩn hóa 𝑣 = 1, xác định xác suất phân phối với

𝑣𝑖 là xác suất trang web i được gọi đến ở lần duyệt web đầu tiên Véc tơ v có vai trò

trong việc hướng kết quả PageRank theo chủ đề, lĩnh vực mong muốn Khi không xét đến ngữ cảnh đó có thể chọn 𝑣𝑖 = 1

Trang 19

Khi thay đổi ma trận P như vậy tức thêm các liên kết ảo từ các dangling nút tới tất cả các nút khác trong đồ thị Web theo phân phối xác suất v Điều đó giúp tránh việc

khi duyệt các trang không có liên kết ra sẽ không duyệt tiếp được

Để đảm bảo phân phối dừng ổn định (duy nhất), chuỗi Markov tương ứng với

quá trình duyệt Web của người dùng cần có tính chất ergodic, tức từ một trang web

người dùng có thể chuyển tới một trang bất kì khác Do vậy ma trận Markov 𝑃 được xác định như sau:

và chuyển tới các trang khác trong đồ thị Web với xác suất 1 − 𝛼 theo phân phối v

Khi đó, thay vì tính véc tơ riêng của ma trận P ta tính véc tơ riêng 𝜋 của ma trận

Vậy véc tơ hạng trang chính là véc tơ riêng của ma trận 𝑃

Các độ đo hiệu quả xếp hạng

Để đánh giá chất lượng một xếp hạng, các độ đo thông dụng trong máy học như

độ chính xác (precision), độ đầy đủ (recall), độ trung bình hài hòa F (harmonic mean)

Trang 20

được sử dụng [27] Xếp hạng yêu cầu các đối tượng “đúng” (phù hợp tiêu chí) cần đuợc xếp ở các vị trí đầu tiên của bảng xếp hạng càng tốt

Giả sử ta có 5 đối tượng tương ứng là: a, b, c, d, e

Trong đó a, b, c là các đối tượng phù hợp và d, e là các đối tượng không phù hợp Một xếp hạng của các đối tượng cần đánh giá là: c, a, d, b, e

Các độ đo về độ chính xác của xếp hạng thuờng được sử dụng:

Độ chính xác mức K: P@K

Độ chính xác xếp hạng ở mức K - Precision@K (P@K) là độ chính xác của K đối tượng đầu bảng xếp hạng Ta gọi Match@K là số đối tượng đúng ở K vị trí đầu tiên của bảng xếp hạng, thì khi đó độ chính xác mức K được định nghĩa như sau

cho một truy vấn được xác định như sau

𝑛 𝐾=1

Trang 21

Độ chính xác trung bình cho một tập các truy vấn là giá trị trung bình của các

AP trên các truy vấn Gọi m là số truy vấn thì độ chính xác trung bình cho m xếp hạng

được tính như sau

𝑚 𝑖=1

𝑚Với ví dụ trên ta có:

Xác định vị trí hạng của đối tượng đúng đầu tiên trong bảng xếp hạng là r, khi

đó thứ hạng nghịch đảo là RR = 1/r Với ví dụ trên, ta có RR = 1/1

Thứ hạng nghịch đảo trung bình là giá trị trung bình thứ hạng nghịch đảo RR

của tất cả các truy vấn/ hay xếp hạng đang xét

𝑚 𝑖=1

𝑚

2.2 Rút trích thực thể có tên

Thuật ngữ "thực thể có tên" được đặt ra tại Hội thảo hiểu thông điệp lần thứ sáu (Message Understanding Conferences - MUC-6) (R Grishman & Sundheim 1996) [39] Vào thời điểm đó, MUC tập trung vào nhiệm vụ rút trích thông tin có cấu trúc từ văn bản phi cấu trúc, chẳng hạn như các bài báo Trong việc xác định nhiệm vụ, người

ta nhận thấy cần thiết để nhận ra các đơn vị thông tin như tên, gồm có person,

organization và location, và các biểu thức số như time, date, money và percent expressions

Trang 22

Trong khi các hệ thống nhận dạng thực thể có tên lúc đầu sử dụng các thuật toán dựa trên luật được xây dựng thủ công, thì các hệ thống hiện đại dựa trên các kỹ thuật máy học

Trong [39] cho thấy nhận dạng thực thể có tên đã được nghiên cứu trên nhiều ngôn ngữ, nhiều thể loại văn bản (textual genre) thuộc nhiều lĩnh vực (domain), cũng như trên nhiều loại thực thể

Lúc đầu vấn đề nhận dạng thực thể có tên như là nhận ra "tên riêng" nói chung (ví dụ, S Coates-Stephens 1992, C Thielen 1995) Nhìn chung, có ba loại thực thể

được nghiên cứu là: tên của person, location và organization Những loại này được gọi

là "enamex" kể từ MUC-6 Loại location được làm mịn hơn thành những loại con như

city, state, country, … (M Fleischman 2001, S Lee & Geunbae Lee 2005) Tương tự

như vậy, loại person được chia thành: politician và entertainer xuất hiện trong công việc của M Fleischman và Hovy (2002) Loại person là khá phổ biến và được sử dụng

ít nhất một lần ban đầu bởi O Bodenreider và Zweigenbaum (2000) kết hợp nó với các gợi ý khác để rút trích các tên thuốc và bệnh tật (Ví dụ: "bệnh Parkinson") Trong

chương trình ACE (G Doddington et al 2004), loại facility xếp gộp thực thể của các loại location và organization Loại GPE được sử dụng để đại diện cho một vị trí trong

đó có một chính phủ, chẳng hạn như một thành phố hoặc một quốc gia

Loại miscellaneous được sử dụng trong hội nghị CONLL (E Tjong Kim Sang

2002, E Tjong Kim Sang & De Meulder 2003), bao gồm các tên riêng ngoài

"enamex" Lớp này đôi khi bổ sung thêm loại product (ví dụ, E Bick 2004) "Timex" (một thuật ngữ khác được đặt ra trong MUC) có các loại date và time và "numex" có các loại money và percent cũng khá chiếm ưu thế trong nghiên cứu Từ năm 2003, một

cộng đồng tên là TIMEX2 (L Ferro et al.2005) đề xuất một tiêu chuẩn cho các chú thích và chuẩn hóa biểu thức thời gian (temporal expressions) Cuối cùng, các loại biên

đôi khi xử lý cho các nhu cầu cụ thể như film và scientist (O Etzioni et al 2005), email

Trang 23

address và phone number (I Witten et al 1999, D Maynard et al 2001), research area

và project name (J Zhu et al 2005), book title (S Brin năm 1998, I Witten et al 1999),

job title (W Cohen & Sarawagi năm 2004) và brand (E Bick 2004)

Một quan tâm gần đây trong tin sinh học, với sự có sẵn của kho ngữ liệu GENIA (T Ohta et al 2002) đã dẫn đến nhiều nghiên cứu dành riêng cho các loại như

protein, DNA, RNA, cell line và cell type (ví dụ, D Shen et al 2003, B Settles 2004)

cũng như những nghiên cứu chỉ nhận dạng protein (Y Tsuruoka & Tsujii 2003) Công trình liên quan bao gồm tên drug (T Rindfleisch et al 2000) và tên chemical (M

Narayanaswamy et al 2003)

Một số công việc gần đây không giới hạn các loại có thể rút trích và được gọi là nhận dạng thực thể "miền mở" (open domain) (E Alfonseca & Manandhar 2002, R Evans 2003) Trong nghiên cứu loại này, S Sekine và Nobata (2004) định nghĩa một

hệ thống phân cấp thực thể có tên bao gồm nhiều loại con, chẳng hạn như museum,

river, airport, và mở rộng các loại, chẳng hạn như product và event, cũng như substance, animal, religion hoặc color Nó cố gắng bao phủ những loại tên thường xuất

hiện và tham chiếu đến (rigid designators) xuất hiện trong một tờ báo Số lượng các loại khoảng 200, và họ đang xác định các thuộc tính phổ biến cho mỗi thể loại để làm cho nó thành một bản thể học (ontology)

Khả năng nhận dạng thực thể dựa trên những luật nhận dạng và phân lớp bằng cách kết hợp các đặc trưng với sự phù hợp và không phù hợp của các mẩu Các nghiên cứu trước đây chủ yếu dựa trên luật được xây dựng thủ công, gần đây người ta sử dụng phương pháp học có giám sát (Supervised Machine Learning - SL) để tự động tạo ra các luật từ tập các mẩu huấn luyện Điều này được thấy rõ trong cộng đồng nghiên cứu, bởi thực tế trong MUC-7 có tới năm trong tám hệ thống dựa trên luật, trong khi có tới mười sáu hệ thống đã được trình bày tại CONLL-2003, một diễn đàn dành cho kỹ thuật

Trang 24

chỉ ra trong S Sekine và Nobata (2004), những người phát triển hệ thống NER cho 200 loại thực thể

Ý tưởng của học có giám sát là nghiên cứu các đặc trưng của những mẫu phù hợp và không phù hợp của NE trong một tập lớn các tài liệu được chú thích và các luật được thiết kế để rút trích các thể hiện của loại thực thể đã cho Điểm yếu của SL là yêu cầu một kho ngữ liệu được chú thích lớn Điều này dẫn đến hai phương pháp máy học thay thế: học bán giám sát (Semi-Supervised Learning - SSL) và học không có giám sát (Unsupervised Learning - UL) Những kỹ thuật này được trình bày trong các mục sau

Học có giám sát

Học có giám sát để nhận dạng thực thể là kỹ thuật chiếm ưu thế hiện nay Kỹ thuật SL bao gồm mô hình Markov ẩn (Hidden Markov Models - HMM) (D Bikel et al 1997), Cây quyết định (Decision Trees - S Sekine 1998), Mô hình cực đại hóa Entropy (Maximum Entropy Models - ME) (A Borthwick 1998), Support Vector Machines (SVM) (M Asahara & Matsumoto 2003), và Conditional Random Fields (CRF) (A McCallum & Li 2003) Đây là tất cả các biến thể của cách tiếp cận SL chúng thường bao gồm một hệ thống đọc một kho ngữ liệu lớn được chú thích, nhớ danh sách các thực thể, và tạo ra những luật khử nhập nhằng dựa vào các đặc trưng phân biệt

Một phương pháp SL cơ bản thường được đề xuất bao gồm các từ được gán nhãn của một kho ngữ liệu kiểm tra khi chúng được chú thích là các thực thể trong kho ngữ liệu huấn luyện Hiệu suất của hệ thống cơ bản phụ thuộc vào tỉ lệ “vocabulary transfer”, đó là phần trăm của từ, không lặp lại, xuất hiện trong cả kho ngữ liệu huấn luyện và kho ngữ liệu kiểm tra D Palmer và Day (1997) tính tỉ lệ “vocabulary transfer” trên dữ liệu huấn luyện của MUC-6 Theo họ tỉ lệ “vocabulary transfer” là

21%, với 42% tên của location được lặp lại nhưng chỉ có 17% tên organization và 13%

Trang 25

tên person được lặp lại Tỉ lệ “vocabulary transfer” là một chỉ số tốt của độ đo khả

năng tìm hết (recall – số lượng thực thể được xác định trên tổng số của các thực thể) của hệ thống cơ bản nhưng là một độ đo không khả quan vì một số các thực thể thường xuyên lặp lại trong tài liệu A Mikheev et al (1999) tính toán một cách chính xác độ

đo recall của hệ thống cơ bản trên kho ngữ liệu MUC-7 Theo họ độ đo recall là 76%

cho các location, 49% cho các organization và 26% đối với person với độ chính xác từ

70% đến 90% Whitelaw và Patrick (2003) báo cáo kết quả phù hợp cho lớp enamex trên MUC-7 Tổng hợp ba loại enamex với nhau, độ chính xác của nhận dạng là 76%

và độ đo recall là 48%

Học bán giám sát

Thuật ngữ "bán giám sát" (hay là "giám sát yếu") là tương đối gần đây Kỹ thuật chính của SSL được gọi là "bootstrapping" và liên quan đến một mức độ nhỏ của giám sát, chẳng hạn như một tập hợp các hạt giống, để bắt đầu quá trình học tập Ví dụ, một

hệ thống nhằm mục đích "tên bệnh" có thể yêu cầu người dùng cung cấp một số lượng nhỏ tên ví dụ Sau đó, hệ thống tìm kiếm các câu có chứa các tên này và cố gắng xác định một số đầu mối ngữ cảnh chung trong các ví dụ Sau đó, hệ thống cố gắng tìm những thể hiện khác của tên bệnh xuất hiện trong ngữ cảnh tương tự Quá trình học tập lại được áp dụng cho các ví dụ mới được tìm thấy, để phát hiện thêm những ngữ cảnh phù hợp mới Bằng cách lặp lại quá trình này, một số lượng lớn các tên bệnh và một số lượng lớn các ngữ cảnh sẽ được thu thập Các thí nghiệm gần đây trong học bán giám sát để nhận dạng thực thể (Nadeau et al 2006) cho thấy hiệu suất có thể cạnh tranh với phương pháp tiếp cận học có giám sát cơ sở Sau đây là một số ví dụ về phương pháp tiếp cận SSL

S Brin (1998) sử dụng các đặc trưng từ vựng hiện thực bởi các biểu thức chính quy (regular expressions) để tạo ra danh sách các tiêu đề sách kết hợp với các tác giả

Trang 26

sử dụng một số quy tắc kiểm soát từ vựng cố định như biểu thức chính quy sau

của Brin là rất nhiều các trang web phù hợp một cách hợp lý thống nhất định dạng trên trang web Khi một trang web được tìm thấy có chứa các ví dụ hạt giống, cặp mới thường có thể được xác định bằng cách sử dụng những ràng buộc đơn giản như sự hiện diện của giống hệt văn bản trước, giữa hoặc sau các phần tử của cặp đang quan tâm Ví

dụ, thông điệp "The Robots of Dawn, by Isaac Asimov (Paperback)" sẽ cho phép việc tìm kiếm trên cùng một trang web, "The Ants, by Bernard Werber (Paperback)"

M Collins và Singer (1999) phân tích toàn bộ kho ngữ liệu để tìm các ứng cử viên cho mẫu NE (candidate NE patterns) Một mẩu chẳng hạn là một tên riêng (được xác định bởi việc gán nhãn từ loại) theo sau là một cụm danh từ trong sự ghép lại (ví

dụ, Maury Cooper, a vice president at S&P) Mẩu được lưu giữ thành cặp {spelling,

context} trong đó spelling là tên riêng và context là cụm danh từ trong ngữ cảnh của

nó Bắt đầu với những luật spelling hạt giống khởi đầu (ví dụ như, rule 1: if the

spelling is “New York” then it is a Location; rule 2: if the spelling contains “Mr.” then it is a Person; rule 3: if the spelling is all capitalized then it is an organization), các ứng cử viên được xem xét Các ứng cử viên thỏa luật spelling được

phân loại cho phù hợp và ngữ cảnh của chúng được tích lũy Những ngữ cảnh thường xuyên nhất tìm thấy được được đưa vào tập các luật ngữ cảnh (contextual rules) Theo các bước trên, luật ngữ cảnh có thể được sử dụng để tìm các luật spelling mới, và cứ như vậy M Collins, Singer và R Yangarber et al (2002), đưa ra ý tưởng rằng việc học nhiều loại NE đồng thời cho phép phát hiện các bằng chứng không phù hợp (một loại chống lại tất cả) và làm giảm hơn thế hệ S Cucerzan và Yarowsky (1999) cũng sử dụng một kỹ thuật tương tự và áp dụng nó cho nhiều ngôn ngữ

E Riloff và Jones (1999) giới thiệu bootstrapping tương hỗ (mutual bootstrapping) bao gồm một tập các thực thể và một tập các ngữ cảnh tăng dần Thay

Trang 27

vì làm việc với các ứng cử viên NE được định nghĩa trước (tìm thấy bằng cách sử dụng một cấu trúc cú pháp cố định), họ bắt đầu với một số ít các hạt giống ví dụ thực thể của

một loại nhất định (ví dụ, Bolivia, Guatemala, Honduras là các thực thể của loại quốc

gia) và tích lũy tất cả các mẫu được tìm thấy xung quanh các hạt giống này trong một

kho ngữ liệu lớn Ngữ cảnh (Ví dụ, offices in X, facilities in X, …) được xếp hạng và

được sử dụng để tìm các ví dụ mới Riloff và Jones lưu ý rằng hiệu suất của giải thuật

có thể giảm đi nhanh chóng khi nhiễu có trong danh sách thực thể hoặc danh sách mẫu Mặc dù độ chính xác và độ recall trong thí nghiệm của họ tương đối thấp, công việc của họ được chứng minh là có ảnh hưởng lớn

A Cucchiarelli và Velardi (2001) sử dụng các mối quan hệ cú pháp (ví dụ, chủ

đề đối tượng - subject-object) để khám phá ra dấu hiệu ngữ cảnh xung quanh các thực thể chính xác hơn Một lần nữa, đây là một biến thể của bootstrapping tương hỗ của E Riloff và Jones (1999) Điều thú vị là, thay vì sử dụng con người để tạo ra hạt giống,

họ dựa vào hệ thống NER hiện tại (được gọi là early NE classifier) cho khởi đầu các ví

dụ NE

Pasca M et al (2006) cũng sử dụng kỹ thuật lấy cảm hứng bởi bootstrapping tương hỗ Tuy nhiên, đổi mới thông qua việc sử dụng sự tương tự phân bố (distributional similarity) của D Lin (1998) tạo ra từ đồng nghĩa - hoặc, nói chung,

những từ của cùng một lớp ngữ nghĩa - cho phép tổng quát hóa mẩu Ví dụ, mẩu X

was born in November, từ đồng nghĩa của Lin cho November là {March, October, April, Mar, Aug., February, Jul, Nov., .} do đó cho phép suy ra mẩu mới như X was born in March Một trong những đóng góp của Pasca et al là áp dụng kỹ thuật cho kho

ngữ liệu rất lớn (100 triệu tài liệu web) và chỉ ra rằng chỉ bắt đầu từ một hạt giống của

10 ví dụ sự kiện (được định nghĩa là các thực thể của loại person kết hợp với các thực thể của loại year – để tạo ra năm sinh của người) có thể tạo ra một triệu sự kiện với độ

Trang 28

Vấn đề lựa chọn của dữ liệu chưa gán nhãn (unlabelled data) được chỉ ra bởi J Heng và Grishman (2006) Họ cho thấy một phân loại NE (NE classifier) hiện tại có thể được cải thiện như thế nào bằng cách sử dụng các phương pháp bootstrapping Bài học chính họ đưa ra là dựa vào bộ sưu tập lớn các tài liệu là không đủ Lựa chọn các tài liệu bằng cách sử dụng truy hồi thông tin như các độ đo phù hợp và lựa chọn các ngữ cảnh cụ thể mà có nhiều tên riêng và đồng tham chiếu (coreferences) mang lại kết quả tốt nhất trong các thí nghiệm của họ

Học không có giám sát

Cách tiếp cận điển hình trong việc học không có giám sát là gôm cụm (clustering) Ví dụ, người ta có thể cố gắng tập hợp các thực thể có tên từ các nhóm được gôm cụm dựa trên sự giống nhau của ngữ cảnh Cũng có phương pháp học không

có giám sát khác Về cơ bản, các kỹ thuật dựa vào các nguồn tài nguyên từ vựng (ví dụ, WordNet), trên các mẫu từ vựng và trên các tính toán thống kê trên một kho ngữ liệu lớn chưa chú thích Dưới đây là một số ví dụ

E Alfonseca và Manandhar (2002) nghiên cứu vấn đề gán nhãn cho một từ với một loại NE thích hợp Các loại NE được lấy từ WordNet (ví dụ, location>country, animate>person, animate>animal, ) Cách tiếp cận này là gán một chủ đề để cho mỗi WordNet synset (tập những từ đồng nghĩa) bằng cách liệt kê các từ thường xuyên xuất hiện với nó trong một kho ngữ liệu lớn Sau đó, đưa vào một từ trong một tài liệu nhất định, ngữ cảnh từ (những từ xuất hiện trong một cửa sổ kích thước cố định xung quanh

từ đưa vào) được so sánh với chữ ký loại và phân loại theo loại tương đồng nhất

Trong R Evans (2003), phương pháp xác định hyponyms / hypernyms được mô

tả trong công việc của M Hearst (1992) được áp dụng để xác định hypernyms tiềm năng của chuỗi các từ hoa xuất hiện trong một tài liệu Ví dụ, khi X là một chuỗi hoa, truy vấn "such as X" được tìm kiếm trên web và trong các tài liệu lấy về, danh từ đứng

Trang 29

ngay trước truy vấn có thể được chọn làm hypernym của X Tương tự như vậy, ở P Cimiano và Völker (2005), mẫu Hearst được sử dụng nhưng lần này, đặc trưng chứa số lần xuất hiện của những đoạn như: "city such as", " organization such as "…

Y Shinyama và Sekine (2004) đã quan sát rằng các thực thể có tên thường xuất hiện đồng bộ trong nhiều bài báo tin tức, trong khi các danh từ chung thì không Họ tìm thấy một mối tương quan mạnh mẽ giữa một thực thể có tên và sự xuất hiện kịp thời (trong thời gian) và đồng thời ở nhiều nguồn tin tức Kỹ thuật này cho phép xác định các thực thể có tên hiếm trong cách không có giám sát và có thể hữu ích trong việc kết hợp với các phương pháp NER khác

Trong O Etzioni et al (2005), thông tin tương hỗ theo từng điểm (Pointwise Mutual Information) và truy hồi thông tin (PMI-IR) được sử dụng như là một đặc trưng

để đánh giá rằng một thực thể có tên có thể được phân loại thuộc một loại nhất định PMI-IR, được phát triển bởi P Turney (2001) [13], dùng để đo độ phụ thuộc giữa hai biểu thức bằng cách sử dụng các truy vấn web PMI-IR cao có nghĩa là các biểu thức

có xu hướng cùng xuất hiện O Etzioni et al tạo ra các đặt trưng cho mỗi ứng cử viên thực thể (ví dụ, London) và một số lượng lớn các cụm từ phân biệt (discriminator phrases) được tự động tạo ra như là “is a city”, “nation of”, …

Trang 30

Chương 3: Mô hình EntityRank

Với sự phát triển của các kỹ thuật rút trích thông tin mà cụ thể là rút trích các đối tượng, hướng phát triển động cơ tìm kiếm đối tượng đã được Kevin Chang và các cộng sự [1], [2], [4], [7], [8], [10], [20] nghiên cứu và xây dựng Truy vấn của người dùng trên động cơ tìm kiếm đối tượng không đơn thuần là các từ khóa mà người dùng xác định rõ hơn về loại đối tượng dữ liệu đang muốn tìm và ngữ cảnh tìm kiếm Kết quả trả về cho người dùng thay vì chỉ là các địa chỉ web, người dùng còn nhận được các thông tin cụ thể về đối tượng mình mong muốn tìm kiếm Cũng như với động cơ tìm kiếm thông thường, xếp hạng là vấn đề quan trọng, xếp hạng đối tượng là cốt lõi và quan trọng của động cơ tìm kiếm đối tượng

Qua phân tích các nghiên cứu [40], [41], [43], [5], [1], [2], [4] với định hướng xây dựng hệ thống tìm kiếm đối tượng trên web nói chung, việc xếp hạng trong tìm kiếm đối tượng của nhóm T Cheng, X Yan, và K Chang được quan tâm và phân tích

3.1 Động cơ tìm kiếm đối tượng

Người dùng thường tìm kiếm thông tin về đối tượng nào đó, ví dụ như khi sử

dụng truy vấn “Artificial Intelligence Professor”, người dùng muốn tìm các đối tượng

Professor, người nghiên cứu về trí tuệ nhân tạo Và các động cơ tìm kiếm hiện nay

(như Google, Yahoo, Bing) bằng cách so sánh văn bản (text) trên từng trang web với truy vấn và trả về cho người dùng địa chỉ các trang web mà chúng có chứa các từ khóa trong truy vấn Do vậy người dùng không trực tiếp nhận được thông tin mong muốn

mà phải duyệt qua nội dung các trang web trả về đó và không chắc chắn có được thông tin mong muốn ở những kết quả đầu tiên Đó là nhược điểm của các động cơ tìm kiếm này, chúng không hiểu mục đích tìm kiếm của người dùng, và tìm kiếm trên các trang web độc lập chỉ dựa vào các từ khóa

Trang 31

Theo [1] động cơ tìm kiếm đối tượng hướng người dùng tốt hơn, cho phép chỉ ra trong truy vấn đối tượng mà người dùng muốn tìm Và kết quả trả về của động cơ tìm kiếm là các thực thể của đối tượng cần tìm, mỗi thực thể được xác định không chỉ xét trên một trang độc lập mà có thể được tổng hợp qua nhiều trang web Ví dụ động cơ tìm kiếm đối tượng của dự án WISDM1 của nhóm T Cheng, X Yan, và K Chang Với

truy vấn thông thường q = “amazon customer service phone” tức người dùng đang cần

tìm số điện thoại của dịch vụ hỗ trợ khách hàng của Amazon.com Khi đó truy vấn của

người dùng tương ứng trong động cơ tìm kiếm đối tượng WISDM là q = “amazon

customer service #phone”, chỉ rõ đối tượng muốn tìm “phone” và ngữ cảnh xuất hiện

của đối tượng “amazon customer service” Kết quả trả về của động cơ tìm kiếm là các

số điện thoại, và với mỗi số điện thoại có danh sách các địa chỉ web tương ứng chứa thông tin điện thoại đó như bảng 3.1

Bảng 3-1: Kết quả tìm kiếm số điện thoại Rank Phone number Score Urls

thường mà còn là tập các đối tượng hay các kiểu thực thể E = {E1 , E 2, …, En} như ở

Ngày đăng: 29/01/2021, 14:54

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w