MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Thị Kim Dung

MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2010

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy

Cán bộ đồng hướng dẫn: ThS Nguyễn Cẩm Tú

HÀ NỘI - 2010

Trang 3

Lời cảm ơn

Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn Cẩm Tú, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp

Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu tại trường Đại học Công nghệ

Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm

“Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận

Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp Tôi xin chân thành cảm ơn!

Sinh viên

Trang 4

Đầu tiên, khóa luận khảo sát các thuật toán tính hạng ảnh, đặc biệt là VisualRank [39] theo độ đo tương đồng giữa các ảnh được tính theo các đặc trưng nội dung văn bản và nội dung hiển thị Sau đó, khóa luận đề xuất một mô hình hệ thống tìm kiếm ảnh lớp trên (image meta-search engine [18] [11]), trong đó sử dụng thuật toán nói trên làm thành phần xếp hạng ảnh Hệ thống tìm kiếm ảnh này sử dụng một cơ sở dữ liệu lưu trữ các câu truy vấn và các ảnh tương ứng với chúng như một giải pháp nhằm rút ngắn thời gian đáp ứng yêu cầu truy vấn Đồng thời, hệ thống sử dụng một bộ từ điển dùng trong việc hỗ trợ các truy vấn dạng tiếng Việt

Thực nghiệm do khóa luận tiến hành bước đầu đã thu được những kết quả tương đối khả quan, độ chính xác của hệ thống khi áp dụng thuật toán với đặc trưng văn bản

và đặc trưng hiển thị đạt 81.2% Trong phạm vi các thử nghiệm của khóa luận, kết quả này là tốt hơn so với hai máy tìm kiếm ảnh lớn là Google và Yahoo và đã khẳng định được tính khả thi của mô hình

Trang 5

Mục lục

Mở đầu 1

Chương 1 Khái quát về các thuật toán tính hạng 3

1.1. Giới thiệu về bài toán tính hạng 3

1.2. Tính hạng trang Web 4

1.2.1. Tính hạng theo liên kết 4

1.2.2. Tính hạng định hướng ngữ cảnh 15

1.3. Tính hạng thực thể 17

1.4. Sơ bộ về tính hạng ảnh 18

1.5. Một số công trình nghiên cứu liên quan 20

Tóm tắt chương một 22

Chương 2 Một số thuật toán tính hạng ảnh phổ biến 23

2.1. Giới thiệu 23

2.2. VisualRank 23

2.3. Multiclass VisualRank 26

2.4. Visual contextRank 28

2.5. Nhận xét 32

Tóm tắt chương hai 32

Chương 3 Mô hình máy tìm kiếm ảnh lớp trên 34

3.1. Kiến trúc chung của máy tìm kiếm lớp trên 34

3.1.1. Giao diện người dùng 35

3.1.2. Bộ điều vận 35

3.1.3. Bộ xử lý kết quả 36

3.1.4. Mô đun tính hạng 36

3.2. Mô hình máy tìm kiếm ảnh lớp trên MetaSEEk 37

3.2.1. Truy vấn trực quan dựa trên nội dung 38

3.2.2. Giao diện truy vấn 38

3.2.3. Bộ điều vận 40

3.2.4. Thành phần hiển thị 42

3.2.5. Đánh giá 43

3.3. Xếp hạng ảnh trong máy tìm kiếm ảnh lớp trên 43

Tóm tắt chương ba 45

Trang 6

Chương 4 Thử nghiệm 46

4.1. Mô hình thử nghiệm 46

4.1.1. Cách tiếp cận 46

4.1.2. Mô hình đề xuất và các thành phần trong mô hình 47

4.2. Môi trường và các thành phần trong hệ thống phần mềm 50

4.2.1. Cấu hình phần cứng 50

4.2.2. Các thành phần trong hệ thống phần mềm 50

4.3. Xây dựng tập dữ liệu 52

4.3.1. Tập truy vấn 52

4.3.2. Tập máy tìm kiếm nguồn 53

4.3.3. Từ điển 53

4.4. Quy trình, các phương án thử nghiệm 53

4.5. Kết quả thử nghiệm và đánh giá 54

Kết luận 60

Tài liệu tham khảo 62

Trang 7

Danh sách các bảng

Bảng 1 Ví dụ về bản ghi của một ảnh trong cơ sở dữ liệu 42

Bảng 2 Cấu hình phần cứng sử dụng trong thực nghiệm 50

Bảng 3 Một số phần mềm sử dụng 50

Bảng 4 Một số thư viện sử dụng 50

Bảng 5 Độ chính xác trung bình trên 35 truy vấn 56

Trang 8

Danh sách hình vẽ

Hình 1 Mô tả tính chất authority và hub 13

Hình 2 Mở rộng tập cơ sở T từ tập nhân S 14

Hình 3 Một mô hình học xếp hạng trong máy tìm kiếm thực thể 18

Hình 4 Một minh họa về đồ thị độ tương đồng của ảnh 24

Hình 5 Biến đổi ma trận kề 27

Hình 6 Kết quả xếp hạng của 3 phương pháp với truy vấn “Notre Dame” 28

Hình 7 Mô hình xếp hạng ảnh sử dụng thuật toán ContextRank 29

Hình 8 Một ví dụ về biểu diễn visual words 32

Hình 9 Kiến trúc của một máy tìm kiếm lớp trên điển hình 34

Hình 10 Một thiết kế của bộ điều vận 35

Hình 11 Kiến trúc tổng thể của MetaSEEk 37

Hình 12 Giao diện hiển thị của MetaSEEk 39

Hình 13 Cấu trúc phân cấp của cơ sở dữ liệu 42

Hình 14 Mô hình đề xuất 48

Hình 15 Giao diện của chương trình 52

Hình 16 Biểu đồ so sánh độ chính xác trung bình giữa các hệ thống 57

Hình 17 Biểu đồ độ chính xác mức K của một số truy vấn tiếng Việt 58

Hình 18 10 kết quả đầu tiên của truy vấn “sun” trong các máy tìm kiếm 59

Trang 9

SIFT Scale Invariant Feature Transform

Trang 10

Danh sách các thuật ngữ

STT Thuật ngữ tiếng Anh Nghĩa tiếng Việt

1 Content-based Image Ranking Xếp hạng ảnh dựa trên nội dung hiển thị

2 Content-based visual query Truy vấn trực quan dựa trên nội dung

hiển thị

3 Display interface Thành phần hiển thị

6 Inter-image Context Modeling Mô hình ngữ cảnh ngoại ảnh

7 Intra-mage Context Modeling Mô hình ngữ cảnh nội ảnh

8 Local features Các thuộc tính cục bộ

11 Performance database Cơ sở dữ liệu hiệu suất

12 Performance score Điểm số hiệu suất

13 Query dispatcher Bộ điều vận truy vấn

14 Query translator Bộ dịch truy vấn

15 Random surfer model Mô hình duyệt ngẫu nhiên

18 Text-based Image Ranking Xếp hạng ảnh dựa trên văn bản

21 Topic Sensitive PageRank PageRank theo chủ đề

22 Visual hyperlink Siêu liên kết trực quan

23 Visual vocabulary Tập từ vựng trực quan

Trang 11

Mở đầu

Tính hạng các đối tượng trên Web (trang Web, thực thể nói chung và tính hạng ảnh nói riêng) là bài toán có ý nghĩa quan trọng trong lĩnh vực tìm kiếm Sự hình thành và phát triển không ngừng của máy tìm kiếm gần hai thập kỷ qua đã kéo theo một số lượng không nhỏ các công trình nghiên cứu về tính hạng trang Web được công bố, trong đó thuật toán PageRank đã trở thành một trong mười thuật toán khai phá dữ liệu điển hình nhất Thời gian gần đây, các công bố công trình nghiên cứu về tính hạng thực thể cũng như tính hạng ảnh có xu thế tăng nhanh

Thuật toán tính hạng ảnh thường được phát triển trên cơ sở các thuật toán tính hạng trang Web, bao gồm cả các giải pháp hướng ngữ cảnh, hướng người dùng hoặc chỉ dựa trên đồ thị liên kết Chúng tôi cũng đã tiến hành một số nghiên cứu liên quan trong công trình nghiên cứu khoa học sinh viên

Khóa luận tốt nghiệp với đề tài Một số thuật toán phân hạng ảnh phổ biến và áp dụng trong hệ thống tìm kiếm ảnh lớp trên thử nghiệm nhằm khảo sát, phân tích các giải

pháp phân hạng ảnh, đồng thời trình bày một mô hình máy tìm kiếm ảnh lớp trên và thi hành giải pháp phân hạng ảnh trong máy tìm kiếm ảnh lớp trên thử nghiệm

Khóa luận gồm những nội dung chính cơ bản như sau:

Chương 1: Khái quát về các thuật toán tính hạng trình bày một số thuật toán tính

hạng trang điển hình đã và đang được sử dụng rộng rãi trong các máy tìm kiếm Cùng với

đó, chương này cũng nêu lên một số nét cơ bản về bài toán xếp hạng thực thể và xếp hạng ảnh Đồng thời, chương 1 cũng đề cập đến một số công trình nghiên cứu liên quan ở trong nước và trên thế giới

Chương 2: Giới thiệu một số thuật toán tính hạng ảnh phổ biến tập trung trình

bày một số thuật toán tính hạng ảnh dựa trên nội dung hiển thị của ảnh Mỗi thuật toán đều được phân tích, đánh giá, đưa ra các ưu nhược điểm Từ đó, khóa luận đề xuất thuật toán tính hạng ảnh áp dụng VisualRank cho các đặc trưng hiển thị và đặc trưng văn bản của ảnh

Chương 3: Mô hình máy tìm kiếm ảnh lớp trên trình bày mô hình tổng quan của

một máy tìm kiếm lớp trên Đồng thời, chương 3 đi chi tiết vào một mô hình tìm kiếm ảnh lớp trên MetaSEEk để tìm hiểu các thành phần cần thiết trong hệ thống máy tìm kiếm ảnh

Trang 12

lớp trên Từ đó, định hình ra những thành phần cần phải xây dựng mô hình máy tìm kiếm ảnh lớp trên định xây dựng

Chương 4: Thực nghiệm đưa ra mô hình máy tìm kiếm ảnh lớp trên áp dụng thử

nghiệm thuật toán đã được đề xuất ở chương 2 Chương này trình bày các thành phần của

mô hình và các công việc thực nghiệm mà khóa luận đã tiến hành Từ những kết quả đạt được, tiến hành đánh giá, so sánh với các hệ thống khác

Phần kết luận tóm lược các kết quả đã đạt được và nêu rõ đóng góp của khóa luận,

đồng thời định hướng một số hướng nghiên cứu tiếp theo trong thời gian sắp tới

Trang 13

Chương 1 Khái quát về các thuật toán tính hạng

Xếp hạng là một bài toán phổ biến, có ý nghĩa quan trọng và có nhiều ứng dụng trong thực tế Chương này tập trung làm rõ khái niệm về bài toán tính hạng tổng quát, đồng thời trình bày một số thuật toán tính hạng trang điển hình và giới thiệu sơ bộ về bài toán tính hạng ảnh

1.1 Giới thiệu về bài toán tính hạng

Xếp hạng các đối tượng theo tiêu chí nào đó (đơn giản như xếp hạng các học sinh trong một lớp theo điểm trung bình, xếp hạng các trường đại học…) là công việc hết sức cần thiết trong nhiều ứng dụng, đặc biệt là việc xếp hạng các kết quả trả về của máy tìm kiếm Xếp hạng các đối tượng là sắp xếp các đối tượng theo độ phù hợp với tiêu chí tùy vào từng ứng dụng cụ thể Do đó cần phải xác định phép đo về độ phù hợp của một đối tượng tìm được với yêu cầu của người dùng theo các tiêu chí đã đặt ra [1] [2] [3] [4] Một điển hình của bài toán xếp hạng đối tượng là việc xếp hạng các đối tượng trả về của máy tìm kiếm Trong các máy tìm kiếm thông thường (như Google, Yahoo) độ quan trọng hay còn gọi hạng trang (PageRank) là đại lượng cơ sở để xếp hạng Giá trị cơ sở của hạng trang được tính toán dựa trên việc phân tích mối liên kết giữa các trang Web Xếp hạng là công việc cuối cùng trong một máy tìm kiếm nhưng cũng không kém phần quan trọng Với tập các tài liệu , … và truy vấn của người dùng, máy tìm kiếm cần tìm những tài liệu trong phù hợp với Quá trình xếp hạng là quá trình sắp xếp các tài liệu mà máy tìm kiếm đã tìm được theo độ phù hợp với truy vấn và độ quan trọng giảm dần Việc xác định hàm tính hạng đóng vai trò quan trọng và quyết định đối với chất lượng của máy tìm kiếm Liên quan tới việc xác định hàm tính hạng, người ta quan tâm tới hai hướng giải quyết:

• Hướng thứ nhất sử dụng hạng trang của trang Web làm độ phù hợp với yêu cầu người dùng Hầu hết các nghiên cứu đều thừa nhận một giả thiết là nếu một trang Web mà có nhiều trang Web khác liên kết tới thì trang Web đó là trang Web quan trọng Trong trường hợp này, hạng trang được tính toán chỉ dựa trên mối liên kết giữa các trang Web với nhau Một số thuật toán điển hình theo hướng này là PageRank, Modified Adaptive PageRank

• Hướng thứ hai coi độ phù hợp của trang Web với câu truy vấn của người dùng không chỉ dựa trên giá trị hạng trang Web mà còn phải tính đến mối liên quan

Trang 14

giữa nội dung trang Web đó với nội dung truy vấn theo yêu cầu của người dùng Khi đó, hàm tính hạng là hàm kết hợp của giá trị độ tương tự giữa tài liệu với truy vấn , và hạng trang Các thuật toán xếp hạng theo hướng này được gọi là các thuật toán xếp hạng định hướng ngữ cảnh Một thuật toán xếp hạng định hướng ngữ cảnh điển hình là PageRank theo chủ đề (Topic Sensitive PageRank)

Với các ứng dụng mà kết quả trả về là một danh sách các đối tượng cần được sắp xếp, xếp hạng giúp người dùng nhanh chóng tiếp cận với kết quả gần với yêu cầu của mình nhất có thể Điều đó cho thấy, xếp hạng là một bài toán quan trọng và có ý nghĩa Sau đây, chúng ta sẽ nghiên cứu một số phương pháp tính hạng trang Web, các phương pháp này hoặc là phương pháp cơ bản đầu tiên, hoặc là đang được áp dụng trên một số máy tìm kiếm điển hình trên Internet như Google, Yahoo!

1.2 Tính hạng trang Web

Như đã nói ở trên, liên quan tới vấn đề xác định độ đo quan trọng của một trang Web với yêu cầu người dùng người ta quan tâm tới hai hướng giải quyết: hướng giải quyết thứ nhất không quan tâm tới vai trò của câu hỏi trong xếp hạng, ngược lại hướng giải quyết thứ hai liên quan trực tiếp với câu hỏi của người dùng Tương ứng với hai hướng giải quyết trên là các thuật toán xếp hạng dựa theo liên kết giữa các trang Web và các thuật toán xếp hạng định hướng ngữ cảnh Phần này sẽ trình bày một số thuật toán điển hình của cả hai hướng trên

1.2.1 Tính hạng theo liên kết

1.2.1.1 PageRank

PageRank [30] là một thuật toán phân tích liên kết (link) được Lary Page và cộng

sự phát triển tại trường đại học Stanford (Mỹ) và được sử dụng cho máy tìm kiếm Google Một cách trực giác, chúng ta có thể thấy rằng trang chủ của Yahoo! thì quan trọng hơn trang chủ của một cá nhân A nào đó Điều này được phản ánh qua số lượng các trang có liên kết đến trang chủ của Yahoo! nhiều hơn số trang có liên kết tới trang chủ của cá nhân A Do đó, ta có thể dùng số lượng các liên kết đến một trang để tính

độ quan trọng của trang đó Tuy nhiên, cách này sẽ không hoạt động tốt khi người ta

có thể dễ dàng tạo ra các trang Web có liên kết đến một trang Web nào đó và như vậy hạng của trang này sẽ trở nên cao hơn

PageRank phát triển thêm vào ý tưởng cũ bằng cách chú ý đến độ quan trọng của các trang Web liên kết đến trang Web mà ta đang xét Phương pháp này thừa nhận nếu

Trang 15

có liên kết từ trang A tới trang B thì độ quan trọng của trang A cũng ảnh hưởng (được san sẻ) tới độ quan trọng của trang B

PageRank đơn giản

Gọi là một đồ thị các trang Web Đặt , với 1, 2, … là tập n

đỉnh của đồ thị (mỗi đỉnh là một trang Web cần tính hạng trang) còn là tập các

cạnh, E = {(i, j) / nếu có siêu liên kết từ trang i tới trang j} Chúng ta giả thiết rằng đồ

thị trang Web là liên thông, nghĩa là từ một trang bất kì có thể có đường liên kết tới một trang Web khác trong đồ thị đó

Cho một đồ thị trang Web như trên Với mỗi trang Web , ký hiệu là số liên kết đi ra từ trang Web thứ và là số các trang Web có liên kết đến trang Khi đó hạng trang của trang Web được định nghĩa như sau:

1.1

Việc ta chia cho cho thấy rằng những trang có liên kết tới trang sẽ phân phối hạng của chúng cho các trang Web mà chúng liên kết tới

Các phương trình này được viết lại dưới dạng ma trận trong đó:

, , … , là vector PageRank, với là hạng của trang Web trong đồ thị trang Web

là ma trận chuyển với giá trị các phần tử được xác định:

1/ ế ó ê ế ừ đế

0 ượ ạ

Từ đó công thức PageRank được viết lại:

1.2 Phương trình trên cho thấy vector PageRank chính là vector riêng của ma trận

chuyển P tương ứng với giá trị riêng = 1 Trong đại số tuyến tính có một số phương pháp tính vector riêng của ma trận, tuy nhiên do kích thước quá lớn của ma trận đang xét, khi thi hành các tác giả [30] đã sử dụng phương pháp lặp để tính toán vector PageRank

Tính toán PageRank

Như đã nói ở trên, một trong những cách thức đơn giản nhất để tính vector riêng của

ma trận có thể được thực hiện thông qua việc lặp phép nhân một vector bất kỳ với ma trận

đã cho đến khi nào vector đó hội tụ Đầu tiên, chúng ta sẽ gán cho vector PageRank một

Trang 16

giá trị khởi tạo bất kỳ Sau đó, ta thực hiện phép nhân vector này với ma trận đã cho một cách liên tục cho tới khi nó đạt tới điều kiện hội tụ thì dừng lại Vector thu được chính là vector PageRank cần tính

Quy trình tính toán được diễn tả như sau:

1 vector bất kì

2

3 nếu thì kết thúc( là số dương rất bé, được gọi là sai số lặp) là vector PageRank

nếu không , quay lại bước 2

Giá trị hội tụ của ma trận đối với vòng lặp tùy thuộc vào “khoảng cách” của hai giá trị riêng có giá trị lớn nhất (nói cách khác là hiệu của hai giá trị riêng lớn nhất) Page và Brin đã khẳng định rằng vòng lặp hội tụ khá nhanh, trong khoảng 100 vòng lặp

Mô hình duyệt ngẫu nhiên

Quá trình tính toán PageRank có thể được xem như hành động của một người đang duyệt Web Ta tưởng tượng rằng có một người dùng duyệt Web bằng cách đi theo các liên kết trên các trang Web mà họ viếng thăm một cách ngẫu nhiên Cách duyệt ngẫu nhiên này tương đương với việc di chuyển ngẫu nhiên trên một đồ thị có hướng Nó thể hiện rằng vector PageRank tỉ lệ với phân phối xác suất dừng của một quá trình ngẫu nhiên PageRank của một trang Web chính là xác suất để một người ngẫu nhiên duyệt trang Web

đó

PageRank trong thực tế

Trên thực tế có nhiều trang Web không có liên kết đến hoặc không có liên kết ra Các trang Web này có thể là các trang chỉ chứa một bức ảnh, một file pdf, một bảng dữ liệu … hay có thể là một trang mà các trang liên kết của nó chưa được máy tìm kiếm kéo

về Các trang độc lập như vậy được gọi là các “dangling nodes” [9] Trong trường hợp đó,

khi giải phương trình (1.2) các “dangling nodes” sẽ phải chịu một hạng bằng 0, và ta không thể tính được độ quan trọng của trang Web đó Điều này là không phù hợp với thực

tế, vì bất kỳ trang Web nào được xây dựng cũng mang một ngữ nghĩa nào đó, tức là có độ quan trọng dương

Trang 17

Vì đồ thị Web trên thực tế là không liên thông nên trong ma trận P vẫn tồn tại hàng chỉ toàn số 0, do đó không tồn tại một phân phối xác suất dừng ổn định của P hay chính là

1 1.4

Ma trận Markov được xác định lại như sau:

1 1.5Việc thêm “hệ số hãm” (theo thực nghiệm thường được chọn 0.85) có ý nghĩa như việc bổ sung thêm giá trị hạng trang cho nhóm các trang không có liên kết ra ngoài Công thức PageRank nguyên thủy chính là trường hợp đặc biệt của giá trị PageRank vừa nêu khi 1

Reodering PageRank

Langville và Meyer [9] chỉ ra rằng, việc bỏ đi các “dangling nodes” trong quá trình tính hạng có thể làm cho kết quả tính hạng không còn chính xác nữa Bởi vì một số

“dangling nodes” có thể có PageRank cao Ví dụ như một file pdf có nội dung tốt có thể

có nhiều liên kết trỏ tới từ các nguồn và do đó nó có thể nhận được thứ hạng cao

Trang 18

Langville và Meyer đã đề xuất một giải pháp khác giải pháp của Page và cộng sự [30] để

giải quyết vấn đề trên gọi là thuật toán Reodering PageRank [8] [9] Phương pháp của

Langville và Meyer đưa ra là sử dụng một hệ thống tuyến tính trong việc khai thác các

“dangling nodes” để giảm sự tính toán, và do đó tạo ra một ma trận có các phần tử được sắp xếp lại một cách thích hợp

Theo [9], vector PageRank được tính theo công thức sau:

1.6

Trong đó I là ma trận đơn vị, là một ma trận hệ số, các tính chất của được trình bày chi tiết trong [8] Chúng ta cần chú ý tính chất cuối cùng được phát biểu như sau:

- Một hàng của ma trận nghịch đảo ứng với “dangling node” i là một vector chuyển vị , với là cột thứ i của ma trận đơn vị I

Tính chất này làm cho các tính toán của vector PageRank đặc biệt hiệu quả Chúng

ta giả sử rằng các hàng và cột của ma trận P được biến đổi sao cho các hàng ứng với các

“dangling nodes” nằm ở đáy của ma trận Khi đó ma trận P có dạng:

Với ND là tập các nút không phải là “dangling nodes” và D là tập các “dangling

nodes” Từ đó, vector hạng trang PageRank có thể được tính bởi công thức:

| 1.7 Với vector được tách thành hai phần: vector “nondangling” và vector

“dangling” Chúng ta tiếp tục thực hiện việc biến đổi để đưa các hàng bằng 0 về đáy của ma trận đối với các ma trận con và và tiếp tục chia nhỏ các ma trận này giống

như đã làm với ma trận P Việc biến đổi này được thực hiện lặp đi lặp lại đối với các ma

trận con nhỏ hơn cho đến khi gặp các ma trận con không có hàng bằng 0 Khi việc biến đổi các ma trận đã kết thúc, vector hạng trang PageRank được tính một cách đệ quy như sau:

1 Tính trong phương trình

Trang 19

4 Tính ,

Phương pháp sắp xếp lại ma trận PageRank do Langville và Meyer đề xuất sử dụng các phép biến đổi đại số để chia ma trận P thành các ma trận con nhỏ hơn, và sau đó tính vector hạng trang cho từng ma trận con nên có thời gian tính toán khá nhanh, và do đó có thể áp dụng tốt cho một đồ thị Web rất lớn Qua thực nghiệm cho thấy, phương pháp này

có tốc độ hội tụ nhanh hơn hoặc bằng so với tốc độ hội tụ của phương pháp PageRank nguyên thủy

Đánh giá PageRank

Theo [9] PageRank là một phương pháp tính hạng khá tốt và có quá trình tính toán độc lập với người dùng nên có thể thực hiện độc lập và không ảnh hưởng đến tốc độ tìm kiếm Phương pháp PageRank được cài đặt trên máy tìm kiếm Google đã mang lại kết quả rất khả quan Tuy nhiên, vì thuật toán chỉ quan tâm đến các liên kết giữa các trang Web

mà không quan tâm đến nội dung trang Web nên có thể dễ bị đánh lừa bởi các công nghệ spam Do vậy, yêu cầu đặt ra là cần phải cải tiến tốc độ tính toán PageRank và quan tâm hơn nữa tới nội dung của các trang Web đối với truy vấn của người dùng

1.2.1.2 Modify Adaptive PageRank

PageRank là một phương pháp tốt và hiệu quả nhằm đánh giá hạng các trang thông qua việc phân tích các liên kết giữa các trang Web Việc tính toán giá trị PageRank cho toàn bộ các trang Web được thực hiện thông qua việc tính vector riêng của ma trận kề biểu diễn cho liên kết giữa các trang Web Tuy nhiên, với kích cỡ khổng lồ của WWW, công việc tính toán này có thể tốn thời gian nhiều ngày Vì vậy, yêu cầu đặt ra là cần phải tăng tốc độ tính toán hạng trang Yêu cầu này là vì hai lí do:

• Cần sớm có được kết quả tính toán để đưa những thông tin hạng trang sang các thành phần khác của máy tìm kiếm, việc tính toán nhanh vector PageRank có thể giúp tận dụng được thời gian rỗi của những bộ phận đó

• Hiện nay, các phương pháp nghiên cứu mới đều tập trung vào việc đánh giá dựa trên những tiêu chí có tính đến sự quan tâm của người dùng, do vậy cần phải tính toán nhiều vector PageRank, mỗi vector hướng tới một tiêu đề khác nhau Việc tính toán nhiều vector này cũng đòi hỏi mỗi vector thành phần cần được tính toán nhanh chóng

Một số phương pháp tăng hiệu năng tính toán của thuật toán PageRank đã được đề xuất Một trong các phương pháp tăng tốc độ tính toán phổ biến hiện nay là Modified

Trang 20

Adaptive PageRank đã được giới thiệu bởi Sepandar Kamvar và cộng sự [32] Ý tưởng của đề xuất này dựa trên nhận xét: trong quá trình chạy chương trình, độ quan trọng các trang Web có tốc độ hội tụ không giống nhau, có những trang Web có tốc độ hội tụ nhanh,

có trang lại có tốc độ hội tụ chậm Vì vậy ta có thể tận dụng những trang hội tụ sớm, và kết quả độ quan trọng của những trang đã hội tụ đó có thể không cần phải tính tiếp nữa Điều này cho phép giảm được những tính toán dư thừa, và do đó làm tăng được hiệu suất tính toán của hệ thống Như vậy, phương pháp này thực chất là một cải tiến của phương pháp PageRank, phương pháp này có thể làm tăng tốc độ tính toán bằng cách giảm đi những tính toán dư thừa

Phương pháp Adaptive PageRank

Như đã giới thiệu ở trên, việc tính toán vector toàn cục PageRank cho các trang Web được thực hiện bằng phương pháp lặp Ta giả sử rằng việc tính toán vector PageRank đã được thực hiện đến vòng lặp thứ k và bước tính toán tiếp theo:

(1.8) Gọi C là tập hợp các trang Web có giá trị hạng trang đã hội tụ đến mức nào đó và

là tập hợp các trang Web có giá trị hạng trang chưa hội tụ Khi đó, ta chia ma trận ra làm hai ma trận con, cỡ là ma trận kề đại diện cho những liên kết của m trang

chưa hội tụ, còn cỡ là ma trận kề đại diện cho những liên kết của

trang đã hội tụ

Tương tự, ta cũng chia vector tại vòng lặp thứ k ra thành 2 vector: tương ứng với những thành phần của đã hội tụ, còn tương ứng với những thành phần của chưa hội tụ Ma trận và vector được viết lại dưới dạng sau:

• 1.10

1.11

Trang 21

Cải tiến Adaptive PageRank

Vì kích thước của WWW rất lớn nên việc sắp xếp lại ma trận A để tạo ma trận con

sẽ khó có thể thực hiện được trong mỗi vòng lặp Hơn nữa, không có cách hiệu quả để phớt lờ đi những đầu vào không cần thiết (chính là những liên kết tới các trang đã hội tụ),

do vậy trong thực tế việc cài đặt thuật toán có thể được thực hiện như sau:

Định nghĩa ma trận như sau:

Phương trình (1.8) được viết lại như sau:

1.12

Ma trận mà chúng ta nhận được có số chiều giống như ma trận , tuy nhiên ma

trận thưa hơn rất nhiều so với ma trận A (có nhiều phần tử 0 hơn mà công việc tính toán

với số 0 rất đơn giản) nên thời gian tính toán sẽ trở nên nhanh hơn so với việc sắp xếp lại

ma trận đại diện cho các liên kết giữa các trang Web để được ma trận con và

Ý tưởng chính của Adaptive PageRank là làm giảm những tính toán dư thừa bằng việc tính toán lại PageRank theo các phương trình (1.10) và (1.11) Tuy nhiên trong [32]

đã giới thiệu chi tiết hơn về việc tăng tốc độ tính toán bằng cách chia nhỏ ma trận thành bốn ma trận con

Ma trận được viết lại như sau:

1.13 Với là ma trận kề đại diện cho những liên kết của các trang có giá trị PageRank chưa hội tụ tới những trang có giá trị PageRank chưa hội tụ, là ma trận kề đại diện cho những liên kết của các trang có giá trị PageRank đã hội tụ tới những trang có giá trị PageRank chưa hội tụ, và tương tự cho các thành phần khác ,

Vì và không thay đổi sau vòng lặp thứ k do chúng đã hội tụ, nên phương

trình (1.8) có thể được viết lại như sau:

1.14

Trang 22

Ma trận đã được chia nhỏ ra, đồng thời không phải tính lại giá trị một số ma trận con, do vậy công việc tính toán có thể được giảm đi đáng kể Hơn nữa việc tính toán cũng không cần phải tiến hành thường xuyên mà có thể xem xét chúng một cách định kì

Đánh giá

Việc chia nhỏ và lọc ma trận không những giảm đi được những tính toán dư thừa không cần thiết, mà còn giảm đi việc đọc các đầu vào và ghi các giá trị đầu ra không cần thiết, giúp nâng cao hơn hiệu suất tính toán Hơn nữa phương pháp này còn giúp giảm được chi phí tốn kém về bộ nhớ khi thực hiện công việc tính toán Những kết quả thực nghiệm trong [32] cho thấy thời gian tính hạng có thể được giảm đi tới hơn 20% so với thuật toán PageRank nguyên thủy

1.2.1.3 HITS

Phương pháp HITS (Hypertext Induced Topic Search), do Kleinberg đề xuất [23], tính hạng của một trang Web không chỉ dựa trên một giá trị độ quan trọng như

PageRank mà mỗi trang Web được xác định hai trọng số khác nhau: authority và hub

Authority pages: Là những trang được xem là phù hợp nhất đối với mỗi câu truy

vấn cụ thể nào đó Ví dụ, trang chủ của Yahoo chính là trang “authority” của câu truy vấn “yahoo”

Hub pages: Là những trang không cần có đặc tính “authority” nhưng lại trỏ tới

nhiều trang có đặc tính “authority” Ví dụ như trang “Searchenginewatch.com” là một trang “hub” vì nó liên kết tới nhiều trang chủ của máy tìm kiếm Trang “hub” có ý nghĩa khá quan trọng, thứ nhất bởi vì nó có những thông tin có thể được sử dụng trong việc tìm kiếm những thông tin hữu ích, thứ hai bởi vì nó được sử dụng trong thuật toán HIST để tính toán “authority” Vì trang “hub” mang ý nghĩa là trang trỏ tới nhiều trang

“authority” nên nếu một trang “authority” tốt có thể được coi là trang có nhiều “hub” chỉ tới

Giải thuật HITS

Thuật toán HITS không làm việc trên toàn bộ đồ thị Web mà chỉ làm việc trên một tập nhỏ các trang Web và kết hợp chúng thành một đồ thị các trang Web (gọi là

đồ thị con) Thuật toán không hoàn toàn độc lập với người dùng như phương pháp PageRank mà tùy thuộc vào câu truy vấn của người dùng, với mỗi câu truy vấn khác nhau công việc tính toán phải được thực hiện lại Tuy nhiên, câu truy vấn chỉ có vai trò trong việc tạo đồ thị con chứ không ảnh hưởng tới phương pháp tính toán Vì vậy, trước tiên phải xây dựng đồ thị con các trang tùy theo truy vấn và sau đó phân tích các

Trang 23

liên kết giữa các trang trong đồ thị để xác định các giá trị “authority” và “hub” của các trang

Hình 1 Mô tả tính chất authority và hub

3 Với mỗi trang p thuộc R

(a) Thêm các trang được liên kết đến bởi p vào S

(b) Thêm các trang Web có liên kết đến p vào S (tối đa là d trang)

4 Đồ thị tạo bởi S chính là đồ thị con cần tìm

Việc tìm tập nhân liên quan đến truy vấn có thể xác định dựa vào kết quả tìm kiếm của các máy tìm kiếm khác như Google Ví dụ, tập nhân có thể được lấy từ các trang đầu tiên, có thể là 10 địa chỉ trang Web đầu tiên được trả về tương ứng với truy vấn Hoặc là các trang có địa chỉ chứa nội dung truy vấn, ví dụ với truy vấn “java” thì trang chủ là http://java.sun.com Các trang Web trong đồ thị con cũng được đánh chỉ

số từ 1 đến n và đồ thị được biểu diễn bởi ma trận kề

Trang 24

Trong đó: , , … , , , … lần lượt là vector trọng số

“authority” và “hub” của các trang trong tập

Từ 1.16 ta biến đổi được:

Vậy cũng tương tự như phương pháp PageRank, vector , lần lượt là vector riêng của các ma trận và Do vậy, tương tự phương pháp tính PageRank, có thể áp dụng tính chất hội tụ để tính vector , Vector , thường được chuẩn hóa: ∑

Trang 25

Kleinberg [23] đã chỉ ra sự hội tụ của các trọng số “authority” và “hub” tức thuật toán thỏa mãn tính dừng nhưng chưa đưa ra được giới hạn số vòng lặp cần tính Tuy nhiên, thực nghiệm đã cho thấy thuật toán nhanh chóng hội tụ

Đánh giá

Theo [9], thuật toán HITS có phần hướng người dùng do sử dụng thông tin truy vấn chắt lọc những trang Web có nội dung liên quan đến xâu truy vấn để xây dựng tập con các trang Web Thuật toán đã thể hiện mối quan hệ chặt chẽ giữa các trang mang tính chủ (authority) và trang trung tâm (hub)

Tuy nhiên, thuật toán HITS lại gặp phải vấn đề khá khó khăn là cần tính toán trực tuyến (online), nghĩa là chỉ khi máy tìm kiếm nhận được câu truy vấn rồi đồ thị con mới được xây dựng và sau đó các trọng số “authority”, “hub” mới được tính Điều này làm chậm thời gian trả kết quả về cho người dùng Nhưng chúng ta có thể ứng dụng thuật toán HITS trong các phương pháp có xác định link spam sau này nhằm tính độ ảnh hưởng của các trang xấu tới các trang khác khi đã xác định được tập nhân các trang xấu

1.2.2 Tính hạng định hướng ngữ cảnh

1.2.2.1 PageRank theo chủ đề

PageRank là phương pháp xếp hạng hiệu quả và hiện đang được áp dụng trên máy tìm kiếm Google Tuy nhiên, phương pháp này chỉ quan tâm đến các liên kết mà không quan tâm đến nội dung của trang Web có chứa liên kết đó, do vậy có thể dẫn tới những sai lạc trong thông tin tìm kiếm được Yêu cầu đặt ra là cần phải tìm kiếm một phương pháp

có tốc độ nhanh như phương pháp PageRank và lại có quan tâm đến nội dung của trang Web có chứa những liên kết cần thiết Hơn nữa, nếu khai thác được mối quan tâm của người dùng đối với các trang Web trong việc tính độ phù hợp của trang Web với câu hỏi người dùng thì việc đó càng có ý nghĩa Nhằm đáp ứng những yêu cầu trên, Taher H Haveliwala [35] đã đề xuất phương pháp PageRank theo chủ đề (Topic sensitive PageRank) sử dụng khái niệm “phạm vi ngữ cảnh” để biểu thị mối quan tâm của người dùng Phương pháp nắm được độ quan trọng của các trang Web, cho phép tìm kiếm theo ngữ cảnh, và điều quan trọng là có thể tìm kiếm những trang phù hợp với nội dung truy vấn của người dùng với tốc độ cho phép

Thuật toán gồm hai bước được mô tả sơ bộ như sau

o Bước đầu tiên được thực hiện ngoại tuyến (offline) trong suốt quá trình tiền xử lí của bộ tìm duyệt và hoàn toàn độc lập đối với những truy vấn như phương pháp

Trang 26

PageRank thông thường Tại bước này, các trang Web trong cơ sở dữ liệu được phân thành các lớp theo các chủ đề , , … , ; gọi là tập hợp những trang Web theo chủ đề của Mỗi lớp tương ứng với một vector PageRank của mỗi trang trong lớp Vector PageRank của chủ đề được tính bằng trong đó

là phạm vi ngữ cảnh của Phạm vi ngữ cảnh nghĩa là nếu truy vấn được yêu cầu bằng cách tô sáng từ khóa trong trang Web u nào đó thì sẽ chứa các từ khóa trong u bao gồm cả Với truy vấn bình thường không tìm theo ngữ cảnh thì Sau đó ta tính xác suất để thuộc về các chủ đề khác nhau Bước này

có thể coi như là bước phân lớp xem xét thuộc về lớp nào trong các lớp chủ đề

Sử dụng thuật toán phân lớp Bayes với:

Tập huấn luyện: gồm những trang được liệt kê trong các chủ đề

Đầu vào: câu truy vấn hoặc phạm vi ngữ cảnh của câu truy vấn

Đầu ra: xác suất để đầu vào thuộc mỗi chủ đề

Gọi là từ khóa thứ i trong ngữ cảnh Với mỗi lớp , xác suất để là:

1.18

Trong đó được tính từ vector các từ khóa được định nghĩa ở trên Giá trị được xác định hoặc là các giá trị bằng nhau cho mọi chủ đề hoặc có thể làm như sau: chúng ta giả sử rằng có k người dùng, ta sẽ biết được số lần mà người dùng này có câu truy vấn liên quan đến chủ đề nào, từ đó có thể tính được

; rồi tổ hợp các giá trị này thì nhận được

Gọi là hạng của văn bản d cho bởi vector , – vector PageRank của chủ đề thì độ quan trọng dựa theo câu truy vấn được tính như sau:

Trang 27

| 1.19

Phương pháp PageRank theo chủ đề có thể cho những kết quả tính toán chính xác hơn vì nó dựa trên cả những liên kết và nội dung trang Web Tuy nhiên, phương pháp này cũng gặp phải những trở ngại là: việc phân chia các chủ đề có thể không đầy đủ, không bao hàm được tất cả các chủ đề; vấn đề này có thể giải quyết bằng cách tăng thêm các chủ

đề nhưng việc tăng thêm các chủ đề chắc chắn sẽ làm tăng thời gian tính toán

1.3 Tính hạng thực thể

Tìm kiếm thực thể trên Web là một hướng đi mới dựa trên tìm kiếm văn bản thông thường Cùng với sự phát triển của các kỹ thuật trích rút thông tin, các máy tìm kiếm thực thể ngày càng nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa học Với máy tìm kiếm thực thể, người dùng có thể dễ dàng tìm được thông tin về một đối tượng nào đó

Ví dụ, đối với truy vấn “các trường đại học ở Việt Nam”, máy tìm kiếm thực thể sẽ trả về

danh sách tên các trường đại học ở Việt Nam đúng như mong muốn của người dùng Trong khi đó, các máy tìm kiếm thông thường sẽ trả về danh sách các trang Web có chứa

từ khóa trong truy vấn Do vậy, người dùng sẽ phải duyệt qua nội dung nhiều trang Web

mà không chắc chắn sẽ có được thông tin mong muốn ở những kết quả đầu tiên Kết quả trả về của máy tìm kiếm thực thể là các thực thể của đối tượng cần tìm, mỗi thực thể được xác định không chỉ xét trên một trang độc lập mà có thể được tổng hợp qua nhiều trang Web Vì thế, vấn đề đưa các thực thể phù hợp với truy vấn nhất lên đầu tiên trong danh sách trả về cho người dùng là rất quan trọng Hay nói cách khác, xếp hạng thực thể là vấn

đề cốt lõi của máy tìm kiếm thực thể

Bài toán xếp hạng thực thể được phát biểu như sau:

Gọi , , … , là tập các thực thể được trích ra từ các trang Web Mỗi thực

thể được biểu diễn bởi các cặp (<thuộc tính>,<giá trị>) Định nghĩa ,

là một mô tả của thực thể , trong đó là định danh thực thể: và tập các đặc tính , … , là tập các cặp (<thuộc tính>,<giá trị>) Ví dụ, trường đại học Công Nghệ có ID là DHCN và các đặc tính như là (tên, đại học Công Nghệ), (năm_thành_lập, 2005)…

Truy vấn , … , là một tập các cặp (<thuộc tính>,<giá trị>) thể

hiện yêu cầu của người dùng tìm kiếm các thực thể có các giá trị ứng với các thuộc tính , … ,

Trang 28

Với đầu vào là một tập các mô tả thực thể … và một truy vấn q, đầu ra của một hệ thống xếp hạng thực thể là một danh sách các thực thể đã được xếp hạng … Độ phù hợp của thực thể đối với truy vấn q được xác định bởi

Giá trị của , được dùng để xếp hạng các kết quả trả về, do đó việc xác định hàm , là vấn đề quan trọng Với mỗi bài toán xếp hạng thực thể cho mỗi loại đối tượng sẽ có một số thuật toán xếp hạng thực thể phù hợp với bài toán đó tùy thuộc vào các thuộc tính của đối tượng cần tìm

Hình 3 Một mô hình học xếp hạng trong máy tìm kiếm thực thể [4]

1.4 Sơ bộ về tính hạng ảnh

Cùng với sự bùng nổ thông tin trên Web và sự phát triển của công nghệ kỹ thuật

số, lượng ảnh lưu trữ trên Web cũng tăng một cách nhanh chóng Mỗi ngày, có hàng triệu bức ảnh được đăng tải trên các trang ảnh trực tuyến như: Flickr1, Photobucket2, Facebook3… Theo thống kê, có 10 tỉ ảnh trên Facebook (tính đến tháng 10/2008), 3 tỉ ảnh trên Flickr (tính đến tháng 11/2008), 6.2 tỉ ảnh trên Photobucket (tính đến tháng 10/2008) [19]

Bên cạnh nhu cầu tìm kiếm thông tin thì tìm kiếm ảnh cũng là một nhu cầu đang nhận được sự quan tâm lớn của người sử dụng Tuy nhiên, với một lượng ảnh trên

1 Flickr: http://www.flickr.com

2 Photobucket: http://www.photobucket.com

3 Facebook: http://www.facebook.com

Trang 29

Internet quá lớn công việc tìm kiếm sẽ trở nên vô cùng khó khăn Để giải quyết vấn đề này, đã có các hệ thống tìm kiếm ảnh ra đời như: Yahoo, MSN, Google Image Search, Bing… Cũng như đối với các hệ thống tìm kiếm thông thường và các hệ thống tìm kiếm thực thể khác, mô đun xếp hạng là một phần quan trọng cốt lõi trong máy tìm kiếm ảnh Hiện nay, bài toán xếp hạng ảnh đã trở thành một trong những bài toán điển hình của lĩnh vực khai phá dữ liệu nói chung và lĩnh vực xếp hạng thực thể nói riêng

Để tìm kiếm và xếp hạng ảnh trên Web, các máy tìm kiếm thường dựa vào các thuộc tính sẵn có của ảnh Các ảnh trên Web được nhận biết qua các thuộc tính được nhóm thành hai loại: văn bản và nội dung hiển thị Các thuộc tính văn bản có thể là: tên ảnh, thẻ ảnh (tags1), vùng văn bản xung quanh ảnh, tên trang Web chứa ảnh, … Nội dung hiển thị của ảnh có thể là: màu sắc, hình dạng, kết cấu, các thuộc tính cục bộ (local features), … hay bất cứ thông tin nào bắt nguồn từ chính nội dung của bức ảnh Dựa vào hai loại đặc trưng này của các ảnh trên Web, các thuật toán xếp hạng ảnh cũng phân thành hai hướng là: xếp hạng ảnh dựa theo nội dung hiển thị và xếp hạng ảnh dựa theo văn bản Các máy tìm kiếm ảnh thông dụng hiện nay như: Google Image Search, Yahoo! Image Search, MSN, AltaVista, … xếp hạng các ảnh trả về dựa trên vùng văn bản đi kèm với ảnh Các

hệ thống này cho phép người sử dụng nhập các chuỗi truy vấn về chủ đề ảnh mà họ cần tìm kiếm, thông qua việc phân tích các vùng văn bản đi kèm với các bức ảnh, hệ thống gửi trả lại các ảnh có nhãn tương ứng với chủ đề ảnh mà người sử dụng yêu cầu Phương pháp này cho kết quả khả quan cũng như đáp ứng nhanh nhu cầu của người sử dụng Tuy nhiên, đối với các câu truy vấn mang ý nghĩa nhập nhằng có thể sẽ có các kết quả trả về không đúng với yêu cầu đặt ra bởi vì vùng văn bản đi kèm ảnh không thể diễn tả được hết nội dung ảnh Một hướng nghiên cứu khác là phân tích các đặc trưng hiển thị của ảnh và tiến hành xếp hạng theo các đặc trưng này Một số công cụ tìm kiếm ảnh dựa trên nội dung điển hình như: Google Image Swirl, Tiltomo, Byo Image Search

… Các công cụ này nhận đầu vào là một chuỗi truy vấn dưới dạng văn bản hoặc một bức ảnh và cho phép người dùng tùy chỉnh lựa chọn tìm ảnh theo một số đặc trưng nào đó Tuy nhiên, các máy tìm kiếm này thường chỉ tập trung khai thác vào một phần nội dung của ảnh và thường tốn khá nhiều thời gian do phải phân tích nội dung các bức ảnh

1 Tags: là là các từ để đánh dấu một vùng trong ảnh mà khi di chuột qua vùng đó thì các từ đó sẽ hiển thị lên để chú thích cho bức ảnh.

Trang 30

Một trong các hướng nghiên cứu nhằm giải quyết và khắc phục vấn đề trên là kết hợp cả việc phân tích các đặc trưng của ảnh với các đặc trưng của chuỗi truy vấn vào quá trình tìm kiếm ảnh Đây là một hướng nghiên cứu mới được sự quan tâm của

nhiều hội nghị quốc tế như: International Journal of Computer Vision, IEEE

conference…

1.5 Một số công trình nghiên cứu liên quan

Các nghiên cứu về tìm kiếm Web đã bắt đầu từ những năm 1990 Cùng với sự cải tiến không ngừng của các công cụ tìm kiếm Web, các thuật toán tính hạng trang cũng nhận được sự quan tâm sâu sắc tại các hội nghị quốc tế Sự ra đời của thuật toán PageRank [30] đã đánh dấu một bước phát triển nhảy vọt của các máy tìm kiếm Web

mà điển hình của nó là Google, một trong số các máy tìm kiếm hàng đầu hiện nay Kéo theo đó là sự ra đời của một loạt các thuật toán tính hạng trang khác [9] [23] [32] [35] nhằm cải tiến thuật toán PageRank

Phần lớn các nghiên cứu tìm kiếm Web là tập trung vào tìm kiếm các trang Web (tài liệu dạng văn bản) và chỉ một số ít trong đó là về tìm kiếm các thông tin đa phương tiện trên Web (ảnh, video, MP3…) Tuy nhiên, trong những năm gần đây, vấn

đề tìm kiếm và xếp hạng các đối tượng đa phương tiện trên Web (đặc biệt là vấn đề tìm kiếm và xếp hạng ảnh) đang trở thành một vấn đề thu hút được rất nhiều sự quan tâm của các nhà khoa học trên thế giới Bằng chứng là ngày càng có nhiều các công trình nghiên cứu về các thuật toán tính hạng ảnh được công bố [17] [29] [30] [34] [36] [38] [39][40] Bên cạnh đó là sự ra đời của các máy tìm kiếm ảnh và các máy tìm kiếm thông thường cũng có xu hướng tích hợp thêm dịch vụ tìm kiếm ảnh

Một hướng phát triển mới cho các máy tìm kiếm Web đang rất được chú ý đó là các máy tìm kiếm lớp trên (Meta-search engine) Đã có một số công trình nghiên cứu

về máy tìm kiếm lớp trên [11] [14] [18] [28] được công bố cũng như đã có một số máy tìm kiếm lớp trên (Dogpile, Clussty, KartOO, Google CSE…) được mang vào sử dụng trong thực tiễn Tuy nhiên, những công cụ tìm kiếm này vẫn chưa mang lại được thành tựu nổi bật và chưa cạnh tranh được với Google

Ở Việt Nam, nghiên cứu và ứng dụng tìm kiếm và xếp hạng Web cũng đang nhận được nhiều sự quan tâm Hiện tại, cũng có một số công ty làm về máy tìm kiếm như Bamboo, Zing, Xalo, Socbay… Thứ trưởng Bộ TT-TT Nguyễn Minh Hồng1 cho rằng, các máy tìm kiếm trực tuyến ra đời là sự đóng góp lớn cho nền công nghiệp

Trang 31

CNTT Việt Nam Tuy nhiên, những sản phẩm này vẫn chưa thể vượt qua các công cụ tìm kiếm của các “đại gia” nước ngoài trên thị trường nội địa Theo ông Lê Ngọc Quang1, Giám đốc Phát triển Kinh doanh và Công nghệ của IDG Ventures Vietnam, công cụ tìm kiếm của Việt Nam hiện nay gần như bỏ không, không tạo doanh thu, rất

ít người dùng và như vậy là một sự lãng phí. Ngoài các máy tìm kiếm còn có một số công trình nghiên cứu về tìm kiếm và xếp hạng đã được công bố Một số công trình nghiên cứu bước đầu như cải tiến thuật toán tính hạng trang của Nguyễn Hoài Nam [2], mô hình học xếp hạng của Nguyễn Thu Trang [4], xây dựng công cụ tìm kiếm MP3 cho tiếng Việt của Nguyễn Hoàng Trung [5]

Công trình nghiên cứu của Nguyễn Hoài Nam [2] dựa trên cơ sở một số phương pháp tìm kiếm và xếp hạng trang cơ bản, từ đó đưa ra những đề xuất cải tiến cho thuật toán PageRank theo chủ đề Phương pháp mà [2] đưa ra là gán các giá trị quan trọng khác nhau đối với các liên kết để làm chính xác hơn các kết quả tìm kiếm Cụ thể như những liên kết từ các trang trong cùng chủ đề đối với trang được liên kết có thể mang tới cho trang đó giá trị nhiều hơn những trang không nằm trong cùng chủ đề Phương pháp này đã được áp dụng thử nghiệm cho máy tìm kiếm Vietseek và bước đầu đã mang lại hiệu quả

Một nghiên cứu khác cũng về vấn đề xếp hạng là nghiên cứu về học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu của Nguyễn Thu Trang [4] Công trình của [4] thực hiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiện nay và từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể trong tiếng Việt, cụ thể là tìm kiếm thực thể thuốc và học xếp hạng để tạo nhãn cho cụm tài liệu Các kết quả thu được đã chứng minh vai trò và hiệu quả của học xếp hạng áp dụng vào máy tìm kiếm

Nguyễn Hoàng Trung [5] đã tiến hành xây dựng thử nghiệm một thành phần tìm kiếm MP3 cho tiếng Việt cho máy tìm kiếm Socbay Hệ thống này tìm kiếm các file MP3 dựa vào các trường mô tả file Phần mềm tìm kiếm này cho kết quả tương đối chính xác đối với cả những tìm kiếm tiếng Việt không dấu và có dấu trong thời gian cho phép

Qua quá trình tìm hiểu về tình hình nghiên cứu trong và ngoài nước, nhận thấy yêu cầu của thực tế đặt ra là rất cần thiết và cấp bách, trong khóa luận này, tôi tập trung nghiên cứu về các thuật toán tính hạng ảnh và sau đó áp dụng vào việc xây dựng

1 http://vietnamnet.vn/cntt/2005/11/517349/

Trang 32

một mô hình máy tìm kiếm lớp trên thử nghiệm cho ảnh Tôi tin rằng những nghiên cứu của mình là rất thiết thực và sẽ là nền tảng cho những nghiên cứu tiếp theo của mình

Tóm tắt chương một

Trong chương một, khóa luận đã tập trung khảo sát, phân tích một số thuật toán tính hạng trang điển hình đang được sử dụng rộng rãi hiện nay Đồng thời khóa luận cũng đã trình bày sơ bộ về vấn đề xếp hạng đối tượng nói chung và xếp hạng ảnh nói riêng Trong chương tiếp theo, khóa luận sẽ giới thiệu chi tiết hơn về các thuật toán tính hạng ảnh theo nội dung hiển thị

Trang 33

Chương 2 Một số thuật toán tính hạng ảnh phổ biến

2.1 Giới thiệu

Như đã trình bày ở chương trước, xếp hạng ảnh là một bài toán điển hình trong lĩnh vực xếp hạng thực thể và đang nhận được nhiều sự quan tâm nghiên cứu của các nhà khoa học Các nghiên cứu về xếp hạng ảnh hiện nay chủ yếu tập trung vào phân tích các đặc trưng về nội dung hiển thị của ảnh

Phương pháp phổ biến là dùng lý thuyết đồ thị để xây dựng mối quan hệ giữa các bức ảnh Phương pháp tiếp cận này xây dựng một đồ thị kết nối các ảnh giống nhau, sau

đó sử dụng vector đặc trưng để tìm các ảnh là “trung tâm” của đồ thị Một hướng tiếp cận đơn giản và hiệu quả ứng dụng trong việc xử lý các thông tin về nội dung hiển thị của ảnh

đã được đề xuất bởi Yushi Jing và Shumeet Baluja [39][40] Phương pháp của Jing và Baluja sử dụng độ đo tương đồng giữa các bức ảnh để xây dựng một đồ thị tương đồng và dựa trên thuật toán PageRank để tính hạng cho các bức ảnh Theo hướng tiếp cận này [34], [29] cũng có một số đề xuất để cải tiến thuật toán mà Jing và Baluja đưa ra Một kỹ thuật khác là xây dựng các cụm các bức ảnh và sau đó sử dụng độ tương đồng trong cùng một cụm hoặc trung tâm cụm để tìm ảnh nổi bật nhất [27] [36] Nghiên cứu của T.L.Berg và A.C.Berg mở rộng ý tưởng phân cụm bằng cách tìm các ảnh mà có một đối tượng nổi bật rõ ràng, và vì thế có nhiều khả năng đại diện nhất Ngoài ra còn một

số hướng tiếp cận theo hướng người dùng [38] hoặc học bán giám sát [17] Các phương pháp này thường kết hợp cả các đặc trưng về văn bản của ảnh

Chương này sẽ tập trung giới thiệu chi tiết hơn một số thuật toán phổ biến xếp hạng ảnh dựa trên nội dung hiển thị

2.2 VisualRank

VisualRank là thuật toán tính hạng ảnh dựa vào việc phân tích độ tương đồng về nội dung giữa các bức ảnh do Yushi Jing và Shumeet Baluja [39][40] đề xuất Phương pháp mà Jing và Baluja đưa ra lấy tư tưởng cơ bản từ thuật toán phân tích liên kết PageRank Cũng giống như PageRank, thuật toán VisualRank sử dụng lý thuyết đồ thị

để xây dựng đồ thị ảnh và dùng vector đặc trưng trung tâm để tính hạng cho các ảnh Với nhận định trực quan rằng, nếu một người dùng xem một bức ảnh, thì người đó cũng có thể quan tâm đến các ảnh khác gần giống với ảnh vừa xem Nghĩa là nếu giữa các ảnh có các liên kết biểu thị sự giống nhau giữa các ảnh đó thì sẽ có một xác suất nào đó để người dùng khi xem ảnh này sẽ chuyển sang xem một ảnh gần giống với nó

Trang 34

Xây dựng đồ thị từ tập dữ liệu ảnh với các đỉnh của đồ thị biểu diễn các ảnh tương ứng trong tập dữ liệu Các đỉnh được nối với nhau bởi các cạnh có trọng số là độ tương đồng giữa hai ảnh mà được biểu diễn bởi hai đỉnh của cạnh đó Các cạnh này được gọi là các liên kết trực quan (visual hyperlinks) giữa các bức ảnh VisualRank sử dụng quá trình duyệt ngẫu nhiên để xếp hạng các ảnh dựa vào các liên kết này Nếu

một ảnh u có liên kết tới ảnh v, thì sẽ có một xác suất để người dùng chuyển từ u sang

v Một cách trực quan ta có thể thấy các ảnh phù hợp với truy vấn sẽ có nhiều ảnh khác

trỏ tới, và do đó chúng sẽ được thăm thường xuyên Các ảnh được thăm thường xuyên

thường được cho là quan trọng Hơn nữa, nếu một ảnh v là quan trọng và nó có liên kết tới ảnh w, thì nó sẽ gộp độ quan trọng của nó cho độ quan trọng của w vì bản thân v là

quan trọng VisualRank được định nghĩa như sau:

2.1 Trong đó, là ma trận cắt giảm theo cột của ma trận , với , là độ tương

đồng giữa hai ảnh u và v Việc lặp đi lặp lại phép nhân VR với sẽ thu được vector đặc trưng của ma trận Mặc dù VR có kết quả cố định, nhưng theo thực nghiệm, nó

có thể được ước lượng một cách hiệu quả hơn qua phương pháp tiếp cận lặp

Hình 4 Một minh họa về đồ thị độ tương đồng của ảnh

Trang 35

VisualRank hội tụ chỉ khi ma trận là không tuần hoàn và tối giản Cũng giống

như PageRank, Jing đưa vào VisualRank một thừa số hãm d để đảm bảo đồ thị ảnh là

đồ thị liên kết mạnh Jing cũng chỉ ra rằng, ma trận tương đồng S cũng có thể là ma

trận đối xứng Trong trường hợp đó, sự xuất hiện của thừa số hãm có thể làm mất tính đối xứng của ma trận này

Với tập n ảnh, VisualRank được định nghĩa lại theo công thức sau:

1 ớ 1 2.2

Trong thực nghiệm, d thường được chọn giá trị d > 0.8

Một độ đo tin cậy của độ tương đồng là yếu tố quyết định tới tính hiệu quả của VisualRank bởi vì nó ảnh hưởng rất lớn tới cấu trúc của đồ thị Qua phân tích các đặc tính của ảnh, Jing và Baluja cho rằng các đặc tính cục bộ của ảnh giàu thông tin hơn và vẫn giữ được tính ổn định khi qua các phép biến đổi khác nhau Vì thế, trong nghiên cứu của mình, Jing và Baluja [40] chọn đặc trưng SIFT [24] [25] và biểu đồ hướng làm đặc trưng cho các đặc tính của ảnh Ma trận tương đồng được xây dựng từ độ tương đồng của các cặp ảnh trong toàn bộ dữ liệu ảnh Độ tương đồng của mỗi cặp ảnh

có thể là số các thuộc tính cục bộ phù hợp của cặp ảnh đó

Với khối lượng ảnh khổng lồ trên Web hiện nay, lượng kết quả trả về của máy tìm kiếm ảnh đối với một truy vấn là rất lớn Nhận thấy rằng việc tính toán để tạo ra đồ

thị tương đồng S cho hàng tỉ bức ảnh là không thể, trong thực tế thi hành VisualRank,

Jing và Baluja đề xuất phương pháp tiền phân cụm các ảnh Web dựa trên việc sử dụng các thuộc tính văn bản của ảnh để giảm bớt tập ảnh đầu vào Việc này có thể thực hiện

thông qua các máy tìm kiếm thương mại bằng cách trích rút tập N ảnh trả về đầu tiên

khi truy vấn vào các máy tìm kiếm thương mại thông thường, sau đó tiến hành xây

dựng đồ thị tương đồng và tính VisualRank chỉ trên tập con N ảnh này

Thuật toán VisualRank trình bày một kỹ thuật đơn giản để kết hợp các lợi điểm trong việc sử dụng liên kết và phân tích mạng cho tìm kiếm trang Web vào tìm kiếm ảnh Thuật toán đã được các tác giả thử nghiệm và cho kết quả tốt hơn kết quả xếp hạng của máy tìm kiếm ảnh Google trong phần lớn các truy vấn trong khi vẫn duy trì được hiệu quả tính toán hợp lý cho việc triển khai quy mô lớn

Trang 36

2.3 Multiclass VisualRank

Multiclass VisualRank là thuật toán xếp hạng ảnh mở rộng ý tưởng từ phương pháp VisualRank của Jing và Baluja [39] [40] để xếp hạng ảnh cho nhiều phân loại ảnh, do Misur Ambai và Yuichi Yoshida [29] đề xuất Multiclass VisualRank chia các ảnh được trả về từ máy tìm kiếm thành những phân loại khác nhau dựa vào các đặc trưng nội dung của ảnh và tiến hành xếp hạng trong từng phân loại đó Multiclass VisualRank gồm ba bước sau:

o Tính độ tương đồng về nội dung ảnh: Cũng giống như phương pháp VisualRank, Ambai sử dụng giải thuật SIFT để tính độ tương đồng , giữa hai ảnh , Thuật toán VisualRank nguyên thủy sử dụng tỉ số là số các key points chung giữa hai ảnh

và chia cho số key points trung bình lấy được từ , làm độ đo tương đồng giữa hai ảnh đó Tuy nhiên, các máy tìm kiếm ảnh thường trả về cùng một tập ảnh đối với cùng một truy vấn Trong trường hợp này, giá trị trở nên quá lớn so với các độ đo tương đồng khác, và có thể làm cho kết quả phân cụm không còn chính xác Do đó, phương pháp Multiclass VisualRank áp dụng một hàm xích ma vào để làm giảm

các giá trị lớn

o Phân cụm: Bước này tiến hành phân tập các ảnh thành các phân loại khác nhau

dựa vào việc phân cụm các độ đo tương đồng

Nhận thấy rằng, các ảnh càng gần giống nhau thì độ đo tương đồng càng lớn và

đồ thị tương đồng chứa một số cụm ứng với các phân loại ảnh khác nhau Do đó, [29]

sử dụng kỹ thuật Nomarlized cut để phân cụm các bức ảnh trong tập dữ liệu bằng cách phân cụm các độ đo tương đồng trong ma trận tương đồng Công thức phân cụm được

tính như sau:

λ 2.3 Với W là một ma trận kề có các phần tử là các độ đo tương đồng , D là một

ma trận chéo, λ là giá trị riêng và là vector riêng

Trang 37

Hình 5 Biến đổi ma trận kề

o Tính hạng: Tương tự như phương pháp của Jing, Wang cũng sử dụng PageRank

để tính hạng cho các ảnh:

1 2.4Với , … , là vector tính hạng của các ảnh, là thừa số hãm

Bởi vì các ảnh được chia thành các phân loại, điểm số tính hạng của một ảnh thuộc phân loại này không bị ảnh hưởng bởi điểm số tính hạng của các ảnh trong phân loại khác Do đó, ta có thể bỏ đi độ đo tương đồng giữa các phân loại khác nhau, tức là

bỏ đi liên kết giữa các ảnh thuộc về các phân loại khác nhau Khi đó, ma trận kề W được sửa đổi như sau:

ế à ộ ề ù ộ â ạ

0 ượ ạ 2.5

Bằng cách biến đổi ma trận kề W thành ma trận , công việc tính toán đã được giảm đi đáng kể Việc loại bỏ độ đo tương đồng giữa các ảnh thuộc về các phân loại khác nhau làm cho mỗi ảnh trong một phân loại càng giống với đại diện của phân loại

đó thì có thứ hạng càng cao

Trong thực nghiệm, Multiclass VisualRank cho kết quả xếp hạng tốt với độ chính xác xấp xỉ bằng độ chính xác của VisualRank Độ chính xác của 10 ảnh được xếp hạng đầu tiên bằng thuật toán Multiclass VisualRank là 0.949 trong khi đó độ chính xác của VisualRank là 0.953 [29]

Bỏ đi trọng số giữa các phân loại ảnh khác nhau

Tiêu đề	Một Số Thuật Toán Phân Hạng Ảnh Phổ Biến Và Áp Dụng Trong Hệ Thống Tìm Kiếm Ảnh Lớp Trên Thử Nghiệm
Tác giả	Lê Thị Kim Dung
Người hướng dẫn	PGS.TS Hà Quang Thụy, ThS Nguyễn Cẩm Tú
Trường học	Đại Học Quốc Gia Hà Nội - Trường Đại Học Công Nghệ
Chuyên ngành	Công nghệ thông tin
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2010
Thành phố	Hà Nội

Định dạng
Số trang	75
Dung lượng	1,84 MB