1. Trang chủ
  2. » Công Nghệ Thông Tin

bai 22 phan tich lien ket hits 2515

22 65 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 530,26 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Giải thuật HITS Hyperlink-Induced Topic Search HITS, Klei98  Có hai nhóm kết quả phù hợp trên Web:  Nhóm 1: Hubs : Trang giới thiệu: chứa danh sách liên kết có chất lượng cao, đáp ứng

Trang 1

IT4853 Tìm kiếm và trình diễn thông tin

Phân tích liên kết, HITS

Trang 3

Nội dung chính

 Giải thuật HITS

 Tính hội tụ của giải thuật HITS

Trang 4

Giải thuật HITS

 Hyperlink-Induced Topic Search (HITS), Klei98

 Có hai nhóm kết quả phù hợp trên Web:

Nhóm 1: Hubs : Trang giới thiệu: chứa danh sách liên kết

có chất lượng cao, đáp ứng được nhu cầu thông tin.

Nhóm 2: Authorities : Trang uy tín: Có nội dung tốt, trực tiếp đáp ứng nhu cầu thông tin.

 Hầu hết các phương pháp tìm kiếm không phân biệthai nhóm kết quả phù hợp này

Trang 5

Điểm giới thiệu và điểm uy tín

 Trang giới thiệu tốt cho một chủ đề phải chứa nhiều liên kết đến những trang uy tín của chủ đề đó

 Trang uy tín của một chủ đề phải được trích dẫn bởinhiều trang giới thiệu tốt của chủ đề đó

 Định nghĩa quay vòng, sẽ sử dụng phương pháp lặp

để tính điểm giới thiệu và điểm uy tín

Trang 6

Ví dụ trang giới thiệu và trang uy tín

Trang 7

Tính điểm giới thiệu và điểm uy tín

 Đầu tiên, thực hiện tìm kiếm như bình thường

Trang 8

Tập gốc và tập cơ sở

Tập gốc

Tập gốc: Kết quả tìm kiếm thông thường

Trang 9

Tập gốc và tập cơ sở

Các trang với liên kết từ tập gốc

Tập gốc

Trang 10

Tập gốc và tập cơ sở

Các trang với liên kết đến tập gốc

Tập gốc

Trang 11

Tập gốc và tập cơ sở

Tập cơ sở = Tập gốc + Các trang có liên kết với tập gốc

Tập gốc Tập cơ sở

Trang 12

Kích thước tập cơ sở [Klei98]

 Tập gốc thường có 200-1000 nút

 Tập cơ sở có thể có tới 5000 nút

 Tìm các nút tập cơ sở bằng cách nào?

 Theo liên kết đi ra bằng cách đọc các trang trong tập gốc.

 Lấy liên kết đi vào (và liên kết đi ra) từ máy chủ liên kết.

Trang 13

Tìm trang giới thiệu và trang uy tín

 Khởi tạo: với mọi x, h(x)  1; a(x)  1;

 Lặp cập nhật h(x), a(x);

 Sau khi hội tụ

 Đưa ra những trang với với điểm giới thiệu h() cao nhất

 và , những trang với điểm uy tín a() cao nhất.

  Hai danh sách kết quả: theo h() và theo a()!

Trang 14

Cập nhật giá trị

2 3

a4 = h1 + h2 + h31

5 6

4

4

h4 = a5 + a6 + a7

Trang 15

y a

x

h

) (

) (

x y

y h x

a

) (

) (

x

x

y’s

y’s

Trang 16

Tỉ lệ

 Để đảm bảo các giá trị h() và a() không phát triển quá lớn, có thể chia các giá trị cho các hằng số sau mỗi vòng lặp

 Giá trị cụ thể của hằng số tỉ lệ không quan trọng:

 Chúng ta chỉ quan tâm tới kết quả xêp hạng.

Trang 17

Đặc điểm của giải thuật HITS

 Gom những trang chất lượng theo tiêu trí độc

lập với nội dung

 Các trang trong tập cơ sở thường không chứa

từ truy vấn

 Về mặt lý thuyết, có thể trả về các trang tiếng

Nhật cho truy vấn tiếng Anh

Topic drift – Các trang mở rộng có thể hoàn toàn

không liên quan đến câu truy vấn!

Trang 18

Nội dung chính

 Giải thuật HITS

 Tính hội tụ của giải thuật HITS

Trang 19

2 3

0 1 0

1 1 1

1 0 0

A=

Trang 20

Viết lại dưới dạng ma trận

 Gọi h và a là biểu diễn vec-tơ của điểm giới thiệu

và điểm uy tín

 Có thể biểu diễn luật cập nhật như sau:

h=Aa; a=Ath

  h=AAth và a=AtAa

 Như vậy, h là vec-tơ riêng của AAt và a là vec-tơ riêng của AtA

 Có thể xác định các vec-tơ riêng này bằng

phương pháp lũy thừa

Trang 21

So sánh PageRank và HITS

 PageRank có thể tính trước, HITS phải được tính trong quá trình thực hiện truy vấn

 Hạn chế khả năng ứng dụng, khối lượng tính toán lớn.

 … tuy nhiên, có thể hoán đổi vị trí, áp dụng HITS cho toàn bộ Web và PageRank cho tập kết quả!

 Cho rằng, trên Web một trang có điểm giới thiệu cao thường đồng thời có điểm uy tín cao!

  Như vậy khác biệt giữa xếp hạng theo HITS

và theo PageRank có thể không quá lớn

Ngày đăng: 22/12/2019, 13:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN