1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn:Link spam với đồ thị web và hạng trang web ppt

55 622 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Link Spam Với Đồ Thị Web Và Hạng Trang Web
Tác giả Nguyễn Thu Trang
Người hướng dẫn TS. Hà Quang Thụy, CN. Nguyễn Hoài Nam
Trường học Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội
Chuyên ngành Công Nghệ Thông Tin
Thể loại Khoá luận tốt nghiệp
Năm xuất bản 2006
Thành phố Hà Nội
Định dạng
Số trang 55
Dung lượng 742,83 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một số kết quả nghiên cứu của chúng tôi về tính hạng trang webtrong máy tìm kiếm tập trung vào việc đề xuất các cải tiến nhằm tăng tốcthuật toán tính hạng trang và thi hành trên một máy

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Thu Trang

Link spam với đồ thị web

và hạng trang web

Khoá luận tốt nghiệp đại học hệ chính quy

Ngành: Công Nghệ Thông Tin

HÀ NỘI, 2006

Trang 2

Tóm tắt

Bên cạnh sự phát triển của các máy tìm kiếm đặc biệt là các phương pháp tínhhạng trang thì công nghệ spam nhằm đánh lừa máy tìm kiếm để nâng cao hạngcủa các trang web cũng phát triển không ngừng Do vậy một vấn đề đặt ra là phảinhận diện các trang web là spam, và đưa ra giải pháp tính hạng phù hợp chínhxác hơn có loại bỏ spam

Khóa luận với đề tài LinkSpam với đồ thị web và hạng trang web tập trungnghiên cứu các phương pháp nhận diện spam để nâng cao chất lượng hạng trang,

và đề xuất giải pháp tính hạng có xử lý link spam Khóa luận đã tiến hành thửnghiệm với máy tìm kiếm NUTCH cho các thuật toán LinkSpam và thu đượcnhững kết quả khả quan ban đầu Khóa luận cũng giới thiệu các kết quả nghiêncứu của chúng tôi đã được công bố trong [1, 2, 12]

ii

Trang 3

Trước tiên, em xin gửi lời cảm ơn sâu sắc nhất đến thầy giáo TS.HàQuang Thụy và CN Nguyễn Hoài Nam, người đã tận tình hướng dẫn

em trong quá trình thực hiện khóa luận tốt nghiệp

Em chân thành cảm ơn các thầy cô và các cán bộ của trường CôngNghệ đã tạo cho em những điều kiện thuận lợi để học tập và nghiêncứu

Em xin cảm ơn các thầy cô giáo trong bộ môn Các Hệ Thống ThôngTin, và nhóm xemina Data Mining đã giúp đỡ, hỗ trợ em về kiến thứcchuyên môn

Cuối cùng, em muốn cảm ơn gia đình và bạn bè, đặc biệt là bố và mẹ,những người luôn giành cho em tình yêu, niềm tin và động viên giúp

em hoàn thành đề tài

Sinh ViênNguyễn Thu Trang

iii

Trang 4

Mục lục

Danh sách các ký hiệu viii

1 Tổng quan về hạng trang và web spam 3 1.1 Giới thiệu hạng trang và spam 3

1.2 Các công nghệ tạo Spam 5

1.2.1 Spam văn bản 5

1.2.2 Spam liên kết 6

1.2.3 Công nghệ giả dạng 9

1.3 Đồ thị Web 10

1.3.1 Biểu diễn đồ thị Web 10

1.3.2 Mô hình Markov 11

1.4 Tổng kết chương 1 12

2 Một số phương pháp tính hạng trang cơ bản 13 2.1 Phương pháp PageRank 13

2.1.1 Phương pháp 13

2.1.2 Tính hạng trang dựa vào tính chất hội tụ 15

2.1.3 Đánh giá 18

2.2 Phương pháp HITS 18

2.2.1 Thuật toán 18

2.2.2 Đánh giá 20

iv

Trang 5

2.3 Phương pháp CCP 21

2.3.1 Thuật toán 21

2.3.2 Đánh giá 23

3 Các phương pháp xác định LinkSpam 24 3.1 Giới thiệu 24

3.2 Phương pháp TrustRank 25

3.2.1 Nội dung phương pháp 26

3.2.2 Đánh giá phương pháp 29

3.3 Phương pháp xác định Link Farm 30

3.3.1 Nội dung phương pháp 30

3.3.2 Đánh giá 32

3.4 Đề xuất phương pháp cải tiến 34

4 Thử nghiệm 36 4.1 Giới thiệu hệ thống NUTCH 36

4.2 Thử nghiệm 37

4.2.1 Môi trường thử nghiệm 37

4.2.2 Kết quả 37

Kết luận 40 Tài liệu tham khảo 41 A Mã chương trình 43 A.1 Phân tích liên kết 43

A.2 Lọc Spam 44

Trang 6

Danh sách bảng

4.1 Tập các site nhân của link farm 38

vi

Trang 7

1.1 Một cấu trúc liên kết tối ưu nhằm tăng hạng trang 6

1.2 Một dạng spam với trang gốc p0 8

1.3 Một cấu trúc liên kết giữa nhiều spam farm không theo quy luật 8

1.4 Hai spam farm có chia sẻ liên kết với nhau 9

1.5 Một cấu trúc gồm 3 spam farm liên kết theo dạng vòng 9

1.6 Một đồ thị web đơn giản gồm 4 đỉnh, 4 cung 10

2.1 Tốc độ hội tụ 16

2.2 Mô tả tính chất authority và hub 18

2.3 Mở rộng tập cơ sở T từ tập nhân S 19

3.1 Phương pháp phân phối giảm dần 27

3.2 Phương pháp chia đều giá trị trust 28

3.3 Đồ thị gồm 7 trang web đã được đánh dấu trang tốt, xấu 28

3.4 Biểu đồ kết quả thử nghiệm TrustRank [13] 29

3.5 Đồ thị Web nhỏ gồm 6 trang thuộc 6 domain khác nhau 31

3.6 Biểu đồ kết quả phân phối các trang spam [4] 34

vii

Trang 8

Bảng ký hiệu và từ viết tắt

Ký hiệu Ý nghĩa

MAP Modified Adaptive PageRank

HITS Hypertext Induced Topic Search

CCP Connected Component in PageRank

SEOs Search Engine Optimizes

viii

Trang 9

Bài toán tính hạng các đối tượng trên Web (trang Web, tác giả, chủ đề )nói chung, và bài toán tính hạng trang Web nói riêng, có ý nghĩa quan trọngtrong lĩnh vực khai phá Web Trong thời gian gần đây, nhiều công trìnhnghiên cứu trên thế giới giải quyết bài toán tính hạng trang Web, chẳng hạnnhư [3-17], đã được công bố Lớp thuật toán tính hạng trang điển hình nhất

là lớp thuật toán khai thác mối liên kết giữa các trang Web trong một đồthị Web Một số kết quả nghiên cứu của chúng tôi về tính hạng trang webtrong máy tìm kiếm tập trung vào việc đề xuất các cải tiến nhằm tăng tốcthuật toán tính hạng trang và thi hành trên một máy tìm kiếm tiếng Việt

đã được công bố trong [1,2,12]

Hướng người dùng đã trở thành xu hướng nghiên cứu nổi bật về hạngtrang trong thời gian gần đây Trong hai năm gần đây nhất, theo xu hướng

đó là một số lượng đáng kể các công trình nghiên cứu liên quan tới khái niệmspam, điển hình nhất là [3,4,5,8,13,14] , đã được công bố Các công trìnhnghiên cứu này được phân thành hai lớp chính Lớp thứ nhất đề cập tới cácgiải pháp nhằm làm tăng giá trị cơ sở của hạng trang khi tăng cường ngữnghĩa của các liên kết giữa các trang Web nhằm làm phù hợp hơn với ngữcảnh ứng dụng Lớp thứ hai quan tâm tới các giải pháp tính hạng trang hiểnthị khi trình diễn kết quả phù hợp hơn với ngữ cảnh tìm kiếm của người sửdụng

Khóa luận tốt nghiệp với đề tài LinkSpam với đồ thị web và hạng trangweb tiến hành việc khảo sát, phân tích các giải pháp xác định LinkSpam đãđược đề xuất trong hai năm gần đây để từ đó đề xuất các cải tiến giải phápvào việc tính hạng trang trong máy tìm kiếm

Khóa luận này gồm bốn chương nội dung được mô tả sơ bộ như dưới đây.Chương 1 Tổng quan về hạng trang và spam giới thiệu những nội dung

cơ bản nhất về bài toán tính hạng web và sự xuất hiện của các côngnghệ spam nhằm nâng cao hạng trang Ngoài ra, chương này cũng giớithiệu về đồ thị web và cơ sở của thuật toán tính hạng trang

Chương 2 Một số phương pháp tăng tốc tính hạng trang trình bày haiphương pháp tính hạng trang cơ bản, được đề xuất sớm nhất, đã trởthành cơ sở cho các thuật toán tính hạng và xác định WebSpam saunày Đồng thời, chương này cũng giới thiệu thuật toán tính hạng trang

Trang 10

theo khối dựa vào tính chất liên thông, một kết quả nghiên cứu đãđược công bố của chúng tôi.

Chương 3 Các phương pháp xác định LinkSpam khảo sát và phân tích kỹlưỡng các phương pháp xác định LinkSpam và đưa ra những đánh giá

về ưu nhược điểm của chúng trong việc xác định các trang web là spamhay không Đồng thời, chương này cũng trình bày phương pháp xácđịnh LinkSpam do tôi đề xuất dựa trên cơ sở các phân tích đánh giánói trên

Chương 4 Thử nghiệm trên hệ thống NUTCH phân tích hệ thống NUTCH(một máy tìm kiếm mã nguồn mở) và một số cài đặt cải tiến của chúngtôi, đặc biệt đối với thành phần tính hạng trang Web Kết quả thửnghiệm đánh giá phương pháp cho thấy tính khả dụng của nói .Phần kết luận tổng kết và tóm lược nội dung chính của khóa luận

Trang 11

Tổng quan về hạng trang và web spam

Ngày nay, sự phát triển nhanh chóng của mạng Internet đã tạo ra một khối lượngkhổng lồ các tài liệu web chứa đựng thông tin đa dạng và thường xuyên được thayđổi từng ngày từng giờ Tuy nhiên chỉ một phần nhỏ những thông tin đó là hữuích với mỗi người dùng, do vậy một nhu cầu được đặt ra là cần phải xây dựng công

cụ tìm kiếm có chức năng cung cấp các trang web có nội dung đáp ứng yêu cầutìm kiếm của người dùng với thời gian cho phép

Công cụ tìm kiếm trên Internet, mà cụ thể là các máy tìm kiếm, cho phép tìmkiếm từ một tập rất lớn các tài liệu web các trang web liên quan tới câu hỏi củangười dùng Câu hỏi thường là từ khóa hoặc tập các từ khóa Thông thường, kếtquả tìm kiếm các trang Web liên quan đến từ khoá có thể lên tới hàng vạn trang,trong khi người dùng chỉ quan tâm đến một số trong đó Do vậy cần tìm ra cáctrang đáp ứng tốt nhất đối với yêu cầu người dùng để đưa lên trước Việc làm nhưvậy được gọi là tính hạng trang Web của máy tìm kiếm Phương án nguyên thủynhất tính hạng trang Web là tính độ quan trọng của nó Độ quan trọng hay còn gọihạng trang (PageRank) là đại lượng cơ sở để xếp hạng các trang web Các phươngpháp tính hạng trang đều thừa nhận một giả thiết là nếu một trang web mà đượcnhiều trang khác trỏ (link) tới thì trang web đó là quan trọng Do vậy giá trị cơ sởcủa hạng trang được tính toán dựa trên mối liên kết giữa các trang web Phươngpháp tính hạng PageRank và HITS [6, 9] là những thuật toán tính hạng cơ bản,

Trang 12

1.1 GIỚI THIỆU HẠNG TRANG VÀ SPAM 4

nền tảng và đã được áp dụng hiệu quả vào các máy tìm kiếm như Google,Yahoo!.Chúng tôi [1,2,12] đã đề xuất một số cải tiến tính hạng trang Web trong [9] và ápdụng thử nghiệm cho máy tìm kiếm Vinahoo, một máy tìm kiếm tiếng Việt đượcphát triển từ phần mềm nguồn mở máy tìm kiếm ASPseek

Người dùng thường chỉ tập trung vào trang kết quả trả về đầu tiên của máytìm kiếm, tức là trang chứa địa chỉ của 10 trang web đầu tiên tương ứng với truyvấn của người dùng Điều đó có nghĩa là chỉ một phần nhỏ các trang kết quả đượcngười dùng duyệt, xem nội dung Trong khi tạo ra các trang web, đặc biệt là cáctrang thương mại điện tử và quảng cáo, người tạo ra chúng mong muốn và chútrọng tới việc tăng số lượng truy cập vào trang đó Hướng tới mục tiêu như vậy,người tạo trang web cố gắng đưa ra các công nghệ để cải thiện thứ hạng của trangtrong máy tìm kiếm Vì vậy đã xuất hiện khái niệm spam đối với máy tìm kiếmhay web spam1, được Monika Henzinger, Rajeev Motwani và Craig Silverstein đưa

ra trong [7], và trang web sử dụng các kỹ thuật spam đó được gọi là web spam.Đồng thời, các dịch vụ tối ưu hạng trang web và tương ứng, một ngành mới đã rađời - đó là tối ưu máy tìm kiếm (SEOs 2)

Vấn đề web spam còn phải nói đến các trang web với thông tin không đúng,mang những nội dung sai trái Tuy nhiên, khóa luận này chỉ đề cập đến vấn đềspam đối với máy tìm kiếm Trong giới hạn ngữ cảnh như vậy, công nghệ spam làcác kỹ thuật nhằm mục đích nâng cao hạng của các trang web

Ngày nay, spam đã trở thành phổ biến và được thương mại hóa nên một trongnhững vấn đề đặt ra cho máy tìm kiếm là đưa ra độ đo để xác định, loại bỏ spam,nhằm đảm bảo sự chính xác và phù hợp của hạng trang

Các máy tìm kiếm trên mạng đã phát triển và cải tiến công nghệ để nhận diện

và loại bỏ spam Nhưng khi công nghệ tìm kiếm được phát triển thì các kỹ thuậtspam mới cũng được tạo ra tương ứng Do vậy các công nghệ chống spam ở cácmáy tìm kiếm thực tế thường không công khai để hạn chế thông tin nhằm ngănchặn sự phá hoại của những người tạo spam Tuy nhiên, các công nghệ spam đang

và sẽ vẫn tiếp tục được phát triển Vì vậy nghiên cứu vấn đề nhận diện spam vàphát triển các thuật toán tính hạng trang có loại trừ ảnh hưởng của spam là rấtcần thiết và có ý nghĩa Nắm bắt được cách thức tạo spam là tiền đề cần thiết

để nhận diện spam và phát triển các thuật toán tính hạng trang có loại trừ ảnh

1 Trong tài liệu gọi đơn giản là spam

2 Search Engines Optimizers

Trang 13

hưởng của nó Phần dưới đây trình bày các cách thức như vậy.

Theo Monika Henzinger, Rajeev Motwani, và Craig Silverstein [7], công nghệ spam

có thể được chia thành 3 loại chính: spam văn bản (text spam), spam liên kết (linkspam) và giả dạng (cloaking)

1.2.1 Spam văn bản

Tất cả các máy tìm kiếm đều dựa vào nội dung văn bản để quyết định độ phù hợpcủa từng trang theo câu truy vấn (độ đo TFIDF) Từ đó, công nghệ spam văn bảnhướng vào việc thay đổi nội dung văn bản nhằm nâng cao hạng trang theo một sốcách sau đây:

1 Dựa vào các đặc điểm của máy tìm kiếm, tập trung vào một tập nhỏ các từkhóa và cố gắng nâng cao chất lượng của tập từ khóa đó trong văn bản:

• Lặp các từ khóa ở cuối trang để không ảnh hưởng nhiều tới người dùngnhưng lại có ý nghĩa đối với máy tìm kiếm Để không ảnh hưởng nhiềutới người dùng, phần văn bản được lặp đó có thể được tạo với phôngchữ nhỏ, hay được ẩn đi bằng cách sử dụng màu chữ cùng màu nền

• Đưa từ khóa vào phần tiêu đề của trang hay các mục lớn của trang web

Vì các máy tìm kiếm thường đánh giá cao các từ khóa ở tiêu đề

• Thêm các từ khóa vào phần nội dung thẻ META 3, nội dung trong đóđược máy tìm kiếm đánh giá cao do ngầm định ở đó chứa các thông tinquan trọng của trang web Do vậy những người tạo spam có thể lạmdụng thẻ này Ví dụ:

<meta name=“keywords” content=“ máy ảnh, máy quay, máy in, Sony,Canon, Epson, Xerox”>

• Ngoài ra có thể thêm từ khóa vào nội dung của các liên kết (anchortext) Một ví dụ đơn giản:

<a href=“target.html”>máy tính, máy in, PC, Laptop, ổ cứng, HDD,thiết bị, giá rẻ, miễn phí, bảo hành, tiết kiệm </a>

3 Một thẻ hay tag của ngôn ngữ HTML

Trang 14

1.2 CÁC CÔNG NGHỆ TẠO SPAM 6

Hình 1.1: Một cấu trúc liên kết tối ưu nhằm tăng hạng trang

2 Cố gắng tăng số lượng từ khóa của văn bản được đánh giá:

• Cách đơn giản nhất là thêm một tập lớn từ (có thể là cả từ điển) ở cuốitrang web để tăng khả năng được hiển thị cho nhiều truy vấn khác nhaukhả năng trang web đặc biệt với các câu truy vấn không rõ nghĩa

• Thậm chí có thể lặp nội dung của cả văn bản, và đồng thời lặp các từkhóa ở nhiều vị trí trong văn bản

1.2.2 Spam liên kết

Giả thiết được thừa nhận là độ quan trọng của trang phụ thuộc vào số lượng liênkết trỏ tới trang đó là nền tảng của các phương pháp tính hạng trang dựa vào liênkết Đối với các phương pháp tính hạng trang như vậy, máy tìm kiếm có khả năngxác định hạng của trang web độc lập với yêu cầu của người dùng vì chỉ căn cứ vàoliên kết trong đồ thị Web Tuy nhiên, điều đó cũng được những người tạo spam lợidụng để nâng cao hạng trang theo cách thay đổi cấu trúc đồ thị web Đó là côngnghệ link spam4 hay spam liên kết Mục đích nhằm vào các hệ thống dùng phươngpháp tính hạng thô dựa trên số liên kết vào để quyết định độ quan trọng của trangweb như các thuật toán PageRank, HITS (sẽ được trình bày chi tiết ở chương 2).Chúng ta xem xét mô hình cấu trúc liên kết nhằm nâng cao hạng trang được tínhtheo PageRank hình 1.1, theo Z Gyongyi và H Garcia-Molina [14] Trong mô hìnhcó:

4 LinkSpam và link spam là cùng nghĩa

Trang 15

- Các trang "inaccessible" là các trang mà người tạo spam không có quyềnthay đổi, thêm nội dung mới.

- Các trang own là các trang do người tạo spam làm chủ, có toàn quyền sửađổi, tạo mới

- Các trang accessible là các trang không phải own nhưng cho phép viết thêmnội dung (như viết bài trong các blog)

Mục tiêu của người tạo spam là tạo các liên kết có lợi để tăng hạng của mộthay nhiều trang trong nhóm own, nhóm các trang own đó được gọi là spam farm.Như trong mô hình trên là cấu trúc liên kết nhằm nâng cao độ quan trọng củatrang t

Z Gyongyi và H Garcia-Molina [14] đã đưa ra một số kỹ thuật tạo link spamnhằm tăng số liên kết đến và liên kết ra của các trang spam:

1 Những người tạo spam có thể dễ dàng thêm các liên kết ra từ các trang webcủa họ tới các trang tốt, với hi vọng tăng trọng số hub 5 của trang Trên cácsite dmoz.org, Yahoo! có danh sách địa chỉ các web site được phân theocác chủ đề từ lớn đến nhỏ đề rất cụ thể Do vậy những người tạo spam dễdàng lấy thông tin đó đưa vào trang web của mình, từ đó tạo ra một cấutrúc liên kết ngoài rất lớn

2 Việc tăng số liên kết đến của một trang web không đơn như việc thêm cácliên kết ra, những người tạo spam có thể dựa vào một số kỹ thuật:

• Tạo một nhóm các trang web cung cấp các thông tin hữu ích (như cáctài liệu hướng dẫn lập trình Java bằng Tiếng Việt) gọi là trang gốc6,

và từ các trang đó tạo các liên kết đến các trang spam Ví dụ hình 1.2

với p0 là trang gốc, p1 là trang spam Các trang gốc chứa thông tin hữuích nên có khả năng sẽ được nhiều trang khác trỏ tới và sẽ có hạng cao.Những trang gốc này không nhất thiết trùng chủ đề với các trang spam

do mục tiêu nhằm có được các trang có hạng cao và phân chia hạng đócho các trang spam qua các liên kết ra

5 Một độ đo tính theo thuật toán HITS

6 Chỉ dùng trong tài liệu này

Trang 16

1.2 CÁC CÔNG NGHỆ TẠO SPAM 8

Hình 1.2: Một dạng spam với trang gốc p0

Hình 1.3: Một cấu trúc liên kết giữa nhiều spam farm không theo quy luật

• Tạo các bài viết chứa các liên kết tới trang muốn spam tại các trangcho phép viết bài như các trang blog, wiki Để tránh việc kiểm soátcủa những người quản lý, những người tạo spam có thể sử dụng các kỹthuật để che dấu các liên kết đó với người xem nhưng vẫn được xử lýbởi các máy tìm kiếm (như việc sử dụng linh hoạt màu sắc)

• Mua các tên miền đã hết hạn và tận dụng các liên kết sẵn có tới cáctrang web trong đó

• Một kỹ thuật quan trọng đó là việc tạo spam farm (nhóm các trang webspam có liên kết với nhau) Những người tạo spam có thể nắm giữ một

số lượng lớn các site vì vậy họ dễ dàng tạo cấu trúc liên kết tùy ý giữacác trang trong các site của họ nhằm nâng cao hạng của các trang đó

Ví dụ: hình 1.3 với các nút màu xám là các trang spam

• Một nhóm những người tạo spam liên kết lại với nhau và tạo các liên

Trang 17

Hình 1.4: Hai spam farm có chia sẻ liên kết với nhau

Hình 1.5: Một cấu trúc gồm 3 spam farm liên kết theo dạng vòng

kết tới các site của nhau Hình 1.4 là ví dụ với các trang p, q thuộc làhai spam farm

Một phương pháp cơ bản tạo link spam là người tạo spam đặt link farm, mộttập hợp các liên kết trỏ tới tất cả các trang trong cùng site nào đó mà họ muốn,

ở cuối mọi trang web Đây là trường hợp đơn giản của spam farm, do vậy dễ dàngđược máy tìm kiếm nhận ra, nhưng còn có những kỹ thuật khác tinh vi hơn, nhưviệc tạo các web vòng (web-ring) như hình 1.5 với các trang spam r0, p0, q0 cóliên kết tạo vòng, hay tạo nhóm các trang web có mật độ liên kết lớn

1.2.3 Công nghệ giả dạng

Bên cạnh hai kỹ thuật tạo spam trên, giả dạng (cloaking) là kỹ thuật tạo ra nộidung hoàn toàn khác giữa những gì máy tìm kiếm crawl về với những gì sẽ được

Trang 18

1.3 ĐỒ THỊ WEB 10

hiển thị cho người dùng Hơn nữa, kỹ thuật này cũng hướng tới sự khác nhau giữacác lần crawl khác nhau của máy tìm kiếm Việc kết hợp với các kỹ thuật spamvăn bản và spam liên kết cũng được áp dụng cho các trang web trả về cho máytìm kiếm để nâng cao hạng trang Vì vậy máy tìm kiếm bị đánh lừa về nội dungcủa trang web và đưa ra đánh giá hạng trang không chính xác

1.3.1 Biểu diễn đồ thị Web

Web có thể được mô hình như là một đồ thị có hướng G = (V, E ) với tập các đỉnh

V là các trang web (V có n trang, được đánh chỉ số từ 1 tới n) , và tập các cung E làtập các cạnh mà mỗi cạnh ứng với một siêu liên kết giữa hai trang web: E={(i, j)

biểu diễn một đồ thị đơn giản với 4 trang web và có 5 liên kết.(Tuy nhiên có thể

mô hình đồ thị Web với các đỉnh là các site thay vì các trang web, và các liên kếtgiữa các trang khi đó sẽ thay bởi các liên kết giữa các site)

Mỗi trang có các liên kết vào và các liên kết ra, gọi N(p) là số liên kết vào củatrang p và B(p) là số liên kết ra từ trang p Ví dụ trong hình 1.6 số liên kết vàocủa trang 3 là 1 và số liên kết ra là 2

Trên World Wide Web có nhiều trang không có liên đến đến hoặc không có liênkết ra, những trang không có liên kết đến gọi là các trang không được tham chiếu,những trang không có liên kết ra gọi là các trang không tham chiếu và trong đồthị Web nó trở thành các dangling node7

7 Node có bậc bằng 0, không có cung đi ra

Trang 19

Có nhiều cách để biểu diễn một đồ thị có hướng G, ở đây tôi xin giới thiệu haicách biểu diễn đơn giản được sử dụng trong các thuật toán sẽ trình bày ở chươngsau.

Biểu diễn đồ thị Web bởi ma trận kề A:

A = (aij)n×nTrong đó:

aij =

(

1 nếu (i, j) ∈ E

0 nếu (i, j) /∈ EBiểu diễn đồ thị Web bởi ma trận chuyển P:

P = (pij)n×nTrong đó:

pij =

(1/B(i) nếu (i, j) ∈ E

0 nếu (i, j) /∈ EĐặc điểm của ma trận P : các dòng tương ứng với các nút có liên kết ra luôn

có tổng bằng 1, còn các dòng tương ứng với các dangling nút sẽ toàn 0

Trang 20

1.4 TỔNG KẾT CHƯƠNG 1 12

Giả thiết chuỗi Markov được tạo ra bởi các bước duyệt ngẫu nhiên liên tiếptrên đồ thị Web G Khi đó mô hình Markov được biểu diễn bởi ma trận xác suấtchuyển P, là ma trận vuông cấp n (với n là số node trong đồ thị G) với thànhphần pij là xác suất chuyển từ trạng thái i (trang i ) tới trạng thái j (trang j ) chỉvới một bước chuyển

Từ đó, ma trận xác suất chuyển P của mô hình Markov tương đương ma trậnchuyển P trong biểu diễn đồ thị Web (xem mục 1.3.1)

Với pijk là xác suất chuyển từ trạng thái i đến j sau k bước chuyển Theo tínhchất ergodic của xích Markov suy ra có: nếu mini,jpijk > 0 thì tồn tại phân phốidừng (hay bất biến) của xích Markov với ma trận xác suất chuyển P

Với giả thiết đồ thị web là liên thông, khi đó tính chất trên được thỏa mãn.Tức xác suất được duyệt tới của các trang trong đồ thị web là ổn định, và giá trị

đó được coi là hạng trang theo phương pháp PageRank[9]

Xác định và loại bỏ ảnh hưởng của web spam đối với bài toán tính hạng trang làmột vấn đề quan trọng trong máy tìm kiếm Chương này đã giới thiệu về các côngnghệ tạo spam chính hiện nay, trong đó link spam là kỹ thuật đáng quan tâm vì

có ảnh hưởng lớn, trực tiếp đến kết quả tính hạng trang của máy tìm kiếm Cácchương tiếp theo sẽ trình bày các thuật toán tính hạng trang cơ bản và các phươngpháp cải tiến nhằm nâng cao chất lượng tính hạng trang với việc nhận diện và xử

lý link spam

Trang 21

Một số phương pháp tính hạng

trang cơ bản

Để đánh giá độ quan trọng của các trang web, máy tìm kiếm có thể sử dụng cácthuật toán tính hạng độc lập yêu cầu người dùng tức là chỉ dựa vào số lượng cácliên kết giữa các trang web Nhiều thuật toán tính hạng trang đang được sử dụngđều tính toán dựa trên liên kết giữa các trang web với nhau, trong đó các thuậttoán điển hình là PageRank, HITS [6,9] Kết quả nghiên cứu của chúng tôi nhằmtăng tốc tính hạng trang và cài đặt vào máy tìm kiếm cũng được trình bày [2, 12]

2.1.1 Phương pháp

Đây là một trong các phương pháp tính hạng đầu tiên dựa vào mối liên kết giữacác trang Page và các đồng tác giả [9] đã đưa ra ý tưởng: độ quang trọng của mộttrang chịu ảnh hưởng của độ quan trọng từ các trang liên kết đến nó Và công thứctính PageRank cho một trang u, gọi là πu được tính như sau:

Trang 22

Từ (2.2) cho thấy véctơ hạng trang π chính là véctơ riêng của ma trận chuyển

P tương ứng với giá trị riêng λ = 1

Do tính chất của chuỗi Markov, để tính véctơ riêng của P thuật toán giả thiếtrằng đồ thị trang Web là liên thông, tức với cặp hai trang Web i, j bất kì luôn cóđường đi từ i tới j và ngược lại Tuy nhiên thực tế trên World Wide Web (WWW)vẫn tồn tại không ít các trang web không có liên kết đến hoặc liên kết ra nên việcgiả thiết đồ thị Web liên thông là không hợp lý Và trong ma trận P vẫn tồn tạihàng chỉ toàn số 0, nên không tồn tại một phân phối xác suất dừng ổn định của

P hay chính là véctơ hạng trang Vậy cần phải biến đổi ma trận P thành P0 chophù hợp

Định nghĩa véctơ v, được chuẩn hóa k v k= 1, xác định xác suất phân phối với

vi là xác suất trang web i được gọi đến ở lần duyệt web đầu tiên Véctơ v có vai tròtrong việc hướng kết quả PageRank theo chủ đề, lĩnh vực mong muốn Khi khôngxét đến ngữ cảnh đó có thể chọn vi = n1 với ∀i = 1, 2 n

Gọi d là véctơ n × 1 xác định các dangling nút:

Để đảm bảo phân phối dừng ổn định (duy nhất), chuỗi Markov tương ứng vớiquá trình duyệt Web của người dùng cần có tính chất ergodic, tức từ một trang

Trang 23

web người dùng có thể chuyển tới một trang bất kì khác Do vậy ma trận Markove

P được xác định như sau:

Khi đó, thay vì tính vector riêng của ma trận P ta tính vector riêng π của matrận eP :

Có nhiều phương pháp tính véctơ riêng của ma trận nhưng với ma trận rất lớncủa đồ thị các trang web thì không phải phương pháp nào cũng phù hợp Phầnsau sẽ giới thiệu phương pháp lặp tính véctơ riêng của ma trận, tính hạng

2.1.2 Tính hạng trang dựa vào tính chất hội tụ

Page và Brin [9] đã sử dụng phương pháp lặp để tính hạng trang và qua thựcnghiệm họ đưa ra đồ thị hình 2.1 biểu diễn mối quan hệ giữa bước lặp và độ sailệch giữa hai vòng lặp liên tiếp

Từ đồ thị, các tác giả thấy độ sai khác giá trị hạng trang giữa hai vòng lặp liêntiếp giảm tuyến tính theo hàm log n, và tốc độ hội tụ khá nhanh sau khoảng 50vòng lặp Phương pháp tính hạng bằng cách thực hiện các vòng lặp, và từ tính hội

Trang 25

tụ xác định ngưỡng , là sai số chấp nhật được của giá trị hạng trang, làm điềukiện dừng (xem thuật toán 1).

Phương pháp PageRank khá tốt, được áp dụng trong rất nhiều máy tìm kiếmtrên Internet Nhưng do dựa trên vòng lặp, trong khi đồ thị Web có kích thước rấtlớn (khoảng 11,5 tỉ trang web)1 nên thời gian tính toán có thể lên tới nhiều ngày.Điều này ảnh hưởng đến chất lượng của máy tìm kiếm Do vậy, Sepandar Kamvar

và các đồng tác giả [?] đã đưa ra ý tưởng cải tiến để tăng tốc độ tính toán, gọi

là phương pháp Modified Adaptive PageRank hay MAP Và chúng tôi [1] đã tiếnhành thử nghiệm, đưa ra những đánh giá khá tốt về phương pháp này

Qua thực nghiệm tính hạng, các tác giả nhận thấy tốc độ hội tụ của các trang

là không giống nhau Do đó có thể giảm bớt tính toán, tận dụng những trang hội

tụ trước bằng cách không tính lại hạng cho các trang đó ở các vòng lặp tiếp sau.Giả sử tại vòng lặp thứ k, có các tập hợp C các trang có hạng hội tụ theo  và N

là tập các trang có hạng chưa hội tụ Sắp xếp lại ma trận P và véc tơ π ta có:

Trang 26

2.2 PHƯƠNG PHÁP HITS 18

2.1.3 Đánh giá

PageRank là một phương pháp tính hạng khá tốt và quá trình tính toán độc lậpvới người dùng Do vậy quá trình tính toán được thực hiện ngoại tuyến (offline)nên không ảnh hưởng đến tốc độ tìm kiếm

Tuy nhiên, vì thuật toán PageRank không quan tâm đến nội dung của trangweb mà chỉ dựa vào các liên kết giữa các trang web, cụ thể là số lượng lên kết đếnmỗi trang Do đó, với sự ra đời của các công nghệ spam thì giá trị hạng trang sửdụng phương pháp PageRank không còn chính xác

Phương pháp HITS, do Kleinberg đưa ra [6], tính hạng của một trang web khôngchỉ dựa trên một giá trị độ quan trọng như PageRank mà nỗi trang web đượcxác định hai trọng số khác nhau: authority và hub Thuật toán đưa ra dựa trên ýtưởng một trang có giá trị hub tốt là trang mà có nhiều liên kết ra, và một trang

có authority tốt là trang được nhiều trang liên kết tới (hình 2.2)

Trong đó các trọng số hub và authority có quan hệ qua lại với nhau: một trang

có giá trị hub tốt hơn nếu trỏ tới nhiều trang có authority tốt, và những trangđược càng nhiều trang hub tốt trỏ tới thì càng có giá trị authority tốt hơn

Hình 2.2: Mô tả tính chất authority và hub

2.2.1 Thuật toán

Thuật toán chỉ làm việc trên một tập nhỏ các trang web, gọi là đồ thị con, chứkhông phải toàn bộ đồ thị Web Và tùy thuộc vào câu truy vấn của người dùngtức phương pháp tính này không hoàn toàn độc lập người dùng, với mỗi truy vấn

Trang 27

Hình 2.3: Mở rộng tập cơ sở T từ tập nhân S

khác nhau công việc tính toán phải được thực hiện lại Tuy nhiên câu truy vấn chỉ

có vai trò trong việc tạo đồ thị con chứ không ảnh hưởng tới phương pháp tínhtoán Vì vậy trước tiên phải xây dựng đồ thị con các trang tùy theo truy vấn vàsau đó dự vào liên kết giữa các trang trong đồ thị để xác định các giá trị authority

và hub của các trang đến khi hai giá trị đó hội tụ (bằng nhau)

• Tạo đồ thị con hay còn gọi là tập cơ sở S: từ tập nhân gồm các trang chứa,liên quan nhiều đến truy vấn, dựa vào các liên kết đến và liên kết ra của cáctrang trong tập nhân đó để mở rộng đồ thị Việc mở rộng dừng lại khi đồ thịcon đã đủ lớn hoặc đã loang hết tất cả các trang có liên kết đến, hoặc đượcliên kết ra từ tập nhân Việc tìm tập nhân liên quan đến truy vấn có thể xácđịnh dựa vào kết quả tìm kiếm của các máy tìm kiếm khác như Google: tậpnhân được lấy từ các trang đầu tiên có thể là 10 địa chỉ trang web đầu tiênđược trả về tương ứng với truy vấn Hoặc là các trang có địa chỉ chứa nộidung truy vấn, ví dụ với truy vấn “java” thì trang chủ là http://java.sun.com.Các trang web trong đồ thị con S cũng được đánh chỉ số từ 1 đến n và đồthị được biểu diễn bởi ma trận kề A

• Tính giá trị authority và hub của các trang trong tập S Các trọng số thority ai và hub hi của mỗi trang web được khởi tạo bằng 1 và sau đó sẽđược tính dựa theo công thức:

Ngày đăng: 05/03/2014, 18:20

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Một cấu trúc liên kết tối ưu nhằm tăng hạng trang - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 1.1 Một cấu trúc liên kết tối ưu nhằm tăng hạng trang (Trang 14)
Hình 1.3: Một cấu trúc liên kết giữa nhiều spam farm không theo quy luật - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 1.3 Một cấu trúc liên kết giữa nhiều spam farm không theo quy luật (Trang 16)
Hình 1.2: Một dạng spam với trang gốc p 0 - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 1.2 Một dạng spam với trang gốc p 0 (Trang 16)
Hình 1.5: Một cấu trúc gồm 3 spam farm liên kết theo dạng vòng - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 1.5 Một cấu trúc gồm 3 spam farm liên kết theo dạng vòng (Trang 17)
Hình 1.4: Hai spam farm có chia sẻ liên kết với nhau - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 1.4 Hai spam farm có chia sẻ liên kết với nhau (Trang 17)
1.3. ĐỒ THỊ WEB 10 - Luận văn:Link spam với đồ thị web và hạng trang web ppt
1.3. ĐỒ THỊ WEB 10 (Trang 18)
Hình 2.1: Tốc độ hội tụ - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 2.1 Tốc độ hội tụ (Trang 24)
Hình 2.2: Mô tả tính chất authority và hub - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 2.2 Mô tả tính chất authority và hub (Trang 26)
Hình 2.3: Mở rộng tập cơ sở T từ tập nhân S - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 2.3 Mở rộng tập cơ sở T từ tập nhân S (Trang 27)
Hình 3.1: Phương pháp phân phối giảm dần - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 3.1 Phương pháp phân phối giảm dần (Trang 35)
Hình 3.2: Phương pháp chia đều giá trị trust - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 3.2 Phương pháp chia đều giá trị trust (Trang 36)
Hình 3.3: Đồ thị gồm 7 trang web đã được đánh dấu trang tốt, xấu - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 3.3 Đồ thị gồm 7 trang web đã được đánh dấu trang tốt, xấu (Trang 36)
Hình 3.4: Biểu đồ kết quả thử nghiệm TrustRank [13] - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 3.4 Biểu đồ kết quả thử nghiệm TrustRank [13] (Trang 37)
Hình 3.5: Đồ thị Web nhỏ gồm 6 trang thuộc 6 domain khác nhau - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 3.5 Đồ thị Web nhỏ gồm 6 trang thuộc 6 domain khác nhau (Trang 39)
Hình 3.6: Biểu đồ kết quả phân phối các trang spam [4] - Luận văn:Link spam với đồ thị web và hạng trang web ppt
Hình 3.6 Biểu đồ kết quả phân phối các trang spam [4] (Trang 42)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w