1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÁC ĐỊNH WEB SPAM NÂNG CAO CHẤT LƯỢNG TÍNH HẠNG TRONG máy tìm KIẾM

41 292 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xác Định Web Spam Nâng Cao Chất Lượng Tính Hạng Trong Máy Tìm Kiếm
Tác giả Phùng Văn Huy
Người hướng dẫn PGS.TS Hà Quang Thụy, ThS. Nguyễn Thu Trang
Trường học Đại học Công nghệ – Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ Thông tin
Thể loại Khoá luận tốt nghiệp đại học
Năm xuất bản 2009
Thành phố Hà Nội
Định dạng
Số trang 41
Dung lượng 420,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sự phát triển của máy tìm kiếm đã tạo điều kiện thuận lợi cho người dùng sử dụng thông tin từ web. Các trang web không ngừng tìm cách để được lọt vào kết quả trả về của máy tìm kiếm. Trong những cách đó, có một cách gọi là spam. Spam là một kỹ thuật có tác động không tốt đến máy tìm kiếm và người sử dụng. Khóa luận với đề tài “Xác định web spam nâng cao chất lượng tính hạng trong máy tìm kiếm” tập trung làm rõ một số khái niệm liên quan tới web spam, các kỹ thuật spam, giới thiệu những căn cứ, phương pháp được sử dụng để xác định spam. Đồng thời khóa luận cũng đã tiến hành thử nghiệm giải quyết bài toán xác định spam theo cách nhìn nhận nó như một bài toán phân lớp. Kết quả thực nghiệm cho thấy hướng tiếp cận xác định spam bằng phân lớp phù hợp với việc căn cứ vào nội dung hơn là liên kết.

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phùng Văn Huy

XÁC ĐỊNH WEB SPAM NÂNG CAO CHẤT LƯỢNG

TÍNH HẠNG TRONG MÁY TÌM KIẾM

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2009

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phùng Văn Huy

XÁC ĐỊNH WEB SPAM NÂNG CAO CHẤT LƯỢNG

TÍNH HẠNG TRONG MÁY TÌM KIẾM

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS Nguyễn Thu Trang

HÀ NỘI - 2009

Trang 3

Lời cảm ơn

Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo PGS.TS HaQuang Thụy va ThS Nguyễn Thu Trang, những người đã tận tình hướng dẫn em trongsuốt quá trình nghiên cứu khoa học va lam khóa luận tốt nghiệp

Em xin bay tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trongbốn năm qua Những kiến thức ma em nhận được trên giảng đường đại học sẽ la hanhtrang giúp em vững bước trong tương lai

Em cũng muốn gửi lời cảm ơn đến các anh chị va các bạn trong SIS Lab đã cho

em những lời khuyên, lời nhắc nhở về kế hoạch, tiến độ công việc trong quá trìnhnghiên cứu

Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất cả bạn bè, va đặc biệt la chamẹ cùng hai chị, những người luôn kịp thời động viên, giúp đỡ em vượt qua những lúcnản lòng trong học tập nói riêng, trong cuộc sống nói chung

Sinh viênPhùng Văn Huy

Trang 4

Tóm tắt

Sự phát triển của máy tìm kiếm đã tạo điều kiện thuận lợi cho người dùng sửdụng thông tin từ web Các trang web không ngừng tìm cách để được lọt vao kết quảtrả về của máy tìm kiếm Trong những cách đó, có một cách gọi la spam Spam la một

kỹ thuật có tác động không tốt đến máy tìm kiếm va người sử dụng

Khóa luận với đề tai “Xác định web spam nâng cao chất lượng tính hạng trong máy tìm kiếm” tập trung lam rõ một số khái niệm liên quan tới web spam, các kỹ thuật

spam, giới thiệu những căn cứ, phương pháp được sử dụng để xác định spam Đồngthời khóa luận cũng đã tiến hanh thử nghiệm giải quyết bai toán xác định spam theocách nhìn nhận nó như một bai toán phân lớp Kết quả thực nghiệm cho thấy hướngtiếp cận xác định spam bằng phân lớp phù hợp với việc căn cứ vao nội dung hơn laliên kết

Trang 5

Mục lục

Danh sách hình vẽ 6

Mở đầu 1

Chương 1 2

Chương 2 7

Chương 3 12

Chương 4 16

Chương 5 26

Trang 6

Danh sách hình vẽ

Hình 1 Liên kết giữa hai trang web 2

Hình 2 Ví dụ về biểu diễn đồ thị web dựa trên liên kết 3

Hình 3 Một ví dụ về liên kết web khi tính PageRank 9

Hình 4 Trang web spam, với từ khóa “game” va một danh sách các liên kết quảng cáo .17

Hình 5 Trang web spam từ khóa trong thẻ miêu tả 18

Hình 6 Trang web spam từ khóa va liên kết bằng cách ẩn giấu 19

Hình 7 Ví dụ về liên kết va supporter 21

Hình 8 Tỉ lệ giữa lượng Supporter S3 va S4 21

Trang 7

Mở đầu

Ngay nay, khi ma thương mại điện tử ngay cang phát triển thì việc kiếm thu nhập

từ các website cũng ngay cang được hiện thực hóa Một website có lưu lượng ngườitruy cập cang nhiều thì khả năng thu lợi nhuận từ quảng cáo cang cao Người dùng cóthể truy cập đến một website theo ba con đường Con đường thứ nhất đó la họ đã biếttên miền của website đó va trực tiếp gõ nó lên thanh địa chỉ của trình duyệt Conđường thứ hai dẫn họ tới thăm website la từ hanh động nhấp chuột lên liên kết đượcđặt trên website khác Va cuối cùng, con đường thứ ba, đồng thời cũng la con đườngtiềm năng, đưa người dùng đến với website từ các máy tìm kiếm Để có thể tận dụnglượt khách ghé thăm website của mình từ máy tìm kiếm, người chủ trang web cần lamcho nó có khả năng xuất hiện cao trong tập kết quả trả về của máy tìm kiếm Một trongnhững kỹ thuật để thực hiện điều nay la spam Trang web spam đem lại lợi ích chongười chủ của nó, nhưng lại ảnh hưởng xấu tới chất lượng tính hạng của máy tìm kiếm

va do đó lam giảm độ chính xác khi người dùng tìm thông tin trên web bằng máy tìmkiếm Chính vì thế bai toán xác định web spam trở thanh một bai toán cơ bản ma cácnha nghiên cứu, phát triển máy tìm kiếm luôn quan tâm va chú ý [3, 5, 6, 10, 11].Khóa luận trình bay các kỹ thuật spam, các phương pháp xác định spam va tiếnhanh thử nghiệm xác định spam Nội dung của khóa luận đã viết bao gồm năm chươngđược mô tả như dưới đây

Chương 1 Các khái niệm liên quan tới xác định web spam giới thiệu những khái

niệm, những hiểu biết cơ bản nhất để tiếp cận bai toán như đồ thị web, máy tìm kiếm

va spam

Chương 2 Tính hạng trang trong máy tìm kiếm trình bay hai phương pháp tính

hạng trang dựa trên liên kết PageRank va HITS Phương pháp tính hạng trang trongcác máy tìm kiếm hiện nay đều dựa trên nên tảng của hai thuật toán nay

Chương 3 Bài toán xác định web spam chỉ ra lý do spam phát triển, tác hại của

nó, va đặt ra vấn đề cần giải quyết tương ứng dưới dạng diễn tả bai toán

Chương 4 Phương pháp xác định web spam nêu ra một số phương pháp được sử

dụng để xác định web spam, đồng thời trình bay những nhận xét, đánh giá xung quanhcác phương pháp đó

Chương 5 Thực nghiệm và kết quả trình bay phương pháp xác định web spam

ma khóa luận đã đưa vao tiến hanh thử nghiệm Những kết quả của thực nghiệm đượcghi lại, đem so sánh với nhau Chương nay cũng đã nêu lên các nhận định về những

Trang 8

Chương 1

Các khái niệm liên quan tới xác định Web spam

1.1 World Wide Web

World Wide Web (WWW) la một hệ thống các máy chủ trên Internet hỗ trợnhững tai liệu có định dạng đặc biệt viết bởi ngôn ngữ đánh dấu HTML Định dạngđặc biệt đó cho phép tai liệu liên kết được với những tai liệu, tệp tin âm thanh, video

va hình ảnh khác Điều nay có nghĩa la từ một tai liệu bạn có thể chuyển tới tai liệukhác bằng cách đi theo con đường liên kết

Hình 1 Liên kết giữa hai trang webNgười dùng sử dụng các chương trình ứng dụng được gọi la trình duyệt để truy cập tớiWWW Cho tới thời điểm hiện tại, chúng ta có rất nhiều trình duyệt khác nhau, chẳnghạn như Internet Explorer, Mozilla Firefox, Netscape Navigator, Google Chrome…Web site (website) la một vị trí trên WWW Mỗi web site có một trang gọi la trang chủ(đôi khi được gọi la trang mặc định) Nó la tai liệu đầu tiên ma người dùng sẽ thấy khitruy cập vao web site Mỗi web site được sở hữu va quản lý riêng biệt bởi một cá nhân,công ty hoặc một tổ chức

Web page la một tai liệu trên WWW Mỗi một web page thì được xác định bởi mộtURL (Uniform Resource Locator) duy nhất

Ý nghĩa của các website

+ Mỗi trang web thông thường cung cấp những thông tin nhất định về một vấn đề Nócó thể nói về địa chỉ liên hệ của chủ website, tiểu sử của một nha văn, nhận xét củamọi người về một hiện tượng xã hội… Lại có khi, nó chỉ đơn giản la một tác phẩm

liên kết tới

Trang 9

nghệ thuật (văn thơ) được chuyển từ sách báo sang dạng tai liệu số! Nói chung nộidung của website rất đa dạng va phong phú.

+ Mỗi một website khi được xây dựng thì luôn đưa ra những yếu tố mang tính địnhhướng nhất định như nội dung ra sao, nói về cái gì, người dùng hướng tới la ai, sẽ thuđược lợi ích gì… Người dùng với trình duyệt của mình, thông qua kết nối Internet, cóthể ghé thăm các website mọi lúc, mọi nơi Họ truy cập vao các trang thuộc cácwebsite khác nhau với những mục đích phổ biến như tìm hiểu, học tập, giải trí, muabán trực tuyến…

+ Với sự phát triển của công nghệ, cũng như sự cải thiện của đời sống kinh tế xã hội,số lượng các website từ khi ra đời đã không ngừng tăng lên Theo thống kê gần đây(2/2009) từ công ty Netcraft, an Internet monitoring, số lượng các website từ 1995 la18,000 thì đến nay đã tăng lên thanh 215,675,903 Con số nay cho thấy các website lamột nguồn tai nguyên khổng lồ, tiềm tang khả năng khai thác!

Biểu diễn Web bằng đồ thị Web

+ Để minh họa, biểu diễn web đồng thời phục vụ cho việc nghiên cứu, giải quyết mộtsố các bai toán liên quan tới web, người ta sử dụng đồ thị web trên cơ sở sử dụng đặctrưng “liên kết” giữa các trang tai liệu

+ Đồ thị Web la đồ thị G có hướng, mỗi đỉnh tương ứng với một trang tai liệu, cung pi

-> pj cho biết rằng trong trang pi có liên kết trỏ đến trang pj Kí hiệu N(p) la số liên kếtvao trang p, B(p) la số liên kết ra từ trang p (dựa trên số thẻ liên kết <a>) Có hai cáchbiểu diễn G bằng ma trận kề A va ma trận chuyển P

Trang 10

Sự xuất hiện của các máy tìm kiếm

+ Số lượng các trang web ngay cang gia tăng Nội dung các trang cũng ngay cangphong phú Chúng trở thanh một nguồn tai nguyên khổng lồ ma ta có thể tận dụng đểkhai thác, tìm lấy những thông tin hữu ích phục vụ cho mục đích của mình Tuy nhiên,cũng chính vì sự đồ sộ của nguồn tai nguyên đó ma chúng ta gặp ngay phải một vấn đềnảy sinh khi tra cứu Đó la “Nhiều như vậy thì biết đi tìm từ trang nao? Bao giờ mớiđến được một trang ma nó có chứa thông tin giống giống thông tin ta đang tìm? Liệungoai trang đó ra còn có trang nao tương tự để ta có thể tham khảo thêm không? Nếucứ tìm thêm các trang tương tự va hi vọng trong số chúng có thể có trang tốt hơn trongviệc cung cấp thông tin mong muốn thì bao giờ mới xong?” Chính vì thế nhu cầu đặt

ra la phải có một hệ thống cho phép người dùng xác định được tập “nhỏ” các trang đểtìm, sắp xếp các trang trong tập đó theo thứ tự “độ hay” giảm dần, va dĩ nhiên la phảihiển thị ra cho phép người dùng lựa chọn Những hệ thống như thế được đặt tên lamáy tìm kiếm

Theo [2], máy tìm kiếm được định nghĩa la một hệ thống được xây dựng nhằm tiếpnhận yêu cầu tìm kiếm của người dùng, sau đó phân tích yêu cầu nay va tìm kiếmthông tin trong cơ sở dữ liệu tai liệu được tải xuống từ World Wide Web va đưa ra kếtquả la danh sách đã được xếp hạng các trang web có liên quan với yêu cầu cho ngườidùng

Thanh phần cơ bản trong cấu trúc tổng quan của một máy tìm kiếm

 Bộ thu thập dữ liệu (Crawler): Thực hiện nhiệm vụ thăm va tải các trang webvề kho dữ liệu, chờ xử lý Quá trình thăm được thực hiện dựa trên liên kết giữa

Trang 11

các trang web Mục tiêu về chất lượng của bộ phận nay la đảm bảo tính khôngtrùng lặp, tính mới va tốc độ.

 Bộ đánh chỉ mục (Indexer): Được xây dựng nhằm tăng tốc độ truy vấn tìmthông tin trong kho dữ liệu đồ sộ Đánh chỉ mục ngược la một kỹ thuật đánh chỉmục rất hiệu quả ma máy tìm kiếm Google sử dụng

 Bộ tính hạng (Ranker): Bộ phận nay giúp xác định một chỉ số thể hiện độ quantrọng của một trang web Sau đó, dựa trên chỉ số đó, khi trả kết quả tìm kiếmcho người dùng, máy sẽ sắp xếp để ưu tiên hiển thị các trang quan trọng hơntrước

Một số máy tìm kiếm điển hình

+ Trên thế giới

 Nổi tiếng nhất la máy tìm kiếm Google (http://google.com/)

 Tiếp đến có thể kể tới máy tìm kiếm Yahoo

 Live Search cũng la một công cụ tìm kiếm lớn

+ Trong nước

 Nhận thức được các hạn chế của máy tìm kiếm “thế giới”: về qui mô, về ngônngữ,… các máy tìm kiếm ở trong nước ra đời va cố gắng gianh lấy người dùngbản địa Một số máy tìm kiếm được quảng bá va có tên tuổi đó la: Xa lộ(http://xalo.vn/) , Sóc bay (http://socbay.com/) Tuy nhiên trên thực tế, sự rađời của các máy tìm kiếm trong nước chưa đủ sức để thu hút người dùng.Nguyên nhân va cách khắc phục hiện vẫn la một bai toán khó, đang được nhiềunha đầu tư quan tâm

1.3 Giới thiệu Spam và SEO

Web được sử dụng để chia sẻ thông tin, giới thiệu sản phẩm va dịch vụ Số lượng cáctrang web rất lớn va ngay một gia tăng Để tìm kiếm thông tin trên web người dùng sửdụng máy tìm kiếm Với một câu truy vấn, máy tìm kiếm sẽ trả lại cho người dùng mộttập các trang web ma theo máy thì chúng có ích va liên quan gần nhất với sự mong đợicủa người dùng qua câu truy vấn tương ứng Tuy nhiên thực tế tập các trang trả về lakhông nhỏ, do đó máy tìm kiếm phải học cách đánh giá độ quan trọng của các trangtrong tập trả về, để rồi sắp xếp va hiển thị theo thứ tự độ phù hợp/quan trọng giảm dầncho người dùng lựa chọn Thông thường, trong tập các trang trả về, người dùng sẽ truynhập vao các trang được hiển thị đầu tiên Do đó, với nhu cầu quảng bá, chủ sở hữucác trang web sẽ rất muốn trang của mình đứng ở danh sách những trang đầu trong

Trang 12

tập trả về Để điều mong muốn nay thanh sự thật thì các trang web phải được xây dựngsao cho máy tìm kiếm đánh giá rằng độ quan trọng của chúng la cao.

Câu hỏi đặt ra la lam thế nao để máy tìm kiếm đánh giá cao độ quan trọng của trangweb Muốn biết lam thế nao thì phải biết cách thức đánh giá của máy tìm kiếm Để từcách thức đó, chủ trang web sẽ xây dựng, tác động lên các yếu tố nhằm nâng cao thứhạng khi máy tìm kiếm tính hạng trang Cũng từ đó các kỹ thuật SEO (Search EngineOptimization), spam ra đời va phát triển Mặc dù cùng hướng tới việc cải thiện, nângcao hạng trang trong máy tìm kiếm, nhưng SEO la phương pháp tác động tích cực, cònspam thì lại la phương pháp tác động tiêu cực đối với máy tìm kiếm Ranh giới giữaSEO va spam nhiều khi rất khó xác định

Trang 13

Về cơ bản ma nói, chúng ta công nhận rằng, một trang web được nhiều trang webkhác trỏ tới sẽ la một trang web hay Điều nay có thể dễ hiểu hơn khi nhìn vao trongthực tế “Một người ma được nhiều người trong xã hội biết đến thì ắt hẳn người đó phải

la một người có tên tuổi, vị thế nhất định” Áp dụng nhận định khách quan nay, cácphương pháp xếp hạng trang dựa trên liên kết được hình thanh Trong số đó, phươngpháp ra đời sớm va trở thanh kinh điển la phương pháp tính hạng PageRank

Nếu định giá trị của một trang web chỉ dựa trên duy nhất yếu tố liên kết thìdường như có gì đó thiếu sót Bởi lẽ, nội dung của trang cũng rất quan trọng Nhiềukhi đó mới chính la cái đích để người dùng tìm đến trang web Một trang web khôngcó nội dung thu hút, thì người dùng sau khi từ một đường liên kết vô tình truy cập đếnnó, sẽ chẳng bao giờ chủ động quay lại nữa! Vì thế nội dung của trang web cũng la căncứ quan trọng để các máy tìm kiếm sử dụng trong việc tính hạng trang

2.2 Giới thiệu một số phương pháp tính hạng

2.2.1 Phương pháp tính hạng PageRank

- Ý tưởng của phương pháp la “độ quan trọng của một trang web thừa hưởng từ độquan trọng của các trang trực tiếp liên kết tới nó”

- Thuật toán PageRank

Giả sử rằng các trang web tạo thanh một đồ thị liên thông, nghĩa la từ bất kì một trangweb, chúng ta có thể theo các đường liên kết ra để đi đến thăm một trang web bất kìkhác trong đồ thị đó Các trang web được đánh số từ 1, 2,…, n Gọi N(i) la số trangweb có liên kết từ trang i chỉ đến va B(i) la số các trang web có liên kết chỉ đến trang i.Khi đó giá trị PageRank r(i) ứng với trang i được tính theo công thức sau:

Trang 14

i B j

j N j r i

1

khi có i j ( )

ij N j a

AT Tồn tại một số phương pháp tính vectơ riêng của ma trận, tuy nhiên, phương pháplặp la khá thuận tiện va có thể được áp dụng vao việc tính toán vectơ PageRank Quytrình tính toán như sau:

1 s  vector bất kì

4 va trang 5

Trang 15

Hình 3 Một ví dụ về liên kết web khi tính PageRankĐiều nay không phù hợp với thực tế, vì bất kì trang Web nao được xây dựng cũngmang một ngữ nghĩa nao đó tức la có tính quan trọng, hay độ quan trọng của nó phảidương Do vậy, cần điều chỉnh công thức tính PageRank nhờ thêm vao một hệ số hãm

d để bao ham được nội dung nay Công thức PageRank được sửa đổi có dạng như sau:

n d B

j N j r d i r

i j

/)1()()(

*)

Việc thêm “ hệ số hãm “ d (theo thực nghiệm, d=0.85) có ý nghĩa như việc bổ sungthêm giá trị PageRank cho nhóm trang không có link ra ngoai nhóm

Page va Brin [54] cũng chỉ ra rằng các giá trị nay có thể hội tụ khá nhanh, sau khoảng

100 vòng lặp có thể nhận được kết quả với sai số cho phép

- PageRank trong công nghệ tính hạng trang của máy tìm kiếm Google

Theo Google cho biết thì PageRank họ sử dụng phản ánh độ quan trọng của trang webcòn phải được thông qua nhờ việc xem xét hơn 500000 biến, va 2 tỉ thuật ngữ [ref?].Khi ma một trang web có được chỉ số hạng PageRank cao, nó sẽ có nhiều khả năngđược xuất hiện trong những trang đầu của kết quả tìm kiếm cho truy vấn có liên quan

- Chỉ số hạng PageRank của các trang web được Google công bố được lam tròn đếnhang đơn vị, nằm trong đoạn từ 0 tới 10 Còn thực sự trong tính toán thì nó la một giátrị thực có phần lẻ Để nâng thứ hạng PageRank, một trang web cần tích cóp dần từngphần điểm lẻ nhỏ bé Va đó thực sự la một quá trình đòi hỏi nỗ lực lớn!

- Google cập nhật PageRank theo quí Chủ nhân, nha phát triển xây dựng các trangweb va người dùng có thể kiểm tra xem chỉ số PageRank của một trang web bất kỳ saukhi cai đặt thanh công cụ của Google (http://toolbar.google.com/) hoặc sử dụng mộtchương trình của bên thứ ba như www.prchecker.info,

http://www.nirsoft.net/utils/grank.zip

1

Trang 16

- Dưới đây la chỉ số PageRank của một số trang chủ

2.2.2 Phương pháp tính hạng HITS

HITS la viết tắt của Hyperlink-Induced Topic Search, la một thuật toán tính hạng dựa

trên phân tích liên kết được đề xuất bởi John Kleinberg trường đại học Cornell HITSđánh giá độ quan trọng của một trang thông qua hai chỉ số la “authority” va “hub”

- Ý tưởng của thuật toán

+ Trang web có chỉ số authority tốt la trang web được nhiều các trang web khác liênkết vao trỏ tới

+ Trang web có chỉ số hub tốt la trang web có nhiều liên kết ra chỉ đến các trang webkhác

+ Hai chỉ số authority va hub có mối quan hệ gắn bó, bổ sung cho nhau “Một trangweb sẽ có chỉ số authority tốt hơn nếu nó nhận được các liên kết trỏ tới từ những trangcó chỉ số hub tốt Va một trang web sẽ có chỉ số hub tốt hơn nếu các liên kết ra của nótrỏ tới những trang có chỉ số authority tốt.”

Để dễ hình dung hơn về authority va hub ta có thể liên hệ với thực tế tác giả va nhaxuất bản! Một nha xuất bản lớn sẽ có nhiều tác giả xin xuất bản ấn phẩm Nếu các tácgiả la nổi tiếng thì nha xuất bản đó cũng được hưởng lợi khi bán hang Va cũng tương

tự, khi một tác giả nổi tiếng thì họ dễ dang được các nha xuất bản đồng ý cho xuất bảnấn phẩm Nếu các nha xuất bản nay đều la các nha xuất bản lớn thì danh tiếng của tácgiả còn được nâng cao lên nữa

Phương pháp tiến hanh

+ Từ truy vấn của người dùng, xác định một tập S các trang có liên quan tới truy vấn.+ Mở rộng tập S các trang bằng cách lan ra theo các liên kết vao, ra đến một cỡ nhất định

+ Xây dựng đồ thị web G cho tập thu được va tiến hanh tính toán chỉ số hub vaauthority theo giả mã sau (M la số vòng lặp để kết quả đạt đến bộ giá trị hội tụ)

For Each p In G

Trang 17

For Each q In p.GetOutPages ’p->q

p.Hub += q.AuthorNext

độ tìm kiếm

Hạn chế của PageRank la đánh giá cao vai trò của trang web “hang xóm” liền kề đốivới trang đang xem xét, do đó nếu áp dụng PageRank một cách máy móc, người ta cóthể tạo ra các trang “hang xóm” chỉ biết cho liên kết ma không cần nhận để nâng caohạng của một trang!

HITS có tính hướng người dùng bởi cần sinh tập nhân ban đầu dựa trên mức độ liênquan tới truy vấn, nhưng lại đòi hỏi tính toán trực tuyến, do đó lam giảm tốc độ tìmkiếm

Hiện nay, PageRank va HITS vẫn la hai phương pháp tính hạng trang phổ biến nhấtlam nền tảng cho những phương pháp tính hạng khác trong các máy tìm kiếm Chi tiếtphương pháp tính hạng dùng trong thực tế của mỗi máy tìm kiếm không được công bốvì những lý do thương mại va bản quyền

Trang 18

Spam có tác động không tốt tới cả người sử dụng va máy tìm kiếm Đối với ngườidùng, trang web spam lam mất thời gian của họ bởi nội dung nghèo nan ma nó lưu giữ.Đối với máy tìm kiếm, nó không những lam sai lệch kết quả tính hạng ma còn lam tiêutốn băng thông thu thập dữ liệu, tăng thời gian xử lý của CPU va chiếm giữ khônggian lưu trữ.

3.2 Phân loại spam

Các máy tìm kiếm sử dụng những độ đo liên quan tới liên kết va nội dung để tính hạngcho những trang web Do đó, kỹ thuật spam có thể được chia lam hai loại theo yếu tố

ma người spam tác động lên trang web, đó la spam liên kết va spam nội dung.

Các cách spam nội dung ma người spam thường sử dụng

+ Lặp đi lặp lại một thuật ngữ trong trang web, nhằm tăng tần số xuất hiện của thuậtngữ đó

+ Đối với tiếng Anh va một số ngôn ngữ, sử dụng các dạng, biến thể khác nhau của từ

cơ bản Ví dụ, từ gốc la dump, thì trong trang chèn thêm vao cả các từ dumper,dumping, dumpily… Mục đích la lam cho trang có liên quan tới nhiều truy vấn hơn.+ Lấy nội dung từ các trang không spam , chèn thêm vao các từ khóa biến thanh trangcủa mình; hoặc lấy từ mỗi trang không spam một lượng câu nhất định rồi ghép lại

Trang 19

thanh trang của mình Cách thức nay lợi dụng “sự không hiểu biết về ngữ nghĩa” củamáy tìm kiếm va tận dụng các chỉ số thống kê ma máy tìm kiếm hay dùng.

+ Vị trí spam trong trang web la thân trang (body), tiêu đề (title), thẻ miêu tả (metatag), điểm neo (anchor) Ngoai ra còn có thể spam trên chính địa chỉ URL đại diện chotrang

Các cách spam liên kết ma người spam thường sử dụng

+ Tận dụng blog, diễn đan,… viết quá nhiều tin bai, nhiều nhận xét không có ý nghĩavề nội dung hoặc nội dung giả, nội dung lặp nhưng có những liên kết chỉ đến trangđích cần spam để tăng hạng

+ Trao đổi, mua bán liên kết với các trang khác

+ Mua những tên miền hết hạn, tận dụng lại được cái giá trị (lượng truy cập, độ phổbiến…) của những trang web từng gắn liền với tên miền đó

Một kỹ thuật rất thú vị trong spam nữa đó la cloaking Như chúng ta đã biết, bộ phậnthu thập dữ liệu của mỗi máy tìm kiếm đều có một cái tên đặc trưng riêng biệt gọi laUser-Agent để mọi trang web khi được thu thập biết được rằng la một máy tìm kiếmXYZ nao đó đang gửi các yêu cầu HTTP đến lấy dữ liệu về, chứ không phải la cácthông điệp nhằm tấn công từ chối dịch vụ! Trong khi đó, các trình duyệt phổ biến cũngđược xác định bởi những User-Agent khi gửi đi thông điệp HTTP Lợi dụng điều nay,người spam sẽ lập trình trang web, lấy thông tin user-agent va kiểm tra Nếu user-agent đại diện cho một trình duyệt thì truy cập được hiểu la từ một người dùng, nộidung trang HTML được tải bình thường Nhưng nếu user-agent tương ứng la đại diệncho một máy tìm kiếm thì sẽ trả về một trang HTML hoan toan khác Trang HTMLnay sẽ chứa đựng nhưng thông tin spam, lừa máy tìm kiếm nhằm nâng cao thứ hạng!

Ví dụ về User-Agent của máy tìm kiếm, trình duyệt

 DoCoMo/1.0/P502i/c10 (Google CHTML Proxy/1.0)

 Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.10)Gecko/2009042316 Firefox/3.0.10

 Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR2.0.50727; Media Center PC 5.0; NET CLR 3.0.04506)

Kỹ thuật cloaking còn được thực hiện bởi các đoạn mã javascript, thẻ chuyển hướngnhằm đưa người dùng từ một trang web nay tự động sang thăm trang web khác

 <script>location.href=’đường dẫn trang chuyển sang’;</script>

Trang 20

 <meta http-equiv="refresh" content="khoảng thời gian tự động chuyển hướng trang;url= địa chỉ trang chuyển đến" />

Ngoai ra việc sử dụng Cascading Style Sheets, hoặc bai trí mau sắc phông nền trùngvới phông chữ cũng được tận dụng để ẩn giấu nội dung spam, không cho nội dung đóhiển thị trên trình duyệt

 <div style=”display:none;”>nội dung spam ẩn được cho vào đây, và nó sẽ không hiển thị trên trình duyệt</div>

 <font color=”white”>nội dung này sẽ có màu trắng trùng với màu nền trang web nên trở thành vô hình với người dùng, nhưng lại hữu hình với máy tìm kiếm!</font>

Đối với kỹ thuật cloaking, máy tìm kiếm gặp khó khăn để phát hiện, bởi ngay quátrình thu thập các trang web trên mạng Internet cũng đã la cả một vấn đề lớn, chứ chưanói tới quá trình xử lý các mã javascript trên mỗi trang

Sự phát triển của các diễn đan, blog phát triển cũng chính la điểm tựa cho spam pháttriển Bởi lẽ, trong các blog, diễn đan, người sử dụng có thể viết nhận xét, hiệu chỉnhtin bai với các đoạn mã cho phép chèn liên kết, nội dung Người dùng có thể sử dụngcác công cụ, chương trình tự động tạo, kích hoạt tai khoản, tự động đăng nhập để viếtlên các tin bai spam với số lượng không hạn chế! Do đó, chủ sở hữu của các website,blog, diễn đan cũng cần xây dựng những biện pháp nhất định để phòng chống spam,tránh trở thanh mục tiêu tấn công của người spam Bên dưới đây la một số kỹ thuậtthường được sử dụng va có tác dụng hiệu quả

+ Giới hạn số lượng tin bai, nhận xét theo địa chỉ IP trên ngay

+ Giới hạn khoảng thời gian liền kề giữa hai tin bai được gửi lên theo phiên lam việc(đăng nhập)

+ Sử dụng ảnh mã hóa (captcha) ma các chương trình tự động không có khả năng nhậndiện, buộc người dùng phải nhập đúng mã hiển thị trên ảnh thì mới cho phép tin baiđược đăng

+ Hạn chế, hoặc thậm chí có thể vô hiệu hóa các thẻ HTML như thẻ liên kết <a> bằngcách thay kí tự “<” thanh chuỗi “&lt;” khi nhận dữ liệu tin bai gửi lên từ phía máykhách Bởi lẽ đối với trình duyệt khi gặp chuỗi “&lt;” trong mã nguồn, nó cũng sẽ chỉhiển thị thanh kí tự “<”

Ngày đăng: 19/06/2014, 09:29

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w