XÁC ĐỊNH WEB SPAM NÂNG CAO CHẤT LƯỢNG TÍNH HẠNG TRONG máy tìm KIẾM

Sự phát triển của máy tìm kiếm đã tạo điều kiện thuận lợi cho người dùng sử dụng thông tin từ web. Các trang web không ngừng tìm cách để được lọt vào kết quả trả về của máy tìm kiếm. Trong những cách đó, có một cách gọi là spam. Spam là một kỹ thuật có tác động không tốt đến máy tìm kiếm và người sử dụng. Khóa luận với đề tài “Xác định web spam nâng cao chất lượng tính hạng trong máy tìm kiếm” tập trung làm rõ một số khái niệm liên quan tới web spam, các kỹ thuật spam, giới thiệu những căn cứ, phương pháp được sử dụng để xác định spam. Đồng thời khóa luận cũng đã tiến hành thử nghiệm giải quyết bài toán xác định spam theo cách nhìn nhận nó như một bài toán phân lớp. Kết quả thực nghiệm cho thấy hướng tiếp cận xác định spam bằng phân lớp phù hợp với việc căn cứ vào nội dung hơn là liên kết.

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phùng Văn Huy

XÁC ĐỊNH WEB SPAM NÂNG CAO CHẤT LƯỢNG

TÍNH HẠNG TRONG MÁY TÌM KIẾM

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

HÀ NỘI - 2009

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phùng Văn Huy

XÁC ĐỊNH WEB SPAM NÂNG CAO CHẤT LƯỢNG

TÍNH HẠNG TRONG MÁY TÌM KIẾM

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS Nguyễn Thu Trang

HÀ NỘI - 2009

Trang 3

Lời cảm ơn

Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo PGS.TS HaQuang Thụy va ThS Nguyễn Thu Trang, những người đã tận tình hướng dẫn em trongsuốt quá trình nghiên cứu khoa học va lam khóa luận tốt nghiệp

Em xin bay tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy em trongbốn năm qua Những kiến thức ma em nhận được trên giảng đường đại học sẽ la hanhtrang giúp em vững bước trong tương lai

Em cũng muốn gửi lời cảm ơn đến các anh chị va các bạn trong SIS Lab đã cho

em những lời khuyên, lời nhắc nhở về kế hoạch, tiến độ công việc trong quá trìnhnghiên cứu

Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất cả bạn bè, va đặc biệt la chamẹ cùng hai chị, những người luôn kịp thời động viên, giúp đỡ em vượt qua những lúcnản lòng trong học tập nói riêng, trong cuộc sống nói chung

Sinh viênPhùng Văn Huy

Trang 4

Tóm tắt

Sự phát triển của máy tìm kiếm đã tạo điều kiện thuận lợi cho người dùng sửdụng thông tin từ web Các trang web không ngừng tìm cách để được lọt vao kết quảtrả về của máy tìm kiếm Trong những cách đó, có một cách gọi la spam Spam la một

kỹ thuật có tác động không tốt đến máy tìm kiếm va người sử dụng

Khóa luận với đề tai “Xác định web spam nâng cao chất lượng tính hạng trong máy tìm kiếm” tập trung lam rõ một số khái niệm liên quan tới web spam, các kỹ thuật

spam, giới thiệu những căn cứ, phương pháp được sử dụng để xác định spam Đồngthời khóa luận cũng đã tiến hanh thử nghiệm giải quyết bai toán xác định spam theocách nhìn nhận nó như một bai toán phân lớp Kết quả thực nghiệm cho thấy hướngtiếp cận xác định spam bằng phân lớp phù hợp với việc căn cứ vao nội dung hơn laliên kết

Trang 5

Mục lục

Danh sách hình vẽ 6

Mở đầu 1

Chương 1 2

Chương 2 7

Chương 3 12

Chương 4 16

Chương 5 26

Trang 6

Danh sách hình vẽ

Hình 1 Liên kết giữa hai trang web 2

Hình 2 Ví dụ về biểu diễn đồ thị web dựa trên liên kết 3

Hình 3 Một ví dụ về liên kết web khi tính PageRank 9

Hình 4 Trang web spam, với từ khóa “game” va một danh sách các liên kết quảng cáo .17

Hình 5 Trang web spam từ khóa trong thẻ miêu tả 18

Hình 6 Trang web spam từ khóa va liên kết bằng cách ẩn giấu 19

Hình 7 Ví dụ về liên kết va supporter 21

Hình 8 Tỉ lệ giữa lượng Supporter S3 va S4 21

Trang 7

Mở đầu

Ngay nay, khi ma thương mại điện tử ngay cang phát triển thì việc kiếm thu nhập

từ các website cũng ngay cang được hiện thực hóa Một website có lưu lượng ngườitruy cập cang nhiều thì khả năng thu lợi nhuận từ quảng cáo cang cao Người dùng cóthể truy cập đến một website theo ba con đường Con đường thứ nhất đó la họ đã biếttên miền của website đó va trực tiếp gõ nó lên thanh địa chỉ của trình duyệt Conđường thứ hai dẫn họ tới thăm website la từ hanh động nhấp chuột lên liên kết đượcđặt trên website khác Va cuối cùng, con đường thứ ba, đồng thời cũng la con đườngtiềm năng, đưa người dùng đến với website từ các máy tìm kiếm Để có thể tận dụnglượt khách ghé thăm website của mình từ máy tìm kiếm, người chủ trang web cần lamcho nó có khả năng xuất hiện cao trong tập kết quả trả về của máy tìm kiếm Một trongnhững kỹ thuật để thực hiện điều nay la spam Trang web spam đem lại lợi ích chongười chủ của nó, nhưng lại ảnh hưởng xấu tới chất lượng tính hạng của máy tìm kiếm

va do đó lam giảm độ chính xác khi người dùng tìm thông tin trên web bằng máy tìmkiếm Chính vì thế bai toán xác định web spam trở thanh một bai toán cơ bản ma cácnha nghiên cứu, phát triển máy tìm kiếm luôn quan tâm va chú ý [3, 5, 6, 10, 11].Khóa luận trình bay các kỹ thuật spam, các phương pháp xác định spam va tiếnhanh thử nghiệm xác định spam Nội dung của khóa luận đã viết bao gồm năm chươngđược mô tả như dưới đây

Chương 1 Các khái niệm liên quan tới xác định web spam giới thiệu những khái

niệm, những hiểu biết cơ bản nhất để tiếp cận bai toán như đồ thị web, máy tìm kiếm

va spam

Chương 2 Tính hạng trang trong máy tìm kiếm trình bay hai phương pháp tính

hạng trang dựa trên liên kết PageRank va HITS Phương pháp tính hạng trang trongcác máy tìm kiếm hiện nay đều dựa trên nên tảng của hai thuật toán nay

Chương 3 Bài toán xác định web spam chỉ ra lý do spam phát triển, tác hại của

nó, va đặt ra vấn đề cần giải quyết tương ứng dưới dạng diễn tả bai toán

Chương 4 Phương pháp xác định web spam nêu ra một số phương pháp được sử

dụng để xác định web spam, đồng thời trình bay những nhận xét, đánh giá xung quanhcác phương pháp đó

Chương 5 Thực nghiệm và kết quả trình bay phương pháp xác định web spam

ma khóa luận đã đưa vao tiến hanh thử nghiệm Những kết quả của thực nghiệm đượcghi lại, đem so sánh với nhau Chương nay cũng đã nêu lên các nhận định về những

Trang 8

Chương 1

Các khái niệm liên quan tới xác định Web spam

1.1 World Wide Web

World Wide Web (WWW) la một hệ thống các máy chủ trên Internet hỗ trợnhững tai liệu có định dạng đặc biệt viết bởi ngôn ngữ đánh dấu HTML Định dạngđặc biệt đó cho phép tai liệu liên kết được với những tai liệu, tệp tin âm thanh, video

va hình ảnh khác Điều nay có nghĩa la từ một tai liệu bạn có thể chuyển tới tai liệukhác bằng cách đi theo con đường liên kết

Hình 1 Liên kết giữa hai trang webNgười dùng sử dụng các chương trình ứng dụng được gọi la trình duyệt để truy cập tớiWWW Cho tới thời điểm hiện tại, chúng ta có rất nhiều trình duyệt khác nhau, chẳnghạn như Internet Explorer, Mozilla Firefox, Netscape Navigator, Google Chrome…Web site (website) la một vị trí trên WWW Mỗi web site có một trang gọi la trang chủ(đôi khi được gọi la trang mặc định) Nó la tai liệu đầu tiên ma người dùng sẽ thấy khitruy cập vao web site Mỗi web site được sở hữu va quản lý riêng biệt bởi một cá nhân,công ty hoặc một tổ chức

Web page la một tai liệu trên WWW Mỗi một web page thì được xác định bởi mộtURL (Uniform Resource Locator) duy nhất

Ý nghĩa của các website

+ Mỗi trang web thông thường cung cấp những thông tin nhất định về một vấn đề Nócó thể nói về địa chỉ liên hệ của chủ website, tiểu sử của một nha văn, nhận xét củamọi người về một hiện tượng xã hội… Lại có khi, nó chỉ đơn giản la một tác phẩm

liên kết tới

Trang 9

nghệ thuật (văn thơ) được chuyển từ sách báo sang dạng tai liệu số! Nói chung nộidung của website rất đa dạng va phong phú.

+ Mỗi một website khi được xây dựng thì luôn đưa ra những yếu tố mang tính địnhhướng nhất định như nội dung ra sao, nói về cái gì, người dùng hướng tới la ai, sẽ thuđược lợi ích gì… Người dùng với trình duyệt của mình, thông qua kết nối Internet, cóthể ghé thăm các website mọi lúc, mọi nơi Họ truy cập vao các trang thuộc cácwebsite khác nhau với những mục đích phổ biến như tìm hiểu, học tập, giải trí, muabán trực tuyến…

+ Với sự phát triển của công nghệ, cũng như sự cải thiện của đời sống kinh tế xã hội,số lượng các website từ khi ra đời đã không ngừng tăng lên Theo thống kê gần đây(2/2009) từ công ty Netcraft, an Internet monitoring, số lượng các website từ 1995 la18,000 thì đến nay đã tăng lên thanh 215,675,903 Con số nay cho thấy các website lamột nguồn tai nguyên khổng lồ, tiềm tang khả năng khai thác!

Biểu diễn Web bằng đồ thị Web

+ Để minh họa, biểu diễn web đồng thời phục vụ cho việc nghiên cứu, giải quyết mộtsố các bai toán liên quan tới web, người ta sử dụng đồ thị web trên cơ sở sử dụng đặctrưng “liên kết” giữa các trang tai liệu

+ Đồ thị Web la đồ thị G có hướng, mỗi đỉnh tương ứng với một trang tai liệu, cung pi

-> pj cho biết rằng trong trang pi có liên kết trỏ đến trang pj Kí hiệu N(p) la số liên kếtvao trang p, B(p) la số liên kết ra từ trang p (dựa trên số thẻ liên kết <a>) Có hai cáchbiểu diễn G bằng ma trận kề A va ma trận chuyển P

Trang 10

Sự xuất hiện của các máy tìm kiếm

+ Số lượng các trang web ngay cang gia tăng Nội dung các trang cũng ngay cangphong phú Chúng trở thanh một nguồn tai nguyên khổng lồ ma ta có thể tận dụng đểkhai thác, tìm lấy những thông tin hữu ích phục vụ cho mục đích của mình Tuy nhiên,cũng chính vì sự đồ sộ của nguồn tai nguyên đó ma chúng ta gặp ngay phải một vấn đềnảy sinh khi tra cứu Đó la “Nhiều như vậy thì biết đi tìm từ trang nao? Bao giờ mớiđến được một trang ma nó có chứa thông tin giống giống thông tin ta đang tìm? Liệungoai trang đó ra còn có trang nao tương tự để ta có thể tham khảo thêm không? Nếucứ tìm thêm các trang tương tự va hi vọng trong số chúng có thể có trang tốt hơn trongviệc cung cấp thông tin mong muốn thì bao giờ mới xong?” Chính vì thế nhu cầu đặt

ra la phải có một hệ thống cho phép người dùng xác định được tập “nhỏ” các trang đểtìm, sắp xếp các trang trong tập đó theo thứ tự “độ hay” giảm dần, va dĩ nhiên la phảihiển thị ra cho phép người dùng lựa chọn Những hệ thống như thế được đặt tên lamáy tìm kiếm

Theo [2], máy tìm kiếm được định nghĩa la một hệ thống được xây dựng nhằm tiếpnhận yêu cầu tìm kiếm của người dùng, sau đó phân tích yêu cầu nay va tìm kiếmthông tin trong cơ sở dữ liệu tai liệu được tải xuống từ World Wide Web va đưa ra kếtquả la danh sách đã được xếp hạng các trang web có liên quan với yêu cầu cho ngườidùng

Thanh phần cơ bản trong cấu trúc tổng quan của một máy tìm kiếm

 Bộ thu thập dữ liệu (Crawler): Thực hiện nhiệm vụ thăm va tải các trang webvề kho dữ liệu, chờ xử lý Quá trình thăm được thực hiện dựa trên liên kết giữa

Trang 11

các trang web Mục tiêu về chất lượng của bộ phận nay la đảm bảo tính khôngtrùng lặp, tính mới va tốc độ.

 Bộ đánh chỉ mục (Indexer): Được xây dựng nhằm tăng tốc độ truy vấn tìmthông tin trong kho dữ liệu đồ sộ Đánh chỉ mục ngược la một kỹ thuật đánh chỉmục rất hiệu quả ma máy tìm kiếm Google sử dụng

 Bộ tính hạng (Ranker): Bộ phận nay giúp xác định một chỉ số thể hiện độ quantrọng của một trang web Sau đó, dựa trên chỉ số đó, khi trả kết quả tìm kiếmcho người dùng, máy sẽ sắp xếp để ưu tiên hiển thị các trang quan trọng hơntrước

Một số máy tìm kiếm điển hình

+ Trên thế giới

 Nổi tiếng nhất la máy tìm kiếm Google (http://google.com/)

 Tiếp đến có thể kể tới máy tìm kiếm Yahoo

 Live Search cũng la một công cụ tìm kiếm lớn

+ Trong nước

 Nhận thức được các hạn chế của máy tìm kiếm “thế giới”: về qui mô, về ngônngữ,… các máy tìm kiếm ở trong nước ra đời va cố gắng gianh lấy người dùngbản địa Một số máy tìm kiếm được quảng bá va có tên tuổi đó la: Xa lộ(http://xalo.vn/) , Sóc bay (http://socbay.com/) Tuy nhiên trên thực tế, sự rađời của các máy tìm kiếm trong nước chưa đủ sức để thu hút người dùng.Nguyên nhân va cách khắc phục hiện vẫn la một bai toán khó, đang được nhiềunha đầu tư quan tâm

1.3 Giới thiệu Spam và SEO

Web được sử dụng để chia sẻ thông tin, giới thiệu sản phẩm va dịch vụ Số lượng cáctrang web rất lớn va ngay một gia tăng Để tìm kiếm thông tin trên web người dùng sửdụng máy tìm kiếm Với một câu truy vấn, máy tìm kiếm sẽ trả lại cho người dùng mộttập các trang web ma theo máy thì chúng có ích va liên quan gần nhất với sự mong đợicủa người dùng qua câu truy vấn tương ứng Tuy nhiên thực tế tập các trang trả về lakhông nhỏ, do đó máy tìm kiếm phải học cách đánh giá độ quan trọng của các trangtrong tập trả về, để rồi sắp xếp va hiển thị theo thứ tự độ phù hợp/quan trọng giảm dầncho người dùng lựa chọn Thông thường, trong tập các trang trả về, người dùng sẽ truynhập vao các trang được hiển thị đầu tiên Do đó, với nhu cầu quảng bá, chủ sở hữucác trang web sẽ rất muốn trang của mình đứng ở danh sách những trang đầu trong

Trang 12

tập trả về Để điều mong muốn nay thanh sự thật thì các trang web phải được xây dựngsao cho máy tìm kiếm đánh giá rằng độ quan trọng của chúng la cao.

Câu hỏi đặt ra la lam thế nao để máy tìm kiếm đánh giá cao độ quan trọng của trangweb Muốn biết lam thế nao thì phải biết cách thức đánh giá của máy tìm kiếm Để từcách thức đó, chủ trang web sẽ xây dựng, tác động lên các yếu tố nhằm nâng cao thứhạng khi máy tìm kiếm tính hạng trang Cũng từ đó các kỹ thuật SEO (Search EngineOptimization), spam ra đời va phát triển Mặc dù cùng hướng tới việc cải thiện, nângcao hạng trang trong máy tìm kiếm, nhưng SEO la phương pháp tác động tích cực, cònspam thì lại la phương pháp tác động tiêu cực đối với máy tìm kiếm Ranh giới giữaSEO va spam nhiều khi rất khó xác định

Trang 13

Về cơ bản ma nói, chúng ta công nhận rằng, một trang web được nhiều trang webkhác trỏ tới sẽ la một trang web hay Điều nay có thể dễ hiểu hơn khi nhìn vao trongthực tế “Một người ma được nhiều người trong xã hội biết đến thì ắt hẳn người đó phải

la một người có tên tuổi, vị thế nhất định” Áp dụng nhận định khách quan nay, cácphương pháp xếp hạng trang dựa trên liên kết được hình thanh Trong số đó, phươngpháp ra đời sớm va trở thanh kinh điển la phương pháp tính hạng PageRank

Nếu định giá trị của một trang web chỉ dựa trên duy nhất yếu tố liên kết thìdường như có gì đó thiếu sót Bởi lẽ, nội dung của trang cũng rất quan trọng Nhiềukhi đó mới chính la cái đích để người dùng tìm đến trang web Một trang web khôngcó nội dung thu hút, thì người dùng sau khi từ một đường liên kết vô tình truy cập đếnnó, sẽ chẳng bao giờ chủ động quay lại nữa! Vì thế nội dung của trang web cũng la căncứ quan trọng để các máy tìm kiếm sử dụng trong việc tính hạng trang

2.2 Giới thiệu một số phương pháp tính hạng

2.2.1 Phương pháp tính hạng PageRank

- Ý tưởng của phương pháp la “độ quan trọng của một trang web thừa hưởng từ độquan trọng của các trang trực tiếp liên kết tới nó”

- Thuật toán PageRank

Giả sử rằng các trang web tạo thanh một đồ thị liên thông, nghĩa la từ bất kì một trangweb, chúng ta có thể theo các đường liên kết ra để đi đến thăm một trang web bất kìkhác trong đồ thị đó Các trang web được đánh số từ 1, 2,…, n Gọi N(i) la số trangweb có liên kết từ trang i chỉ đến va B(i) la số các trang web có liên kết chỉ đến trang i.Khi đó giá trị PageRank r(i) ứng với trang i được tính theo công thức sau:

Trang 14

i B j

j N j r i

1

khi có i j ( )

ij N j a

AT Tồn tại một số phương pháp tính vectơ riêng của ma trận, tuy nhiên, phương pháplặp la khá thuận tiện va có thể được áp dụng vao việc tính toán vectơ PageRank Quytrình tính toán như sau:

1 s  vector bất kì

4 va trang 5

Trang 15

Hình 3 Một ví dụ về liên kết web khi tính PageRankĐiều nay không phù hợp với thực tế, vì bất kì trang Web nao được xây dựng cũngmang một ngữ nghĩa nao đó tức la có tính quan trọng, hay độ quan trọng của nó phảidương Do vậy, cần điều chỉnh công thức tính PageRank nhờ thêm vao một hệ số hãm

d để bao ham được nội dung nay Công thức PageRank được sửa đổi có dạng như sau:

n d B

j N j r d i r

i j

/)1()()(

*)

∈

Việc thêm “ hệ số hãm “ d (theo thực nghiệm, d=0.85) có ý nghĩa như việc bổ sungthêm giá trị PageRank cho nhóm trang không có link ra ngoai nhóm

Page va Brin [54] cũng chỉ ra rằng các giá trị nay có thể hội tụ khá nhanh, sau khoảng

100 vòng lặp có thể nhận được kết quả với sai số cho phép

- PageRank trong công nghệ tính hạng trang của máy tìm kiếm Google

Theo Google cho biết thì PageRank họ sử dụng phản ánh độ quan trọng của trang webcòn phải được thông qua nhờ việc xem xét hơn 500000 biến, va 2 tỉ thuật ngữ [ref?].Khi ma một trang web có được chỉ số hạng PageRank cao, nó sẽ có nhiều khả năngđược xuất hiện trong những trang đầu của kết quả tìm kiếm cho truy vấn có liên quan

- Chỉ số hạng PageRank của các trang web được Google công bố được lam tròn đếnhang đơn vị, nằm trong đoạn từ 0 tới 10 Còn thực sự trong tính toán thì nó la một giátrị thực có phần lẻ Để nâng thứ hạng PageRank, một trang web cần tích cóp dần từngphần điểm lẻ nhỏ bé Va đó thực sự la một quá trình đòi hỏi nỗ lực lớn!

- Google cập nhật PageRank theo quí Chủ nhân, nha phát triển xây dựng các trangweb va người dùng có thể kiểm tra xem chỉ số PageRank của một trang web bất kỳ saukhi cai đặt thanh công cụ của Google (http://toolbar.google.com/) hoặc sử dụng mộtchương trình của bên thứ ba như www.prchecker.info,

http://www.nirsoft.net/utils/grank.zip

1

Trang 16

- Dưới đây la chỉ số PageRank của một số trang chủ

2.2.2 Phương pháp tính hạng HITS

HITS la viết tắt của Hyperlink-Induced Topic Search, la một thuật toán tính hạng dựa

trên phân tích liên kết được đề xuất bởi John Kleinberg trường đại học Cornell HITSđánh giá độ quan trọng của một trang thông qua hai chỉ số la “authority” va “hub”

- Ý tưởng của thuật toán

+ Trang web có chỉ số authority tốt la trang web được nhiều các trang web khác liênkết vao trỏ tới

+ Trang web có chỉ số hub tốt la trang web có nhiều liên kết ra chỉ đến các trang webkhác

+ Hai chỉ số authority va hub có mối quan hệ gắn bó, bổ sung cho nhau “Một trangweb sẽ có chỉ số authority tốt hơn nếu nó nhận được các liên kết trỏ tới từ những trangcó chỉ số hub tốt Va một trang web sẽ có chỉ số hub tốt hơn nếu các liên kết ra của nótrỏ tới những trang có chỉ số authority tốt.”

Để dễ hình dung hơn về authority va hub ta có thể liên hệ với thực tế tác giả va nhaxuất bản! Một nha xuất bản lớn sẽ có nhiều tác giả xin xuất bản ấn phẩm Nếu các tácgiả la nổi tiếng thì nha xuất bản đó cũng được hưởng lợi khi bán hang Va cũng tương

tự, khi một tác giả nổi tiếng thì họ dễ dang được các nha xuất bản đồng ý cho xuất bảnấn phẩm Nếu các nha xuất bản nay đều la các nha xuất bản lớn thì danh tiếng của tácgiả còn được nâng cao lên nữa

Phương pháp tiến hanh

+ Từ truy vấn của người dùng, xác định một tập S các trang có liên quan tới truy vấn.+ Mở rộng tập S các trang bằng cách lan ra theo các liên kết vao, ra đến một cỡ nhất định

+ Xây dựng đồ thị web G cho tập thu được va tiến hanh tính toán chỉ số hub vaauthority theo giả mã sau (M la số vòng lặp để kết quả đạt đến bộ giá trị hội tụ)

For Each p In G

Trang 17

For Each q In p.GetOutPages ’p->q

p.Hub += q.AuthorNext

độ tìm kiếm

Hạn chế của PageRank la đánh giá cao vai trò của trang web “hang xóm” liền kề đốivới trang đang xem xét, do đó nếu áp dụng PageRank một cách máy móc, người ta cóthể tạo ra các trang “hang xóm” chỉ biết cho liên kết ma không cần nhận để nâng caohạng của một trang!

HITS có tính hướng người dùng bởi cần sinh tập nhân ban đầu dựa trên mức độ liênquan tới truy vấn, nhưng lại đòi hỏi tính toán trực tuyến, do đó lam giảm tốc độ tìmkiếm

Hiện nay, PageRank va HITS vẫn la hai phương pháp tính hạng trang phổ biến nhấtlam nền tảng cho những phương pháp tính hạng khác trong các máy tìm kiếm Chi tiếtphương pháp tính hạng dùng trong thực tế của mỗi máy tìm kiếm không được công bốvì những lý do thương mại va bản quyền

Trang 18

Spam có tác động không tốt tới cả người sử dụng va máy tìm kiếm Đối với ngườidùng, trang web spam lam mất thời gian của họ bởi nội dung nghèo nan ma nó lưu giữ.Đối với máy tìm kiếm, nó không những lam sai lệch kết quả tính hạng ma còn lam tiêutốn băng thông thu thập dữ liệu, tăng thời gian xử lý của CPU va chiếm giữ khônggian lưu trữ.

3.2 Phân loại spam

Các máy tìm kiếm sử dụng những độ đo liên quan tới liên kết va nội dung để tính hạngcho những trang web Do đó, kỹ thuật spam có thể được chia lam hai loại theo yếu tố

ma người spam tác động lên trang web, đó la spam liên kết va spam nội dung.

Các cách spam nội dung ma người spam thường sử dụng

+ Lặp đi lặp lại một thuật ngữ trong trang web, nhằm tăng tần số xuất hiện của thuậtngữ đó

+ Đối với tiếng Anh va một số ngôn ngữ, sử dụng các dạng, biến thể khác nhau của từ

cơ bản Ví dụ, từ gốc la dump, thì trong trang chèn thêm vao cả các từ dumper,dumping, dumpily… Mục đích la lam cho trang có liên quan tới nhiều truy vấn hơn.+ Lấy nội dung từ các trang không spam , chèn thêm vao các từ khóa biến thanh trangcủa mình; hoặc lấy từ mỗi trang không spam một lượng câu nhất định rồi ghép lại

Trang 19

thanh trang của mình Cách thức nay lợi dụng “sự không hiểu biết về ngữ nghĩa” củamáy tìm kiếm va tận dụng các chỉ số thống kê ma máy tìm kiếm hay dùng.

+ Vị trí spam trong trang web la thân trang (body), tiêu đề (title), thẻ miêu tả (metatag), điểm neo (anchor) Ngoai ra còn có thể spam trên chính địa chỉ URL đại diện chotrang

Các cách spam liên kết ma người spam thường sử dụng

+ Tận dụng blog, diễn đan,… viết quá nhiều tin bai, nhiều nhận xét không có ý nghĩavề nội dung hoặc nội dung giả, nội dung lặp nhưng có những liên kết chỉ đến trangđích cần spam để tăng hạng

+ Trao đổi, mua bán liên kết với các trang khác

+ Mua những tên miền hết hạn, tận dụng lại được cái giá trị (lượng truy cập, độ phổbiến…) của những trang web từng gắn liền với tên miền đó

Một kỹ thuật rất thú vị trong spam nữa đó la cloaking Như chúng ta đã biết, bộ phậnthu thập dữ liệu của mỗi máy tìm kiếm đều có một cái tên đặc trưng riêng biệt gọi laUser-Agent để mọi trang web khi được thu thập biết được rằng la một máy tìm kiếmXYZ nao đó đang gửi các yêu cầu HTTP đến lấy dữ liệu về, chứ không phải la cácthông điệp nhằm tấn công từ chối dịch vụ! Trong khi đó, các trình duyệt phổ biến cũngđược xác định bởi những User-Agent khi gửi đi thông điệp HTTP Lợi dụng điều nay,người spam sẽ lập trình trang web, lấy thông tin user-agent va kiểm tra Nếu user-agent đại diện cho một trình duyệt thì truy cập được hiểu la từ một người dùng, nộidung trang HTML được tải bình thường Nhưng nếu user-agent tương ứng la đại diệncho một máy tìm kiếm thì sẽ trả về một trang HTML hoan toan khác Trang HTMLnay sẽ chứa đựng nhưng thông tin spam, lừa máy tìm kiếm nhằm nâng cao thứ hạng!

Ví dụ về User-Agent của máy tìm kiếm, trình duyệt

 DoCoMo/1.0/P502i/c10 (Google CHTML Proxy/1.0)

 Mozilla/5.0 (Windows; U; Windows NT 5.1; en-GB; rv:1.9.0.10)Gecko/2009042316 Firefox/3.0.10

 Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; SLCC1; .NET CLR2.0.50727; Media Center PC 5.0; NET CLR 3.0.04506)

Kỹ thuật cloaking còn được thực hiện bởi các đoạn mã javascript, thẻ chuyển hướngnhằm đưa người dùng từ một trang web nay tự động sang thăm trang web khác

 <script>location.href=’đường dẫn trang chuyển sang’;</script>

Trang 20

 <meta http-equiv="refresh" content="khoảng thời gian tự động chuyển hướng trang;url= địa chỉ trang chuyển đến" />

Ngoai ra việc sử dụng Cascading Style Sheets, hoặc bai trí mau sắc phông nền trùngvới phông chữ cũng được tận dụng để ẩn giấu nội dung spam, không cho nội dung đóhiển thị trên trình duyệt

 <div style=”display:none;”>nội dung spam ẩn được cho vào đây, và nó sẽ không hiển thị trên trình duyệt</div>

 <font color=”white”>nội dung này sẽ có màu trắng trùng với màu nền trang web nên trở thành vô hình với người dùng, nhưng lại hữu hình với máy tìm kiếm!</font>

Đối với kỹ thuật cloaking, máy tìm kiếm gặp khó khăn để phát hiện, bởi ngay quátrình thu thập các trang web trên mạng Internet cũng đã la cả một vấn đề lớn, chứ chưanói tới quá trình xử lý các mã javascript trên mỗi trang

Sự phát triển của các diễn đan, blog phát triển cũng chính la điểm tựa cho spam pháttriển Bởi lẽ, trong các blog, diễn đan, người sử dụng có thể viết nhận xét, hiệu chỉnhtin bai với các đoạn mã cho phép chèn liên kết, nội dung Người dùng có thể sử dụngcác công cụ, chương trình tự động tạo, kích hoạt tai khoản, tự động đăng nhập để viếtlên các tin bai spam với số lượng không hạn chế! Do đó, chủ sở hữu của các website,blog, diễn đan cũng cần xây dựng những biện pháp nhất định để phòng chống spam,tránh trở thanh mục tiêu tấn công của người spam Bên dưới đây la một số kỹ thuậtthường được sử dụng va có tác dụng hiệu quả

+ Giới hạn số lượng tin bai, nhận xét theo địa chỉ IP trên ngay

+ Giới hạn khoảng thời gian liền kề giữa hai tin bai được gửi lên theo phiên lam việc(đăng nhập)

+ Sử dụng ảnh mã hóa (captcha) ma các chương trình tự động không có khả năng nhậndiện, buộc người dùng phải nhập đúng mã hiển thị trên ảnh thì mới cho phép tin baiđược đăng

+ Hạn chế, hoặc thậm chí có thể vô hiệu hóa các thẻ HTML như thẻ liên kết <a> bằngcách thay kí tự “<” thanh chuỗi “<” khi nhận dữ liệu tin bai gửi lên từ phía máykhách Bởi lẽ đối với trình duyệt khi gặp chuỗi “<” trong mã nguồn, nó cũng sẽ chỉhiển thị thanh kí tự “<”

Tiêu đề	Xác Định Web Spam Nâng Cao Chất Lượng Tính Hạng Trong Máy Tìm Kiếm
Tác giả	Phùng Văn Huy
Người hướng dẫn	PGS.TS Hà Quang Thụy, ThS. Nguyễn Thu Trang
Trường học	Đại học Công nghệ – Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ Thông tin
Thể loại	Khoá luận tốt nghiệp đại học
Năm xuất bản	2009
Thành phố	Hà Nội

Định dạng
Số trang	41
Dung lượng	420,5 KB