1. Trang chủ
  2. » Luận Văn - Báo Cáo

phân loại và đánh giá mối liên kết giữa các trang web

14 251 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 857 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Kết quả cuối cùng là một cây quan hệ thể hiện mối quan hệ tương đồng giữa các trang web khác nhau đối với trang web đầu vào.. Các nội dung chính của bài toán như sau: - Phân tích liên kế

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐHQGHN

KHOA CÔNG NGHỆ THÔNG TIN

CÔNG TRÌNH DỰ THI GIẢI THƯỞNG “SINH VIÊN NGHIÊN CỨU KHOA HỌC”

NĂM 2014

ĐỀ TÀI: PHÂN LOẠI VÀ ĐÁNH GIÁ

MỐI LIÊN KẾT GIỮA CÁC TRANG WEB

Sinh viên thực hiện :

Đỗ Văn Phong

Giảng viên hướng dẫn :

PGS.TS Nguyễn Việt Hà

Giảng viên đồng hướng dẫn:

ThS Vũ Quang Dũng

Trang 2

2

Lời mở đầu

Ngày nay, khi mà dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu tài chính, và các dữ liệu tiếp thị ngày càng trở nên nhiều và phức tạp Con người không có đủ thời gian để xem xét dữ liệu như vậy Nhu cầu về việc tiết kiệm thời gian cho thu thập thông tin có ích được đặt ra,cũng dẫn đến nhu cầu về một hệ thống có khả năng phân tích trích xuất ra những thông tin hữu ích theo chủ đề đối với từng người dùng riêng biệt

Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó,

tự động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong nó, và tự động chỉ dẫn các dị thường

Trang 3

3

Mục lục

Lời mở đầu 2

1 Bài toán đặt ra Error! Bookmark not defined. 2 Giải quyết bài toán 6

2.1 Mô hình tổng quát 6

2.2 Cơ sở lý thuyết 6

2.2.1 Thuật toán IEPAD 7

2.3 Trích xuất phân tích mối liên kết giữa các trang web Error! Bookmark not defined. 2.3.1 Xây dựng cây liên hệ ban đầu từ một trang web đầu vào 8

2.3.2 Xây dựng ma trận liên quan và tính trọng số 9

2.4 Trích xuất luật cấu trúc trang web Error! Bookmark not defined. 2.4.1 Tạo bộ sinh luật Error! Bookmark not defined. 2.4.2 Sử dụng bộ sinh luật để rút gọn cây liên hệ Error! Bookmark not defined. 3 Kết luận Error! Bookmark not defined. 3.1 Kết quả đạt được và hạn chế 11

3.2 Hướng phát triển 12

Tài liệu tham khảo 14

Trang 4

4

Danh sách hình vẽ

Hình 1: Mô hình tổng quan hệ thống 6

Hình 2 : Authorities và Hubs 7

Hình 3 : Sơ đồ thuật toán IEPAD 8

Hình 4 : Ví dụ về liên kết trang web 9

Hình 5: Ví dụ về mối quan hệ các trang 10

Hình 6: Ví dụ về mối quan hệ các trang 10

Hình 7: Đồ thị quan hệ ban đầu 11

Hình 8: Đồ thị quan hệ sau khi rút gọn 12

Trang 5

5

1 Đặt vấn đề

Hiện nay, các trang báo mạng trở lên phổ biến đa dạng và phong phú cả về nội dung lẫn hình thức Người dùng sẽ có nhu cầu thu thập thông tin một cách chọn lọc vậy nên nhu cầu tiết kiệm thời gian, công sức cho việc thu thập những thông tin có ích cũng được phát sinh Vì vậy tôi muốn xây dựng một hệ thống có thể hỗ trợ người dùng thu thập những bài báo liên quan tới chủ đề mà họ đang đọc

Tuy nhiên các thông tin trên các trang web theo những cấu trúc rất khác nhau nguồn dữ liệu được tổ chức rất phong phú và phức tạp Vậy để đáp ứng được nhu cầu thu thập và xử lý dữ liệu chúng ta sẽ tập trung vào trích xuất dữ liệu từ những trang web có cấu trúc tương đồng và dùng nó để xây dựng đồ thị quan hệ giữa các trang web Kết quả cuối cùng là một cây quan hệ thể hiện mối quan hệ tương đồng giữa các trang web khác nhau đối với trang web đầu vào

Các nội dung chính của bài toán như sau:

- Phân tích liên kết giữa các bài viết trong các trang web dựa trên việc tìm kiếm những link liên quan tới chính bài viết đó

- Lọc và loại bỏ bớt những link ít liên quan hơn tới bài viết ban đầu

- Trích xuất ra luật cấu trúc của bài báo ban đầu và so sánh nó với các bài báo trong cây quan hệ để tìm ra điểm tương đồng và điểm đặc trưng cho mỗi trang báo

Trong đó:

- Cây quan hệ :

o Là mạng lưới thể hiện sự quan hệ giữa các bài báo, những bài báo có liên quan tới nhau là những bài báo cùng có liên quan tới các keyword đặc trưng của phân lớp

mà bài báo đó thuộc vào Một bài báo có thể thuộc nhiều phân lớp

o Mạng lưới quan hệ có thể được rút gọn dần dần bằng việc loại bỏ dần đi các bài báo không có mối quan hệ với nhau

- Luật cấu trúc:

o Là các quy tắc của cấu trúc trang web mà từ bộ luật đó ta có thể biết được vị trí các layout chứa nội dung chính nằm ở đâu cũng như các layout khác Từ bộ luật ta có thể dùng để so sánh các trang web vơi nhau để kiểm tra sự tương đồng về cấu trúc

tạo thuận lợi để trích xuất dữ liệu

Trang 6

6

2 Giải quyết vấn đề

2.1 Mô hình tổng quát

Sơ đồ tổng quan của hệ thống:

Hình 1: Mô hình tổng quan hệ thống

2.2 Cơ sở lý thuyết

2.2.1 Thuật toán HITS

Đây là thuật toán được tôi sử dụng trong việc tìm ra mối liên hệ giữa các trang web và dùng để xây dựng nên mạng lưới quan hệ ở mức ban đầu

HITS [3] – Hypertext Include Topic Seclection, thuật toán HITS là một thuật toán phân tích liên kết mà đánh giá ở mức các trang web, được phát triển bởi Jon Kleingberg Đây là một tiền thân của PageRank Ý tưởng bắt nguồn từ một cái nhìn tổng quan vào các trang web trên Internet ban đầu được hình thành, đó là tập hợp các trang web nào đó, được gọi là hub, đáp ứng các chỉ mục lớn nhưng nó không có những thông tin đó mà nó được sử dụng như tài liệu sưu tập của các danh mục lớn

Để có được các thông tin người sử dụng trực tiếp truy cập vào các chỉ mục đó để dấn tới các trang web có chứa thông tin Nói cách khác, một hub tốt đại diện cho một trang trỏ tới nhiều trang khác, và một authority tốt đại diện cho một trang mà được liên kết bởi các hub khác nhau

Trang 7

7

Thuật toán HITS là một trong những thuật toán trích xuất chủ đề nổi tiếng Đưa

ra một tập các trang web về một chủ đề khoa học, thuật toán HITS tính toán số điểm authority (đó là biểu thị cho nội dung liên quan) và số điểm hub (một biểu thị cho liên kết liên quan) cho mỗi trang web Việc tính toán được thực hiện như sau, trong đó q → p ký hiệu trang q có một liên kết trỏ đến trang p

𝑎(𝑝) = ∑ ℎ(𝑞)

𝑞→𝑝

ℎ(𝑞) = ∑ 𝑎(𝑝)

𝑞→𝑝

Ví dụ về cách tính a(p) và h(q) được biểu diễn trên Hình 3:

Hình 2 : Authorities và Hubs

2.2.2 Thuật toán IEPAD

Trọng tâm của việc giải quyết bài toán trích xuất luật chính là thuật toán IEPAD Thuật toán này cho phép nhận một trang web đầu vào và đưa ra bộ luật của trang web đó chính là trật tự, cấu trúc sắp xếp của các layout trong trang web đó

Một hệ thống iepad bao gồm 3 thành phần:

- extraction rule generator: Nhận đầu vào là một webpage và trích xuất ra

các luật trong webpage đó

- pattern viewer: giao diện đồ họa cho người sử dụng

- extractor module: trích xuất ra những thông tin mong muốn từ những

webpage tương tự khác

Trang 8

8

Trọng tâm chính của công nghệ này chính là extraction rule generator

Hình 3 : Sơ đồ thuật toán IEPAD

Kết quả trả về của bộ extraction rule Generator này là một bộ luật được trích xuất ra từ webpage đầu vào

Khi người dùng submit một webpage html vào IEPAD bộ translator sẽ chuyển mã của webpage này thành một file nhị phân Từ file nhị phân này PART Tree Contructor sẽ tạo lên một cây PAT.Bộ khai phá ra cấu trúc sẽ dựa vào cây PAT này để tìm ra những cấu trúc lặp lại được gọi là maximal repeats Maximal repeats sẽ được chuyển cho bộ Validator để lọc bỏ những cấu trúc không cần thiết Cuối cùng Rule Composer sẽ lọc lại những luật đó và tổng hợp để đưa ra kết

quả cuối cùng

2.3 Chi tiết hệ thống

2.3.1 Xây dựng cây liên hệ ban đầu từ một trang web đầu vào

Để xây dựng được cây ban đầu tôi sẽ sử dụng kết quả đã được nêu ra trong [6], đây chính là phương pháp trích xuất các mối liên hệ giữa các trang web dựa vào các link có trong bài viết

Phương pháp đó sẽ tìm và lấy tất cả các liên kết từ trang web đầu vào

Trang 9

9

Ví dụ về link liên quan:

Hình 4 : Ví dụ về liên kết trang web

Như hình trên các bạn có thể thấy phần trong khung đen chính là các liên kết đến các trang khác

Các trang có quan hệ được định nghĩa là các trang có link liên kết tới nhau

Từ mối liên hệ được tìm nhờ [6] đó ta sẽ tiến hành xây dựng nên một cây diễn tả mối liên hệ giữa các trang web khác đối với trang web đầu vào

2.3.2 Xây dựng ma trận liên quan và tính trọng số

Ở phần này tôi sẽ sử dụng thuật toán HITS để giải quyết vấn đề, ý tưởng chính của phương pháp này là sử dụng chính các mối quan hệ giữa các trang web để nói lên độ liên quan của từng trang web Các trang web được trỏ tới càng nhiều thì có

độ tin cậy càng cao

Trang 10

10

Ví dụ về các trang web có độ tin cậy cao đối với từ khóa là “CAR ranking”:

Hình 5: Ví dụ về mối quan hệ các trang

Tương tự như vậy từ đồ thị đã được xây dựng trong bước trước tôi sẽ tiến hành đánh giá và kiểm tra các mức độ liên kết giữa các trang web trong đó Để đơn giản tôi dưa ra một ví dụ minh họa cho việc tính độ tin cậy của trang web trong một đồ thị liên hệ hết sức đơn giản

Ví dụ về đồ thị:

Hình 6: Ví dụ về mối quan hệ các trang

Đối với một đồ thị đơn giản như trên ta sẽ xây dựng được một ma trận thể hiện mối quan hệ tương ứng như sau:

Với ma trận trên ta sẽ đi tìm những vector trọng số theo thuật toán HITS như

sau:

Trang 11

11

Trong ví dụ này thì vector v thể hiện trọng số của mỗi node chính là vector cho

biết mức độ liên quan của node đối với trang web đầu vào (điểm càng cao độ liên

quan càng lớn)

Sau đó sẽ tiến hành loại bỏ đi các node có điểm thấp để thu được một cây có các

node quan hệ với nhau ở mức độ chặt chẽ hơn

2.4 Kết quả đạt được và hạn chế

2.4.1 Kết quả đạt được

- Hệ thống đã bước đầu xây dựng được mô hình cây quan hệ Từ trang

web đầu vào hệ thống tiến hành bóc tách ra các link liên quan và xây

dựng lên cây quan hệ Mối quan hệ được diễn ta tới tầng thứ ba, tức là

tới node con của con trang web đầu vào

Cây ban đầu xây dựng là mô phỏng lại các liên kết giữa các trang web

ở mức sơ lược Trong cây này vẫn còn nhiều các trang web có mức độ

liên quan tới trang web đầu vào ở mức thấp Mối liên quan ở đây mới

chỉ thể hiện ở việc một bài viết có link tới bài viết khác hay không

Hình 7: Đồ thị quan hệ ban đầu

Trang 12

12

- Từ cây quan hệ đó, hệ thống đã sử dụng thuật toán HITS để xây dựng

lên ma trận quan hệ, sau đó dựa vào ma trận quan hệ để tính trọng số và

cuối cùng thu được một cây nhỏ hơn chính xác hơn

Cây sau khi làm mịn đã được thu nhỏ hơn mức độ tương quan với nhau

đã được nâng cao nhờ thuật toán trích xuất chủ đề HITS

Hình 8: Đồ thị quan hệ sau khi rút gọn

2.4.2 Hạn chế

- Các node trong cây còn chứa các trang index, chưa phân biệt được các

trang index và trang thường

- Hệ thống chưa trích xuất được nội dung bài báo để phân tích mức độ

liên quan trực tiếp từ nội dung bài báo

2.5 Hướng phát triển

- Hoàn thành việc cài đặt thuật toán IEPAD để trích xuất luật cấu trúc

- Từ thuật toán IEPAD tiến hành bóc tách nội dung và phân biệt trang

index cũng như phân biệt các loại báo điện tử khác nhau

Trang 13

13

2.6 Kết luận

Mặc dù hệ thống đang trong quá trình hoàn thiện nhưng ta có thể thấy ứng dụng thiết thực của nó vào trong đời sống hàng ngày Với cách cài đặt đơn giản thì chúng ta sẽ có thể ứng dụng vào trong các ứng dụng nhỏ trên mobile như ứng dụng đọc báo và xem tin tức Hệ thống có thể mở rộng và phát triển để trở thành hệ thống back-end trong các ứng dụng lớn hơn có ứng dụng cụ thể vào đời sống

Trang 14

14

Tài liệu tham khảo

[1] Data-rich Section Extraction from HTML pages - Jiying Wang và Fred H Lochovsky

[2] B T Hiển, “Hệ thống phân loại và đánh chỉ mục dữ liệu web,” Khóa luận tốt nghiệp đại học hệ chính quy, 2013

[3] H Q Thụy, Giáo trình Khai phá dữ liệu Web, Giáo Dục Việt Nam

[4] IEPAD: Information Extraction Based on Pattern Discovery - ChiaHui Chang và ShaoChen Lui

[5] http://www.w3schools.com/

[6] Trương Văn Hưng, “PHÂN TÍCH VÀ TRÍCH XUẤT WEB LAYOUT” công trình dự thi giải thưởng “sinh viên nghiên cứu khoa học” 2014

Ngày đăng: 08/10/2015, 13:34

HÌNH ẢNH LIÊN QUAN

Sơ đồ tổng quan của hệ thống: - phân loại và đánh giá mối liên kết giữa các trang web
Sơ đồ t ổng quan của hệ thống: (Trang 6)
Hình 2 : Authorities và Hubs - phân loại và đánh giá mối liên kết giữa các trang web
Hình 2 Authorities và Hubs (Trang 7)
Hình 3 : Sơ đồ thuật toán IEPAD - phân loại và đánh giá mối liên kết giữa các trang web
Hình 3 Sơ đồ thuật toán IEPAD (Trang 8)
Hình 4 : Ví dụ về liên kết trang web - phân loại và đánh giá mối liên kết giữa các trang web
Hình 4 Ví dụ về liên kết trang web (Trang 9)
Hình 5: Ví dụ về mối quan hệ các trang - phân loại và đánh giá mối liên kết giữa các trang web
Hình 5 Ví dụ về mối quan hệ các trang (Trang 10)
Hình 6: Ví dụ về mối quan hệ các trang - phân loại và đánh giá mối liên kết giữa các trang web
Hình 6 Ví dụ về mối quan hệ các trang (Trang 10)
Hình 7: Đồ thị quan hệ ban đầu - phân loại và đánh giá mối liên kết giữa các trang web
Hình 7 Đồ thị quan hệ ban đầu (Trang 11)
Hình 8: Đồ thị quan hệ sau khi rút gọn - phân loại và đánh giá mối liên kết giữa các trang web
Hình 8 Đồ thị quan hệ sau khi rút gọn (Trang 12)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w