WEB MINING với giải thuật SOM và ứng dụng cho máy tìm kiếm VINAHOO

Có thể nói, chúng ta đang bị “ngập” trong dữ liệu, và để có thể khai thác thông tin một cách hiệu quả từ những “núi” dữ liệu khổng lồ đó, chúng ta phải viện đến sự hỗ trợ của các công cụ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

DƯ PHƯƠNG HẠNH

WEB MINING với giải thuật SOM và ứng dụng

cho máy tìm kiếm VINAHOO

luËn v¨n th¹c sÜ CÔNG NGHỆ THÔNG TIN

Hµ néi - 2005

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

DƯ PHƯƠNG HẠNH

WEB MINING với giải thuật SOM và ứng dụng

cho máy tìm kiếm VINAHOO

luËn v¨n th¹c sÜ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: TS Hà Quang Thuỵ

Hµ néi - 2005

Trang 3

Formatted: Dutch (Netherlands)

Mở đầu 53

Lời cảm ơn 75

Các từ viết tắt 86

Chương 1 Phân cụm dữ liệu Text và Web 97

1.1 Khai phá dữ liệu Text và các mô hình biểu diễn dữ liệu………

97 1.1.1 Khai phá dữ liệu Text 97

1.1.2 Các mô hình biểu diễn dữ liệu text 97

1.1.2.1 Mô hình không gian véc tơ 108

1.1.2.2 Đánh chỉ mục theo ngữ nghĩa tiềm tàng 119

1.1.2.3 Phép chiếu ngẫu nhiên 119

1.1.2.4 Phân cụm từ khoá 119

1.2 Phân cụm dữ liệu trong khai phá WEB………

1210 1.2.1 Bài toán phân cụm trang Web 1210

1.2.2 Sơ bộ về ứng dụng thuật toán SOM trong phân cụm Web 1614

Chương 2 Phương pháp WEBSOM và bộ công cụ SOM Toolbox 1816

2.1 Mạng nơ ron………

1816 2.1.1 Mạng nơ ron sinh học 1816

2.1.2 Mạng nơ ron nhân tạo 1917

2.1.2.1 Cấu tạo mạng nơ ron nhân tạo 1917

2.1.2.2 Mô hình nơ ron 1917

2.2 Thuật toán SOM………

2220 2.3 Phương pháp WEBSOM………

2725 2.3.1 Mã hóa tài liệu 3028

2.3.2 Xây dựng bản đồ (document map) 3129

2.3.2.1 Xây dựng bản đồ dựa trên phần bản đồ nhỏ hơn đã được hình thành trước đó 3129

Trang 4

2.3.2.2 Các thao tác hoàn thiện, làm mịn trên bản đồ 3230

2.4 Công cụ SOM Toolbox………

3432 2.4.1 Định dạng dữ liệu 3432

2.4.2 Xây dựng các tập dữ liệu 3533

2.4.3 Tiền xử lý dữ liệu 3937

2.4.4 Khởi tạo và huấn luyện 3937

2.4.5 Biểu diễn và phân tích 4038

Chương 3 Ứng dụng phương pháp WEBSOM trong bài toán phân cụm trang Web… 4240

3.1 Thử nghiệm thi hành WEBSOM phân cụm trang Web………

4240 3.1.1 Cấu trúc cơ sở dữ liệu trong máy tìm kiếm Vinahoo 4240

3.1.2 Cấu trúc một số bảng chính trong cơ sở dữ liệu MySQL của Vinahoo ……….42

40 3.1.3 Cấu trúc một số file nhị phân trong cơ sở dữ liệu của Vinahoo 4644 3.1.3.1 Cấu trúc các file nhị phân trong thư mục xxw: 4644

3.1.3.2 Cấu trúc các file nhị phân trong thư mục Deltas 4745

3.1.4 Tiến hành thử nghiệm 4846

3.1.5 Đánh giá kết quả thực nghiệm 5149

3.2 Đề xuất giải pháp ứng dụng phương pháp WEBSOM trong máy tìm kiếm Vinahoo………

5351 KẾT LUẬN 5553

Tài liệu tham khảo 5754

Mở đầu 3

Lời cảm ơn 5

Các từ viết tắt 6

Trang 5

Chương 1 Phân cụm dữ liệu Text và Web 7

1.1 Khai phá dữ liệu Text và các mô hình biểu diễn dữ liệu 7 1.1.1 Khai phá dữ liệu Text 7

1.1.2 Các mô hình biểu diễn dữ liệu text 7

1.1.2.1 Mô hình không gian véc tơ 8

1.1.2.2 Đánh chỉ mục theo ngữ nghĩa tiềm tàng 9

1.1.2.3 Phép chiếu ngẫu nhiên 9

1.1.2.4 Phân cụm từ khoá 9

1.2 Phân cụm dữ liệu trong khai phá WEB 10 1.2.1 Bài toán phân cụm trang Web 10

1.2.2 Sơ bộ về ứng dụng thuật toán SOM trong phân cụm Web 14

Chương 2 Phương pháp WEBSOM và bộ công cụ SOM Toolbox 16

2.1 Mạng nơ ron 16 2.1.1 Mạng nơ ron sinh học 16

2.1.2 Mạng nơ ron nhân tạo 17

2.1.2.1 Cấu tạo mạng nơ ron nhân tạo 17

2.1.2.2 Mô hình nơ ron 17

2.2 Thuật toán SOM 20 2.3 Phương pháp WEBSOM 25 2.3.1 Mã hóa tài liệu 28

2.3.2 Xây dựng bản đồ (document map) 29

2.3.2.1 Xây dựng bản đồ dựa trên phần bản đồ nhỏ hơn đã được hình thành trước đó 29

2.3.2.2 Các thao tác hoàn thiện, làm mịn trên bản đồ 30

2.4 Công cụ SOM Toolbox 32 2.4.1 Định dạng dữ liệu 32

2.4.2 Xây dựng các tập dữ liệu 33

2.4.3 Tiền xử lý dữ liệu 37

2.4.4 Khởi tạo và huấn luyện 37

2.4.5 Biểu diễn và phân tích 38

Trang 6

Chương 3 Ứng dụng phương pháp WEBSOM trong bài toán phân cụm

trang Web 40

3.1 Cấu trúc cơ sở dữ liệu trong máy tìm kiếm Vinahoo 40

3.1.1 Cấu trúc một số bảng chính trong cơ sở dữ liệu MySQL của

Vinahoo 40

3.1.2 Cấu trúc một số file nhị phân trong cơ sở dữ liệu của Vinahoo 44

3.1.2.1 Cấu trúc các file nhị phân trong thư mục xxw: 44

3.1.2.2 Cấu trúc các file nhị phân trong thư mục Deltas 45

3.2 Cơ chế thực thi quá trình crawler trong module index của máy tìm

3.2.1 Mô hình thực thi của module đánh chỉ số (index) trong Vinahoo

Error! Bookmark not defined.

3.2.2 Quá trình crawler trong Vinahoo Error! Bookmark not defined.

3.2.2.1 Cấu trúc hàng đợi các url trong VinahooError! Bookmark

Tài liệu tham khảo Error! Bookmark not defined.

Trang 7

Mở đầu

Trong những năm gần đây, Internet đã trở thành một trong những

phương tiện cung cấp hiệu quả các thông tin khoa học, thông tin kinh tế,

thương mại, quảng cáo và mọi mặt khác của đời sống Sự phát triển nhanh

chóng của mạng Internet và Intranet đã sinh ra một khối lượng khổng lồ các dữ

liệu dạng siêu văn bản (dữ liệu Web) Theo thống kê, lượng thông tin trên toàn

cầu tăng gấp đôi sau khoảng hai năm và theo đó số lượng cũng như kích cỡ của

các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng Có thể nói,

chúng ta đang bị “ngập” trong dữ liệu, và để có thể khai thác thông tin một

cách hiệu quả từ những “núi” dữ liệu khổng lồ đó, chúng ta phải viện đến sự hỗ

trợ của các công cụ tìm kiếm, cụ thể là các Máy tìm kiếm (Search Engine) Tuy

nhiên, thường thì các máy tìm kiếm trên Web cho kết quả nhanh nhưng thiếu

độ chính xác hoặc ngược lại Các nhà nghiên cứu ở khắp mọi nơi trên thế giới

đã thực hiện những nỗ lực đáng kể để phát triển các phương pháp nhằm khắc

phục các yếu điểm trên, tức là cố gắng tăng độ chính xác của kết quả tìm kiếm

mà vẫn không gây ảnh hưởng tới tốc độ Một trong các giải pháp được rất

nhiều nhà nghiên cứu quan tâm và triển khai chính là giải thuật SOM (Self

Organizing Map) do giáo sư Teuvo Kohonen đề xuất

SOM (Self Organizing Map) được giáo sư Teuvo Kohonen phát triển, là

một công cụ rất thích hợp trong khai phá dữ liệu SOM là một thuật toán học

mạng nơron không giám sát, qua quá trình “tự tổ chức”, sắp xếp dữ liệu phức

tạp và nhiều chiều, sao cho các dữ liệu giống nhau được nhận ra và xếp cạnh

nhau trên bản đồ [5]

Từ việc tìm hiểu và phân tích giải thuật SOM, hướng tới mục tiêu nâng

cao hiệu quả tìm kiếm, Luận văn với đề tài “WEB Mining với giải thuật SOM

và ứng dụng cho máy tìm kiếm Vinahoo” tập trung vào lĩnh vực khai phá dữ

liệu Web dùng mạng nơron, sử dụng phương pháp học mạng nơron không giám

sát, dùng thuật toán SOM để giải quyết bài toán phân cụm, ứng dụng cho máy

tìm kiếm Vinahoo Nội dung của Luận văn bao gồm các phần chính như sau:

Chương 1: Tìm hiểu các mô hình biểu diễn dữ liệu trang Web, bBài toán

Trang 8

của giải thuật phân cụm và tTổng quan về áp dụng giải thuật SOM cho bài

toán phân cụm các trang Web [4, 6, 8]

Chương 2: Tìm hiểu giải thuật SOM Tìm hiểu cCấu trúc và quá trình thực thi

phương pháp WEBSOM dựa trên giải thuật SOM và phương pháp học mạng

bộ công cụ SOM Toolbox [2, 5, 7, 8]

Chương 3: Tìm hiểu cấu trúc cơ sở dữ liệu của máy tìm kiếm Vinahoo [10]

Thực nghiệm ứng dụng giải thuật SOM trong phân cụm các trang Web lưu trữ

Trang 9

Lời cảm ơn

Luận văn được thực hiện dưới sự hướng dẫn của thầy giáo TS Hà

Quang Thụy Tôi xin gửi tới thầy lời cảm ơn chân thành vì sự quan tâm, tận

tình chỉ dẫn, giúp đỡ mà thầy đã dành cho tôi trong suốt quá trình hoàn thành

luận văn

Xin trân trọng cảm ơn TS Nguyễn Tuệ - Chủ nhiệm Bộ môn Các hệ

thống thông tin, PGS.TS Trịnh Nhật Tiến – Chủ nhiệm Khoa Công nghệ thông

tin Xin cảm ơn các bạn, các đồng nghiệp của tôi tại Bộ môn Các hệ thống

thông tin, những người đã hết sức nhiệt tình cho tôi những chỉ dẫn, góp ý trong

suốt quá trình thực hiện luận văn

Tôi cũng xXin gửi lời cảm ơn bố mẹ, em và anhchân thành tới gia đình,

bạn bè, những người đã luôn ở bên tôi, động viên và nâng đỡ giúp đỡ, tạo điều

kiện cho những tiến bộ của tôi

{Nên đặt vị trí của gia đình khác với bàn bè}

Hà Nội ngày 20/12/2005

Dư Phương Hạnh

Trang 10

Các từ viết tắt

CSDL Cơ sở dữ liệu

VSM Vector Space Model

LSI Latent Semantic Indexing

SOM Self Organizing Map

BMU Best Matching Unit

SVD Singular-Value Decomposition

SVD (singular-value decomposition)

Formatted: Font: Bold, Dutch (Netherlands) Formatted: Dutch (Netherlands)

Trang 11

Chương 1 Phân cụm dữ liệu Text và Web

1.1 Khai phá dữ liệu Text và các mô hình biểu diễn dữ liệu.

1.1.1 Khai phá dữ liệu Text

Trong những năm gần đây Internet đã trở thành một trong những