Web mining in Thematic Search Engines
Trang 1Web mining in Thematic Search Engines
I.Giới thiệu
Gần đây sự cải tiến của công nghệ Search engine có thế tạo cho người sử dụng Internet một lượng lớn tri thức mà có thể truy cập trên nhiều đường khác nhau Hiện nay phần lớn mọi người dùng Search engine cung cấp khả năng tìm kiếm trên cơ sở dữ liệu của hàng tỉ trang Web, nơi mà những câu truy vấn được thực hiện ngay tức khắc Trọng tâm là quá trình chuyển số lượng lớn (sự duy trì và lập chỉ mục trên cơ sở dữ liệu lớn của trang Web và quá trình chọn nhanh những trang thoả một vài tiểu chuẩn) đến đặc trưng ( quá trình nhận dạng trang với đặc trưng lớn của người sử dụng) Một phương hướng thúc đẩy sự phát triển tự nhiên của người sử dụng Internet đó là bây giờ họ có thể chọn công cụ tìm kiếm và sẳn sàng trả tiền cho nhà cung cấp hệ thống và chờ đợi để truy vấn của họ được trả lời tốt hơn Trong khung cảnh đó, có vài vấn đề được đề cập sử dụng của khai phá dữ liệu và kỹ thuật tối ưu hoá, mà thường được gọi là Web mining (khai phá dữ liệu Web) Ở đây, chúng ta mô tả phương thức cải tiến cho kết quả tìm kiếm chuẩn trong Search engine, ở tài liệu và trang có giá trị giới hạn của số tiêu đề, và người dùng có các mô tả hạn chế Sử dụng phương thức kỹ thuật phân cụm (cluster) để khai báo, trong tập hợp của trang kết quả từ truy vấn đơn, những tập hợp con đồng nhất một khía cạnh nào đó với vector nền tảng trong ngữ cảnh hoặc mô tả; khi chúng ta xây dựng số nhỏ và tiềm năng của tập hợp con tốt của những trang, thì mỗi đoạn của mỗi phân cụm (cluster) trang với điểm cao hơn Hoạt động trên tập hợp con của thuật toán di truyền, chúng ta khai báo một tập hợp con với tất cả điểm tốt và ở bên trong tính không đồng dạng cao Mỗi tập hợp con cung cấp cho người sử dụng một vài trang không giống hệt nhau rằng miêu tả sự đúng của cấu trúc của tập hợp ban đầu của trang Bởi vì những trang chúng ta thấy bằng thuật toán vector có chiều cố định, vai trò ngữ cảnh hoặc mô tả
cơ bản vector trung tâm và cụ thể thuộc cách tiếp cận của phương thức này
II Nền tảng (Background)
Với P là tập hợp của những trang Web, với p P∈ chỉ số trang trong
tập hợp Bây giờ cho rằng P là kết quả của truy vấn chuẩn đến cơ sở dữ liệu
của trang, và như vậy đại diện tập hợp của trang mà thoả mãn một vài điều kiện biểu diễn của người sử dụng Mỗi trang p P∈ kết hợp với điểm cơ bản
trong truy vấn tạo ra P, mà xác định thứ tự những trang có mặt trình bày
trong truy vấn Vai trò của thứ tự quyết định đặc trưng của tìm kiếm: Trên
thực tế, nếu chiều của P có liên quan, khả năng có thể xảy ra người sử dụng trang P có thể giảm những vị trí của p cũng có thể tăng Với những khả
năng như vậy dẫn đến hai hạn chế sau: Trang năm ở vị trí đầu tiên có khả năng là đồng dạng (hoặc bằng nhau) với mỗi trang cùng vị trí; những trang
mà không có điểm cao nhưng điển hình của một vài hướng của tập hợp P
Trang 2mà xuất hiện những vị trí rất thấp trong phân cấp, với khả năng xảy ra không đáng kể khi người sử dụng bắt đầu
Phương thức này chúng ta cố gắn vượt qua hai hạn chế, trọng tâm
của việc chọn từ ban đầu của tập hợp P nhỏ của tập hợp các trang với điểm
cao và tách ra đầy đủ từ mỗi trang Với điều kiện cần áp dụng cách tiếp cận
có giá trị cộng thêm thông tin từ người sử dụng, tạo ra một ngữ cảnh tìm kiếm ( tạo ra tiêu đề chung để tìm kiếm có thể tìm đến, không nhất thiết
liên kết với từ khoá tìm kiếm cho việc tạo ra tập hợp P), và người sử dụng
khai báo ( nhận ra sự chủ quan của người sử dụng, mà cung cấp trực tiếp bằng cách chọn trong số tập hợp xác định trước được khai báo hoặc được lấy ra từ trang đã được duyệt qua của người dùng trước đó)
III.Các điểm chính:
Khái niệm cơ bản của phương thức là sử dụng thông tin truyền bằng
tìm kiếm ngữ cảnh hoặc sử dụng khai báo và phân tích cấu trúc của P và
quyết định trong tập hợp con tối ưu nhỏ nhất mà trình bày tất cả thông tin
có giá trị Được hoàn thành trong ba bước Bước thứ nhất: Tìm kiếm ngữ cảnh và người sử dụng khai báo sử dụng trích đoạn có giới hạn của từ quan
trọng hoặc đặc điểm trang được sử dụng tạo ra, từ tất cả các trang trong P,
vector đặc điểm (vector trang) Như vậy vector miêu tả đường đặc biệt nhìn thấy trang, rõ ràng mỗi ngữ cảnh/khai báo và tạo thành nền theo các bước
cơ bản
Thứ hai, vector trang được phân tích bằng thuật toán phân cụm (clustering algorithm) mà các phân đoạn nằm trong tập hợp con của trang
đồng dạng Nó được quy vào hai chiều phân cấp của trang, mỗi trang p có
thể bây giờ được sắp đặt theo điểm chính trong cụm của nó Với điểm mục tiêu cung cấp cho người sử dụng một danh sách giảm mà được mô tả cấu trúc xác định bằng cụm và hàm điểm gốc
Bước thứ 3 là kết thúc, một giải thuật di truyền làm việc trên trang
mà có điểm cao trong mỗi cụm đưa ra một tập hợp con của trang đó mà hỗn hợp đầy đủ và giá trị tốt của điểm gốc Ở phần sau, chúng ta mô tả bước thứ 3 một cách chi tiết
IV Vector trang (Page Vectorization)
Bước đầu tiên của phương pháp trình bày mỗi trang thu được bằng vector hữu hạn chiều, nơi mỗi thành phần đại diện thước đo đặc trưng của trang (Vector trang) Rõ ràng, trình bày cốt yếu cho thành công của phương pháp; tất cả thông tin của một trang mà nó không được duy trì trong bước này thì sẽ bị mất trong bước tiếp theo Với lý do đó nên nhấn mạnh phương pháp tự nhiên của vector quá trình, nơi chỉ những thông tin thích đáng cho một ngữ cảnh hoặc khai báo có hiệu quả được giử lại sử dụng cho sau này
Sự nhất thiết và rõ ràng, mỗi thành phần của vector là số biến cố một từ đặc biệt; chúng ta có thể xem xét đặc điểm vừa phải mà nó không đặc biệt liên
Trang 3kết với từ chứa đựng trong trang, thí dụ như sự có mặt của bức tranh, bảng biểu, tiêu đề và v.v Với những gì đã đề cập trước đó, vector dựa vào ngữ cảnh cơ bản hoặc khai báo được chọn bởi người sử dụng Bạn có thể giả thiết rằng với mỗi ngữ cảnh/ khai báo mà có thể thực hiện trong Search engine, một danh sách những từ mà có liên quan đến ngữ cảnh/ khai báo có giá trị, và vector liên quan của trang được lưu lại Nhiều phương pháp tinh
vi với cách tiếp cận đơn giản có thể và cần được xem xét Số chiều của vector m (nghĩa là số của những từ thích đáng liên quan đến ngữ cảnh) không phải giới hạn về mặt lý thuyết một cách đặc biệt nhỏ, nhưng chúng
ta nên tránh suy nghĩ để mà áp dụng phương thức lên số các trang quan trọng, nó được xem xét một cách hợp lý m≤ 100 Chúng ta đề xuất hai phương thức để xác định một danh sách các từ:
- Những từ được xác định trong một pha cài đặt, khi quản lý Search engine quyết định các ngữ cảnh / các khai báo được hỗ trợ và từ nào là tiểu biểu của ngữ cảnh / khai báo đó Thao tác này được hoàn thành với người
sử dụng thuộc công cụ dành cho môi trường đặc biệt
- Những từ được xác định bắt đầu từ một tập hợp ban đầu của trang được sử dụng làm mẫu huấn luyện cho ngữ cảnh / khai báo Khi khai báo của người dùng được sử dụng, chúng ta có thể xem xét một mẫu huấn luyện cho một khai báo của trang mà các trang được duyệt qua bởi người
sử dụng mới đây mà khai báo đến các từ kết hợp với những khai báo phát sinh bởi hành vi của người sử dụng
V Phân cụm trang (Page Clustering)
Nghiên cứu rộng là làm sao để cải thiện những kết quả lấy ra bởi phương pháp phân cụm Trong nghiên cứu chiến lược để xây dựng phân cụm của toàn bộ các tài liệu được chọn lọc và phù hợp với truy vấn tới trọng tâm của cụm Mới đây, phân cụm đã được sử dụng để giúp đỡ người dùng trong việc duyệt một tập hợp các tài liệu và trong việc tổ chức những kết quả trả về của Search engine hoặc bằng Metasearch engine trong trả lời câu hỏi của người sử dụng
Phân cụm tài liệu trong thông tin thu hồi thường giải quyết những giải thuật phân cụm có thứ bậc hoặc thuật toán k-means Mặc dù giải thuật phân cụm có thứ bậc rất chậm khi áp dụng trên tài liệu cơ sở dữ liệu lớn (liên kết đơn và phương thức trung bình nhóm có độ phức tạp O P(| | ) 2 , phương thức liên kết đầy đủ có độ phức tạp O P(| | ) 3 ), thuật toán k-means nhanh hơn (nó thực hiện có độ phức tạp tính toán O k P( | |)) Việc do hiệu lực của phân cụm và so sánh việc thực hiện của các giải thuật khác nhau là một nhiệm vụ phức tạp, và không có phương pháp nào thoả mãn hoàn toàn
để có thể so sánh kết quả của thuật toán phân cụm Phần lớn sử dụng tiểu chuẩn để đánh giá chất lượng phân cụm mà thoả mãn tiểu chuẩn
Calinski-Harabasx (C-H) thông tin biểu hiện bằng số giả F; cao hơn chỉ số đánh giá,
chất lượng cụm tốt hơn Với một phân cụm đã cho, biểu thức toán học của
Trang 4thông tin biểu hiện bằng số giả F là:
/ ( 1) ( )
C H
−
− =
− − , trong đó
R = SST SSE SST− với SST là tổng của khoản cách có thứ tự của mỗi đối tượng từ trọng tâm đến toàn bộ, và SSE là tổng của khoản cách của đối
tượng từ trọng tâm của nhóm Từ những thí nghiệm trong thực tế và sử
dụng dữ liệu mô phỏng số giả F chất lượng cụm được đo lường, chúng ta thừa nhận thuật toán k-mean phân cụm thực hiện tốt trong giới hạn thời
gian tính toán – nên định kiểu trong ứng dụng, nơi số của trang và chiều của vector có thể lớn
VI Giải thuật di truyền (Genetic Algorithm)
Giải thuật di truyền thực hiện một cách hiệu quả và thông tin đó được lấy từ nhiều nhà nghiên cứu khác nhau Chen (1995) sử dụng giải thuật di truyền để tối ưu hoá từ khoá để gợi ý cho những tài liệu Giữa hai nhóm Kraft, Petry, Buckles, Sadavisan (1997) và Sanchez, Pierre (1994) giới thiệu cách tiếp cận tăng cừng mô tả câu truy vấn dựa vào giải thuật di truyền Boughanem, Chrisment và Tamine (1999) một giải thuật di truyền được triển khai để tìm và tối ưu tập hợp các tài liệu tốt nhất phù hợp với nhu cầu người sử dụng Horng và Yeh (2000) đưa ra phương pháp để rút từ khoá từ tài liệu và gán cho nó trọng số
Mục tiêu là lựa chọn tập hợp con nhỏ P’ của tập hợp trang P gốc của
tổng các điểm lớn, nhưng sự giống nhau giữa các trang được chọn lọc một cách thận trọng Chúng ta chọn tập hợp con bằng cách sử dụng giải thuật di truyền (GA) Có vài lý do để chúng ta lựa chọn giải thuật này Thứ nhất sử dụng kỹ thuật Metaheuristic tốt trong việc tối ưu hoá các vấn đề với hàm đối tượng và những ràng buộc không có trong biểu thức toán học đơn giản Thứ hai, chúng ta phải xác định một giải pháp tốt trong một thời gian tính toán nhỏ, và chiều của vấn đề có thể lớn một cách đáng kể Thứ ba, cấu trúc của vấn đề rõ ràng, được trình bày bằng cấu trúc dữ liệu thường sử dụng GA
GA là thuật toán tìm kiếm cục bộ được bắt đầu từ chọn các chuỗi ban đầu được trình bày bằng hàm phân phối phát triển vấn đề Mỗi chuỗi
có thể gọi là nhiễm sắc thể (chromosome) và kết hợp với giá trị được gọi là
hàm phù hợp (fitness function-ff) mà có thể tạo ra một cá thể mới bằng thực hiện di truyền Mọi phân phối nhiễm sắc thể được gọi là gene và giá trị được gọi là alletic value Các giá trị này có thể thay đổi nên có thể gán bảng
alletic, thường bảng alletic nằm {0,1} Với mỗi di truyền, thuật toán sử
dụng giá trị hàm phù hợp với đánh giá khả năng tồn tại của mỗi chuỗi i
bằng sử dụng toán tử đơn để tạo ra một tập hợp mới của cá thể nhân tạo
( một quần thể mới) mà phép thử có thể được cải thiện trên hàm ff bằng
cách sử dụng giá trị cũ Quá trình tiến hoá bị dừng lại khi không có đột biến
nào quan trọng của hàm fitness có thể thu được Thực hiện giải thuật di
truyền là việc lặp đi lặp lại và:
Trang 5- Lặp lại, nơi mà các chuổi riêng lẽ được sao chép theo giá trị của
hàm fitness.
- Sự lai ghép chéo đơn, trong đó những thành viên tái sản xuất trong lai ghép ngẫu nhiên và sau đây mỗi cặp của chuổi trải qua thay đổi chéo
- Đột biến, là sự thay đổi không thường xuyên ngẫu nhiên của giá trị của nhiễm sắc thể với xác suất nhỏ
Bắt đầu từ các cụm đang tồn tại, chúng ta định nghĩa nhiễm sắc thể của tập hợp con cá thể ban đầu của trang với tập hợp giới hạn ( thuật ngữ trong GA, một trang là một gene) Giải thuật di truyền làm việc trên cá thể ban đầu kết thúc bằng biểu diễn tập hợp con của trang hiện tại của người sử dụng Ý tưởng bắt đầu tiến hoá của di truyền của cá thể mà đúng như vậy
rất nhỏ so với tập hợp ban đầu của trang P Mỗi nhiễm sắc thể được tạo ra
bằng cách chọn lọc trang từ mỗi cụm, bắt đầu với một hay nhiều điểm cao Như vậy, nhiễm sắc thể đầu tiên được tạo ra chứa đựng trang với điểm cao trong mỗi cụm, với nhiễm sắc thể thứ hai chứa điểm tốt thứ hai và v.v Nếu tập hợp của cụm nhỏ hơn số nhiễm sắc thể được tạo ra thì cụm không được đại diện cho mỗi nhiễm sắc thể, trong khi những cụm khác có tập hợp cao hơn của một trang đại diện bằng một nhiễm sắc thể nào đó Chúng ta cho biết với dc là số của trang bao gồm mỗi nhiễm sắc thể trong quần thể ban đầu và nc là số nhiễm sắc thể Một quần thể gồm có
np=dc*nc trang.
Hàm fitness tính toán cho mỗi nhiễm sắc thể được biểu diễn bằng giá
trị dương cao “tốt” cho nhiễm sắc thể và như vậy hàm được làm cực đại
Nó bao gồm ba giai đoạn: Thứ nhất là tính tổng các điểm của trang trong
nhiễm sắc thể C, nghĩa là 1 ( ) ( )
i
i
p C
t C score p
∈
= ∑ với score(p i ) là điểm gốc của
trang p i được mô tả trước đó Cần xem xét giới hạn khả năng dương của nhiều trang dương có điểm cao trong nhiễm sắc thể mà còn trả lại những
nhiễm sắc thể của trang có điểm thấp Hạn chế thứ hai của hàm fitness đó là
cân bằng
Với ID là số chiều; tỷ lệ t2 =np abs C/ (| | −ID) 1 + cấu thành từ 2 số hạn
của hàm fitness np đạt cực đại khi chiều của C chính xác bằng chiều của
ID và nhanh chóng giảm cho đến khi số những trang được chứa trong
nhiễm sắc thể C nó có thể nhỏ hơn hoặc lớn hơn ID.
Nhiễm sắc thể nằm trong quần thể ban đầu được mô tả bằng điểm biến thiên cao của cụm thuộc các trang có liên quan Sự tiến hoá của quần thể thay đổi đặc trưng, tạo ra nhiễm sắc thể với thích nghi cao của trang thuộc cụm và rất giống nhau trong mỗi cụm Hơn nữa, sự kiện của trang thuộc về cụm khác nhau và khác nhau trong không gian vector không được đảm bảo, trong khi phụ thuộc một cách tự nhiên về dữ liệu và trên quá trình
xử lý phân cụm ban đầu Với lý do đó, chúng ta giới thiệu hàm fitness thứ
ba, đánh giá toàn bộ đánh giá không giống nhau của các trang trong nhiễm sắc thể Với D p p( ,i j)khoảng cách Euclidean của những vector đại điện cho
Trang 6trang là p i , p j Khi đó 3 ( ) , , ( , )
p p C p p
t C =∑ ∈ ≠ D p p là tổng của các khoảng
cách giữa hai cặp của trang trong nhiễm sắc thể C và đánh giá tổng biến thiên rõ ràng của C Mẫu cuối cùng của hàm fitness của nhiễm sắc thể C và
( ) ( ) ( ) ( )
ff C = αt C + βt C + γt C với tham sốα,β, γ phụ thuộc vào độ lớn của
điểm ban đầu và vector biểu diễn trang Đặc biệt α,β, γđược chọn đóng góp
cân bằng của t C t C t C1 ( ), ( ), ( ) 2 3 Ngoài ra, chúng có thể biểu thị sự thích ứng của các thuộc tính khác nhau được biểu diễn bằng ba thời thời điểm Mục
tiêu của GA tìm bằng phương thức di truyền, một nhiễm sắc thể C * sao cho:
*
1, ,
( ) max nc ( )
ff C = ff C .
VII Hướng phát triển
Ứng dụng phân tích dữ liệu tinh xảo và kỹ thuật khai phá dữ liệu trong tìm kiếm của thông tin trên Web là lĩnh vực được quan tâm ngày càng nhiều trong nghiên cứu và công nghiệp Là chiến lược quan trọng của công cụ này nó không được đánh giá thấp và ý nghĩa của thông tin ngày một tăng Như vậy phương hướng thúc đẩy tìm kiếm đưa ra công cụ giúp
đỡ cải thiện kết quả tìm kiếm thông tin trên Web
Một câu hỏi đặc ra là phương thức này có thể chạy trực tuyến trong Search engine chuẩn thực hiện truy vấn của người sử dụng Chúng ta tin tưởng rằng điểu chỉnh thích hợp của thông số và ứng dụng thuật toán thích hợp thì quá trình tìm kiếm được xử lý một cách thoả mãn Công việc tương lai sẽ bao trùm mở rộng kỹ thuật vector trang và định nghĩa và thủ tục kiểm tra tự động điểu chỉnh tham số trong giải thuật di truyền
Trang 7MỤC LỤC
I.Giới thiệu 1
II Nền tảng (Background) 1
III.Các điểm chính: 2
IV Vector trang (Page Vectorization) 2
V Phân cụm trang (Page Clustering) 3
VI Giải thuật di truyền (Genetic Algorithm) 4
VII Hướng phát triển 6
MỤC LỤC 7