Dự báo WEBSITE truy cập tiếp theo dựa trên sự kết hợp thuật toán phân cụm và mô hình MARKOV

Bài viết trình bày sự kết hợp giữa kỹ thuật phân cụm và mô hình Markov để dự đoán website truy cập tiếp theo nhằm giảm thiểu độ trễ và cải thiện hiệu suất máy chủ Web.. Việc rút ra các d

Trang 1

Dự BáO WEBSITE TRUY CậP TIếP THEO DựA TRÊN Sự KếT HợP

THUậT TOáN PHÂN CụM Và MÔ HìNH MARKOV

NGUYễN CÔNG NHậT (a) Tóm tắt Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu để tự động hoá quá trình khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch

vụ và cấu trúc Web Dự đoán website truy cập tiếp theo đạt được tầm quan trọng do tần suất truy cập máy tìm kiếm web ngày càng gia tăng Bài viết trình bày sự kết hợp giữa kỹ thuật phân cụm và mô hình Markov để dự đoán website truy cập tiếp theo nhằm giảm thiểu độ trễ và cải thiện hiệu suất máy chủ Web

I Mở ĐầU

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập niên

80 của thế kỷ 20, là lĩnh vực được nghiên cứu nhằm tự động khai thác thông tin, tri thức mới hữu ích Với sự phát triển nhanh chóng của công nghệ thông tin trên World Wide Web, Khai phá dữ liệu Web đã từng bước trở nên quan trọng hơn trong lĩnh vực khai phá dữ liệu Có nhiều khái niệm khác nhau về khai phá Web, nhưng có thể tổng quát hoá như sau: Khai phá Web là việc sử dụng các kỹ thuật Khai phá dữ liệu

để tự động hoá quá trình khám phá và trích rút những thông tin hữu ích từ các tài liệu, các dịch vụ và cấu trúc Web Lĩnh vực khai phá web đã thu hút được nhiều quan tâm nghiên cứu và phát triển ứng dụng ([6]) Khai phá Web thường được phân thành ba lĩnh vực chính: Khai phá nội dung Web (Web content mining), khai phá cấu trúc Web (Web structure mining) và Khai phá việc sử dụng Web (Web usage mining) ([6])

Mỗi ngày, máy chủ Web phải thu nhận một số lượng lớn các dữ liệu Việc rút

ra các dấu vết người sử dụng và so sánh chúng với mục đích sử dụng web của người dùng để dự đoán truy cập người sử dụng nhằm chuẩn bị sẵn các tài nguyên phù hợp với thao tác tiếp theo của người dùng, có thể giúp tối ưu hóa cấu trúc mạng Nếu dự

đoán chính xác truy cập tiếp theo của người sử dụng và chuẩn bị sẵn tài nguyên phù hợp thì độ trễ mạng có thể được giảm đáng kể ([5]) Trên thực tế đã có rất nhiều kỹ thuật được sử dụng để khai phá sử dụng web nhằm dự đoán truy cập người sử dụng như mô hình Markov, Xích Markov, luật kết hợp ([4]) Tuy nhiên, sử dụng mô hình Markov bậc thấp thì cho kết quả dự đoán độ chính xác không cao; sử dụng mô hình Markov bậc cao hơn hoặc Xích Markov sẽ cho kết quả dự đoán độ chính xác cao nhưng chúng phải tính toán với không gian trạng thái phức tạp; sử dụng luật kết hợp có nhược điểm là có quá nhiều luật, không dễ dàng để tìm thấy các tập luật thích hợp để đưa ra các dự đoán ([5]) Yêu cầu đặt ra là tìm ra một phương pháp khai phá sử dụng Web nhằm dự đoán web truy cập tiếp theo bởi người sử dụng cho kết quả dự đoán độ chính xác cao ít ảnh hưởng bởi không gian trạng thái phức tạp

II Kỹ THUậT PHÂN CụM

Phân cụm là phương pháp học không giám sát và thường không được sử dụng

để phân loại Sử dụng kỹ thuật phân cụm nhóm các phiên người dùng có lịch sử

Trang 2

duyệt Web tương tự nhau, các cụm này được dùng làm tham số đầu vào cho hệ thống

dự báo Tương tự với các mô hình dự báo khác, mô hình phân cụm cố gắng khám phá mối tương quan thống kê giữa các trang Web được truy cập khai phá từ WebLog Việc dự đoán được thực hiện trên tập các cụm hiệu quả hơn thực hiện trên các phiên

cụ thể Vấn đề chính ảnh hưởng đến độ chính xác phân cụm là việc lựa chọn tính năng để phân cụm

Trong mô hình kết hợp thuật toán phân cụm K-means do MacQueen đề xuất trong lĩnh vực thống kê năm 1967, là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means là sinh ra k cụm dữ liệu {C1, C2, , Ck} từ một tập dữ liệu ban đầu gồm n đối tượng trong không gian d chiều Xi =(xi1, xi2,…,xid) (i=1,n), sao cho hàm tiêu chuẩn:

∑∑

ư

= k

i

m x D E

1

2

đạt giá trị tối thiểu, trong đó: mi là trọng tâm của cụm Ci, D

là khoảng cách giữa hai đối tượng Trọng tâm của một cụm là một vector, trong đó giá trị của mỗi phần tử là trung bình cộng các thành phần tương ứng của các đối tượng vector dữ liệu trong cụm đang xét Tham số đầu vào của thuật toán là số cụm

k, tập cở sở dữ liệu gồm n phần tử và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Độ đo khoảng cách D giữa các đối tượng dữ liệu thường được sử dụng dụng là khoảng cách Euclide, bởi vì đây là mô hình khoảng cách dễ để lấy đạo hàm và xác định các cực trị tối thiểu Hàm tiêu chuẩn và độ đo khoảng cách có thể

được xác định cụ thể hơn tuỳ vào ứng dụng hoặc các quan điểm của người dùng Một

số hình dạng phân cụm dữ liệu bởi K-Means ([10]) Phân cụm liên quan đến việc phân chia các trang hoặc các phiên vào trong các nhóm có điểm tương đồng Việc dự

đoán diễn ra dựa trên các nhóm này Quá trình này dẫn đến giảm độ chính xác bởi vì

nó không sử dụng tất cả các trang một cách trực tiếp Phân cụm được xây dựng dựa trên các tính năng cũng như nội dung, ngữ nghĩa hoặc cấu trúc liên kết cũng đều gặp phải vấn đề này ([8]) đã chứng minh rằng phương pháp tối ưu là các cụm được xây dựng dựa trên bit vector Tuy nhiên, ngay cả việc lựa chọn tính năng được cải thiện thì không phải lúc nào cũng đạt được các cụm được phân chia hợp lý

Tham số K (số Cluster) phải được xác định trước khi triển khai thuật toán Việc này này hưởng rất lớn đến kết quả phân cụm của thuật toán Một khó khăn là hiện nay chưa có giải pháp nào được xem là tốt (về tính khoa học) để chọn tham số này Việc chọn tham số K phù hợp với mô hình có thể sử dụng một số phương pháp sau: Thử với các giá trị của K, từ đó chọn K cho kết quả phân cụm tốt nhất; Sử dụng

ý kiến của chuyên gia; Sử dụng kỹ thuật Cross- Validation n-fold để kiểm định mô hình từ đó chọn tham số Tuy nhiên chi phí thực hiện cho các giải pháp này rất lớn

do cơ sở dữ liệu đối tượng xử lý là rất lớn Một giải pháp chọn K thích hợp nhất được

định nghĩa bởi ([3])

III MÔ HìNH MARKOV

Theo [5] mô hình Markov thường được sử dụng để xác định trang tiếp theo

được truy cập bởi người sử dụng dựa trên chuỗi các trang được truy cập trước đó Các mô hình Markov được đề xuất để giảm thiểu độ trễ hoặc cải thiện hiệu suất máy chủ

Trang 3

Web ([3]) Các mô hình này cũng được sử dụng để khám phá các đường dẫn điều hướng người dùng truy cập web với xác suất cao

Cho P={P1, P2, …, Pm} là tập các thành phần trong một trang Web Cho Wi là một phiên người dùng bao gồm một chuỗi các trang được truy cập bởi người dùng trong một lần truy cập Giả sử người dùng truy cập l trang thì Prob(PiWi) là xác suất người dùng truy cập trang Pi tiếp theo Trang Pi+1 mà người dùng sẽ truy cập tiếp theo được ước tính bằng:

Pi+1=argmax{Prob(Pi=P/W)}=argmax{Prob(Pi=P|Pi,Pi-1,….,P1)},

Xác suất này, Prob(PiW) được ước tính bằng cách sử dụng tất cả các chuỗi W của tất cả các người dùng trong quá khứ (hoặc dữ liệu huấn luyện), ký hiệu là W Vì vậy, i càng dài và W càng rộng thì xác suất Prob(PiW) càng chính xác Tiến trình Markov đặt ra một giới hạn số trang được truy cập trước đó là k Nói cách khác, xác suất truy cập một trang Pi không phụ thuộc vào tất cả các trang trong phiên nhưng chỉ trên một nhóm nhỏ k trang có trước, trong đó k<< l

Biểu thức trở thành

Pi+1=argmax{Prob(Pi+1=P|Pi,Pi-1, ,P1)}

Số k, các trang có trước là bậc của mô hình Markov Mô hình kết quả của biểu thức này gọi là mô hình Markov bậc k Mô hình Markov thực hiện tính xác suất cao nhất của trang web cuối cùng được truy cập trong suốt phiên duyệt web

Cho k

j

S là trạng thái với k trang web có trước xác định bậc của mô hình Markov và j là số các trang duy nhất trên trang weblog

k

j

S =(P1-(k-1),P1-(k-2), ,P1)

Sử dụng nguyên tắc khả năng tối đa [9], xác suất điều kiện của P(Pi| k

j

S )

được ước tính từ tập dữ liệu (huấn luyện) trong quá khứ như sau

) (

) , ( )

|

j i k j k

J i

S frequency

P S frequency S

P

Công thức này tính xác suất điều kiện như là tỷ số giữa tần số của chuỗi xảy

ra trong tập huấn luyện và tần số của các trang xảy ra trực tiếp sau chuỗi

Các giả định cơ bản của mô hình dự đoán Markov dự đoán trạng thái tiếp theo dựa trên k trạng thái cho trước Thực tế k càng lớn thì dự đoán càng chính xác Tuy nhiên, tăng k dẫn đến 2 vấn đề: Phạm vi hoạt động của mô hình bị giới hạn và loại bỏ nhiều trạng thái không được xét; Độ phức tạp của mô hình trở nên không kiểm soát được

Việc đánh giá này cho thấy có đến 90% trạng thái có thể được hiệu chỉnh dẫn

đến không gian trạng thái ít phức tạp và tăng phạm vi hoạt động nhưng độ chính xác vẫn không thay đổi Giải pháp này được đề xuất cho không gian trạng thái phức tạp của mô hình Markov k bậc không khả thi trong một vài trường hợp, đặc biệt khi

nó bao gồm các tập dữ liệu rất lớn, đòi hỏi rất nhiều thời gian và công sức để xây dựng các mô hình k bậc và hiệu chỉnh các trang theo tiêu chí trên

Trang 4

IV KếT HợP THUậT TOáN PHÂN CụM Và MÔ HìNH MARKOV Dự

ĐOáN WEBSITE TRUY CậP TIếP THEO

Mô hình Markov và phân cụm là 2 kỹ thuật được sử dụng để dự đoán trang tiếp theo được truy cập bởi người sử dụng Web Một số kỹ thuật được thể hiện bởi [7], kết hợp hầu hết các mô hình dự báo (mô hình Markov, các luật kết hợp tuần tự, luật kết hợp và phân cụm để cải thiện việc gọi dự đoán) Mô hình được đề xuất làm tốt hơn các kỹ thuật khai phá web sử dụng các kỹ thuật cổ điển Tuy nhiên, mô hình mới phụ thuộc vào nhiều yếu tố như sự tồn tại của một cấu trúc liên kết trang web

và phụ thuộc ngưỡng hỗ trợ Những yếu tố này ảnh hưởng đến thứ tự của mô hình

và hiệu suất của mô hình

Các bài viết khác kết hợp phân cụm với mô hình Markov [1], [2] phân chia các trang người dùng sử dụng mô hình dựa trên phương pháp phân cụm trong đó họ thực thi mô hình Markov bậc 1 sử dụng thuật toán kỳ vọng – cực đại Sau khi phân vùng các phiên người dùng vào trong các cụm, chúng hiển thị đường dẫn của người dùng trong mỗi cụm Một kỹ thuật khác được trình bày bởi [2], xây dựng mô hình Markov từ tệp log và sử dụng việc kết hợp và kết nối các đặc điểm giống nhau để đo các mối quan hệ khái niệm giữa các trang Web Mô hình kết hợp thuật toán phân cụm và mô hình Markov được thể hiện trong hình 1

Hình 1 Sơ đồ tiến trình phân cụm trước khi thực thi mô hình Markov

4.1 Động cơ của việc kết hợp

Dự đoán trang Web tiếp theo được truy cập bởi người sử dụng tức là dự đoán liên kết Web mà người dùng sẽ click tiếp theo khi duyệt trang web Ví dụ, sự chuyển

đổi mà người dùng Web truy cập một trang bán máy tính có khả năng sẽ mua một pin dự phòng khi mua một chiếc laptop, hoặc có thể sự thay đổi lớn hơn, người sử dụng sẽ mua một ổ mềm bên ngoài để thay thế Dữ liệu các phiên duyệt web trong quá khứ của người dùng là nền tảng trong việc chiết xuất thông tin dự đoán tiếp

Lựa chọn tính năng và phân loại phiên

Độ đo tương tự

Số các cụm (k) Gom nhóm

Thực thi mô hình Markov Phiên người dùng

Phân cụm

Trang 5

theo Ví dụ, sử dụng các thuật toán phân cụm, chúng ta có thể cá nhân hoá người sử dụng theo kinh nghiệm duyệt web của họ Những người dùng khác với hành vi duyệt web khác được tập hợp lại với nhau và quá trình dự đoán được thực hiện dựa trên

đường dẫn liên kết của người sử dụng trong cụm thích hợp Loại dự đoán tương tự là

sử dụng mô hình xác xuất có điều kiện Markov Ví dụ, nếu 50% người sử dụng truy cập trang D sau khi truy cập trang A, B, C, thì có 1/2 khả năng một người sử dụng truy cập các trang A, B, C sẽ truy cập vào trang D tiếp theo Việc dự báo trang Web truy cập tiếp theo trên trạng thái không gian phức tạp được thực hiện bằng cách kết hợp cả mô hình Markov và kỹ thuật phân cụm dựa trên việc chia các phiên Web thành nhóm theo dịch vụ Web và thực hiện phân tích mô hình Markov trên mỗi cụm của phiên thay vì toàn bộ tập dữ liệu Việc làm này rất hiệu quả vì sử dụng mô hình Markov cho một nhóm nhỏ, được giả sử là đồng nhất hơn so với toàn bộ tập dữ liệu Kết quả là, thực hiện phân tích mô hình Markov trên một phiên liên quan theo chức năng dẫn đến dự báo chính xác hơn việc thực hiện phân tích trên toàn bộ tập dữ liệu

Mô hình Markov là kỹ thuật hiệu quả để dự đoán trang web truy cập và rất nhiều nhà nghiên cứu nhấn mạnh tầm quan trọng trong lĩnh vực khai phá dữ liệu của mô hình Markov ([4]) Các nhà nghiên cứu khác sử dụng mô hình markov để nâng cao hiệu quả truy cập dịch vụ web bằng cách sử dụng phương pháp tìm nạp Mô hình Markov bậc thấp được biết đến với độ chính xác thấp do hạn chế về lịch sử duyệt Web người dùng Mô hình Markov bậc cao hơn đạt được độ chính xác cao hơn nhưng lại được kết hợp với không gian trạng thái phức tạp hơn Mặc dù các kỹ thuật phân cụm được sử dụng cho mục đích cá nhân bằng cách khám phá cấu trúc trang web và trích xuất các thông tin hữu dụng ([2]), thông thường các kỹ thuật này không thực sự thành công trong việc đạt kết quả tốt Phân cụm thích hợp nhóm các phiên người dùng với lịch sử duyệt Web, điều này thuận tiện cho việc phân loại Quá trình

dự đoán được thực hiện trên các tập hợp cụm thay vì các phiên thực tế

Hình 2 Kiến trúc mô hình kết hợp

Sử dụng mô hình Markov bậc thấp tránh được không gian trạng thái phức tạp Để tăng độ chính xác cho mô hình Markov bậc thấp ta sử dụng kỹ thuật phân

Response Web requests Client 1

Client 1

Internet

WWW Server

Web logs

Phân cụm

Mô hình Markov

Mô hình dự

đoán

Trang 6

cụm Các phiên Web đầu tiên được xác định và phân nhóm theo chức năng và sử dụng các tính năng có nghĩa Sau đó, các phiên Web được nhóm thành một số các cụm Tiến trình chính của phân cụm phiên web sử dụng thuật toán K-Means là xác

định số lượng các cụm Gom nhóm và phân cụm các phiên web thích hợp giúp tăng

độ chính xác dự báo truy cập trang web Kiến trúc kết nối mô hình Markov và phân cụm được mô tả trong Hình 2

4.2 Các bước kết hợp

Tiến trình huấn luyện diễn ra như sau:

•Sử dụng tính năng lựa chọn, phân bổ các phiên Web tương tự nhau vào các lớp thích hợp

•Chọn thuật toán K- means, độ đo khoảng cách phù hợp

Chọn số cụm k và phân vùng các phiên Web thành các cụm

•For mỗi cụm

- Trả về trạng thái ban đầu của dữ liệu chưa phân cụm và phần mở rộng của

nó

- Thực hiện mô hình Markov phân tích trên mỗi cụm

EndFor

Tiến trình dự đoán hoặc giai đoạn thử nghiệm bao gồm các bước sau:

•For mỗi tiến trình đến

- Tìm cụm gần nhất

- Sử dụng mô hình Markov tương ứng để dự đoán

EndFor

4.3 Thu thập dữ liệu

Sử dụng các tập tin access log trên Web Server, thường các tập tin này lưu tự

động theo ngày trong thư mục C:\WINDOWS\system32\Logfiles\W3SVC1, các tập tin này ghi nhận khi có người dùng truy cập đến một trang Web bất kỳ thuộc Web Server, thông tin thường được lưu trữ dưới dạng các hàng (records) theo chuẩn Apache

Tập dữ liệu D1: WebLog lấy từ

http://www.stat.ucla.edu/~cocteau/access_log.txt gồm các thông tin logs truy cập Website http://www.stat.ucla.edu/ - là trang thông tin của trường Đại học UCLA trong ngày 20/2/2012 bao gồm 3387 yêu cầu

Tập dữ liệu D2: WebLog lấy từ http://68.119.15.136/log/access_log.txt gồm các thông tin truy cập Website http://68.119.15.136/ từ ngày 03/03/2011 đến ngày 09/08/2011 bao gồm 6500 yêu cầu

Trước khi sử dụng dữ liệu log, các tập dữ liệu này cần phải được tiền xử lý dữ liệu Trong việc chuẩn bị dữ liệu, chúng tôi loại bỏ các trang sai sót và không hợp lệ Chúng bao gồm các mã lỗi HTTP 400, 500, lỗi HTTP 1.0 cũng như các lỗi HTTP 302

và 304 bao gồm các yêu cầu mà không có trả lời từ máy chủ Chúng tôi cũng loại bỏ các tập tin đa phương tiện như gif, jpg và scrip như js và cgi; lưu trữ các truy cập này vào cơ sở dữ liệu để thuận tiện cho việc xử lý dữ liệu

Tiền xử lý dữ liệu

Sử dụng một công cụ lọc log file trên Web Server: WebLogCleaning [WebCleaner], là một công cụ mã nguồn mở được lấy từ trang Web

Trang 7

http://webcleaner.sourceforge.net/

Các chức năng của WebLogCleaning:

- Làm sạch và lưu trữ dữ liệu từ log file ghi các truy cập trang Web trên web server vào cơ sở dữ liệu

- Thu thập và lưu trữ tên máy (host name) và địa chỉ IP

- Tạo các tập dữ liệu từ cơ sở dữ liệu theo thời gian, người dùng, giao thức

- Tạo, xóa cơ sở dữ liệu

- Tạo Dataset

Hình 3 Sơ đồ chức năng của WebLogCleaning Công cụ sẽ lọc các records trong access_log file, loại bỏ các thông tin không hợp lệ và ghi vào các bảng dữ liệu như sau:

- ProtocolDimTbl(ProtocolID,ProtocolName,MethodName,Status): bảng lưu các giao thức truy cập Web

- PathDimTbl(PathID,PathName,FileName,FileType): chứa mã và các thông tin trang web được truy cập

- UserDimTbl(UserID,IPAddress,HostName,UserName): chứa thông tin người dùng

- LogFactTbl(Time ID,UserID,ProtocolID,PathID,SessionID,nbyte): chứa các

sự kiện truy cập web

4.4 Khám phá mẫu

Xác định số cụm k đối với toàn bộ tập dữ liệu là công việc rất khó khăn, theo

đánh giá ở trên chúng tôi lựa chọn k theo ([3])

Thực thi mô hình Markov

Mô hình Markov được thực thi trên mỗi cụm Mỗi tập dữ liệu được chia vào tập huấn luyện và tập thử nghiệm và độ chính xác của mô hình Markov được tính toán theo Sau đó, sử dụng tập thử nghiệm, mỗi trạng thái chuyển được xem như là một điểm và độ đo khoảng cách được tính toán để xác định số cụm theo điểm đó Tiếp theo, độ chính xác dự đoán mô hình Markov bậc 2 được lấy lại như được tính toán trong giai đoạn thử nghiệm Tất cả các dự đoán trong dữ liệu thử nghiệm nếu không tồn tại trong tập dữ liệu huấn luyện đều được kết lận là sai và được cho giá trị

là 0

Output Input

Access_log file WebLogCleaning

Data set

Tables:

UserDimTbl ProtocolDimTbl PathDimTbl LogFactTbl

Generate

Trang 8

Hình 4 Phân cụm trong cơ sở dữ liệu (với tậpdữ liệu D1, k=7) 4.5 Kết quả thực nghiệm

Chương trình thực nghiệm Mô hình Markov kết hợp với kỹ thuật phân cụm

được thực hiện bằng ngôn ngữ C# Dữ liệu sau khi đã được cho vào cơ sở dữ liệu làm

đầu vào cho chương trình

Với bộ dữ liệu D1:

WebLog lấy từ http://www.stat.ucla.edu/~cocteau/access_log.txt Theo hình

4, quy trình vận hành của chương trình thì các dữ liệu thu được khi chạy chương trình như sau:

Xét liên kết http://www.stat.ucla.edu/~frederic/ là trang cá nhân một giảng viên

Với số cụm là 7, các trang có tiền tố ~frederic sẽ được phân thành một cụm Trang http://www.stat.ucla.edu/~frederic/qual2012/data/ có xác suất truy cập cao nhất nên được dự đoán là trang tiếp theo sẽ được truy cập trong lần truy cập tiếp theo

Tuy nhiên, khi xem xét http://www.stat.ucla.edu/~frederic/ thì không có liên kết trực tiếp đến trang /qual2012/data, có nghĩa là người dùng đã qua một số trang

Trang 9

phụ và thường quay lại xem trang /qual2012/data Từ đây nếu là một người quản trị thì nên tạo liên kết /qual2012/data để tiện cho người dùng xem

Với bộ dữ liệu D2:

WebLog lấy từ http://68.119.15.136/log/access_log.txt gồm các thông tin truy cập Website http://68.119.15.136/ từ ngày 03/03/2011 đến ngày 09/08/2011

Với bộ dữ liệu này, chúng tôi thấy phân thành 15 cụm cho kết quả dự đoán chính xác nhất Với số cụm 15, các trang có tiền tố “phs” sẽ được phân thành một cụm, bao gồm các trang: /phs/applied-math, /phs/computer, /phs/electronics/,

Xét liên kết http:// http://68.119.15.136/phs, trang http://68.119.15.136/phs/dd

có xác suất truy cập cao nhất nên sẽ được dự đoán là trang sẽ truy cập tiếp theo sau khi truy cập vào trang ”phs”

V Kết luận

Sau khi tiến hành thực nghiệm trên tập dữ liệu lấy từ 70 mốc thời gian khác nhau chúng tôi nhận thấy kết quả dự đoán của mô hình kết hợp chỉ ra danh sách các website có khả năng truy cập tiếp theo cô đọng hơn Kết quả này hoàn toàn là tập con của tập kết quả nếu sử dụng mô hình Markov để dự đoán website truy cập tiếp theo Như vậy việc kết hợp thuật toán phân cụm và mô hình Markov cho kết quả dự

đoán chính xác hơn

TàI LIệU THAM KHảO

[1] I Cadez, D Heckerman, C Meek, P Smyth & S White, Visualization of navigation patterns on a web site using model based clustering, ACM SIGMOD Int’l Conf on Knowledge Discover and Data Mining, 2000, pp 280–284

[2] I Cadez, D Heckerman, C Meek, P Smyth & S White, Model based clustering and visualization of navigation patterns on a web site, Data Mining and Knowledge Discovery 7(4), 2003, pp 399–424

[3] D T Pham, S S Dimov and C D Nguyen, Selection of K in K-means clustering Mechanical Engineering Science, vol 219, 2005

[4] M Deshpande & G Karypis, Selective markov models for predicting web page accesses, Transactions on Internet Technology 4, 2004, pp 163–184

[5] Habel Kurian, A Markov model for Web request prediction, A report submitted in partial fulfillment of the requirements for the degree Master of Science, Kansas State University, 2008

[6] Hiroyuki Kawano, Applications of Web mining - from Web search engine to P2P filtering, ACM, 2003

[7] D Kim, N Adam, V Alturi, M Bieber & Y Yesha, A clickstreambased collaborative filtering personalization model: Towards a better performance, WIDM, 2004, pp 88–95

[8] J Vellingiri et al., A Survey on Web Usage Mining [Trực tuyến] Global Journal

of Computer Science and Technology, Volume 11 Issue 4 Version 1.0 March

2011 Địa chỉ: http://globaljournals.org/GJCST_Volume11/9-A-Survey-on-Web-Usage-Mining.pdf

Trang 10

[9] L Lu, M Dunham & Y Meng, Discovery of significant usage patterns from clusters of clickstream data, WebKDD, 2005, pp 139–142

[10] Vipin Kumar, The k-means algorithm, Parallel Issues in Data Mining, VECPAR

2002

SUMMARY INTEGRATIon of CLUSTERING AND MARKOV MODEL FOR PREDICTING

WEB PAGE ACCESSES

Web mining is the application of data mining techniques to automate the process of exploring and extracting useful information from documents, services and Web structure Predicting the next Web page Accesses has gained importance due to the frequency of access to web search engines is increasing This paper presents an integration of clustering and Markov model for predicting the next Web page access

to minimize latency and improve performance of Web server

(a) Khoa C«ng nghÖ th«ng tin, Tr−êng §¹i häc Vinh.

Định dạng
Số trang	10
Dung lượng	170,89 KB