HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --- LÊ THỊ CẨM TÚ KẾT HỢP KỸ THUẬT PHÂN CỤM VÀ MÔ HÌNH MARKOV ĐỂ DỰ ĐOÁN TRUY CẬP WEB Chuyên ngành: Truyền dữ liệu và mạng máy tính Mã số: 60.
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
LÊ THỊ CẨM TÚ
KẾT HỢP KỸ THUẬT PHÂN CỤM VÀ MÔ HÌNH MARKOV
ĐỂ DỰ ĐOÁN TRUY CẬP WEB
Chuyên ngành: Truyền dữ liệu và mạng máy tính
Mã số: 60.48.15
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS TS TRẦN ĐÌNH QUẾ
HÀ NỘI - 2011
Trang 2MỞ ĐẦU
Trong những năm gần đây, Web đã được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau thương mại, giải trí, giáo dục, y tế Do tính phổ biến của nó dẫn đến lưu lượng truy cập rất lớn trên Internet Hầu hết những người dùng sử dụng trình duyệt web
để điều khiển các trang web và di chuyển đến các trang Web theo các siêu liên kết mà họ nghĩ rằng có liên quan với trang bắt đầu và các trang tiếp theo cho đến khi họ tìm thấy thông tin cần tìm kiếm trong một hay nhiều trang [10] Mỗi ngày, máy chủ Web phải thu nhận một số lượng lớn các dữ liệu Việc rút ra các dấu vết người sử dụng và so sánh chúng với mục đích sử dụng web của người dùng để dự đoán truy cập người sử dụng nhằm chuẩn bị sẵn các tài nguyên phù hợp với thao tác tiếp theo của người dùng, có thể giúp tối ưu hóa cấu trúc mạng Nếu dự đoán chính xác truy cập tiếp theo của người sử dụng và chuẩn bị sẵn tài nguyên phù hợp thì độ trễ mạng có thể được giảm đáng kể [9]
Trên thực tế đã có rất nhiều kỹ thuật được sử dụng để khai phá sử dụng web nhằm
dự đoán truy cập người sử dụng như mô hình Markov, Xích Markov, luật kết hợp ([1 - 11]) Tuy nhiên, sử dụng mô hình Markov thấp thì cho kết quả dự đoán độ chính xác không cao; sử dụng mô hình Markov bậc cao hơn hoặc Xích Markov sẽ cho kết quả dự đoán độ chính xác cao nhưng chúng phải tính toán với không gian trạng thái phức tạp; sử dụng luật kết hợp có nhược điểm là có quá nhiều luật, không dễ dàng để tìm thấy các tập luật thích hợp để đưa ra các dự đoán[9] Yêu cầu đặt ra là tìm ra một phương pháp khai phá sử dụng Web nhằm dự đoán truy cập người sử dụng mà cho kết quả dự đoán độ chính xác cao mà lại không liên kết với không gian trạng thái phức tạp
Chính vì vậy, luận văn lựa chọn chủ đề “Kết hợp kỹ thuật phân cụm và mô hình Markov
để dự đoán truy cập Web” làm đề tài nghiên cứu của mình
Trang 3Đề tài này tập trung nghiên cứu việc kết hợp các kỹ thuật phân cụm bằng cách chia các dữ liệu thành các cụm trước khi đưa vào thực hiện, sau đó, sử dụng mô hình Markov bậc thấp cho từng cụm dữ liệu thay vì phải thực hiện với toàn bộ tập dữ liệu
Luận văn được cấu trúc như sau:
Chương 1 Khai phá dữ liệu Web Phần này tập trung vào trình bày kiến trúc
chung cho quá trình khai phá Web trong đó tập trung tìm hiểu về quá trình khai phá việc sử dụng Web, các kỹ thuật khai phá việc sử dụng Web
Chương 2 Một số kỹ thuật dự đoán Chương này nghiên cứu một số kỹ thuật dự
đoán thường được sử dụng: Mô hình Markov, thuật toán phân cụm K – means; một
số hạn chế khi sử dụng Mô hình Markov và kỹ thuật phân cụm K- means Với những hạn chế đó, ta kết hợp mô hình Markov với kỹ thuật phân cụm nhằm giảm
không gian trạng thái phức tạp và cho kết quả độ chính xác dự đoán cao
trình thử nghiệm IMC và các đánh giá
theo của luận văn