Mô hình tư vấn dựa trên lọc nội dung có một số nhược điểm: quá tập trung chuyên ngành over-Specialization, vấn đề trích chọn đặc trưng feature extraction, vấn đề người dùng mới cold-Star
Trang 1ĐẠI HỌC ĐÀ NẴNG
PHAN QUỐC NGHĨA
HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý
THỐNG KÊ
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng - Năm 2018
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
PHAN QUỐC NGHĨA
HỆ TƢ VẤN DỰA TRÊN PHÂN TÍCH HÀM Ý
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự hướng dẫn của PGS.TS Huỳnh Xuân Hiệp và TS Đặng Hoài Phương Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không sao chép từ bất kỳ công trình nghiên cứu nào khác Một số kết quả nghiên cứu là thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng trong luận án Mọi trích dẫn trong luận án đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ
Tác giả
Phan Quốc Nghĩa
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
MỤC LỤC ii
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT vi
DANH MỤC CÁC BẢNG viii
DANH MỤC CÁC HÌNH x
MỞ ĐẦU 1
1 Tính cấp thiết của luận án 1
2 Mục tiêu, phương pháp, đối tượng và phạm vi nghiên cứu của luận án 3
3 Các đóng góp của luận án 4
4 Bố cục của luận án 5
CHƯƠNG 1 TỔNG QUAN 9
1.1 Phân tích hàm ý thống kê 9
1.2 Khuynh hướng biến thiên hàm ý thống kê 11
1.3 Mô hình tư vấn 13
1.3.1 Các khái niệm cơ bản 13
1.3.2 Mô hình tư vấn dựa trên lọc nội dung 14
1.3.2.1 Bài toán tư vấn lọc nội dung 14
1.3.2.2 Các nhược điểm của mô hình tư vấn dựa trên lọc nội dung 16
1.3.3 Mô hình tư vấn dựa trên lọc cộng tác 17
1.3.3.1 Bài toán tư vấn dựa trên lọc cộng tác 18
1.3.3.2 Lọc cộng tác dựa trên bộ nhớ 18
1.3.3.3 Lọc cộng tác dựa trên mô hình 20
1.3.3.4 Các nhược điểm của mô hình tư vấn lọc cộng tác 20
1.3.4 Mô hình tư vấn dựa trên các đặc tính nhân khẩu học 21
1.3.5 Mô hình tư vấn dựa trên tri thức 22
1.3.6 Mô hình tư vấn dựa trên luật kết hợp 24
1.3.7 Mô hình tư vấn dựa trên phân tích hàm ý thống kê 25
Trang 51.3.8 Mô hình tư vấn tích hợp 26
1.4 Đánh giá mô hình tư vấn 27
1.4.1 Phương pháp xây dựng dữ liệu đánh giá 28
1.4.2 Phương pháp đánh giá mô hình tư vấn 29
1.4.2.1 Đánh giá dựa trên giá trị xếp hạng dự đoán 29
1.4.2.2 Đánh giá dựa trên kết quả tư vấn 29
1.5 Ứng dụng của mô hình tư vấn 30
1.6 Hướng phát triển của mô hình tư vấn 31
1.7 Kết luận chương 1 32
CHƯƠNG 2 PHÂN LỚP ĐỘ ĐO HẤP DẪN KHÁCH QUAN THEO THAM SỐ HÀM Ý THỐNG KÊ 34
2.1 Độ đo hấp dẫn khách quan 34
2.2 Phân lớp độ đo hấp dẫn khách quan 36
2.2.1 Phân lớp độ đo dựa trên khảo sát các thuộc tính 36
2.2.2 Phân lớp độ đo dựa trên khảo sát các hành vi 37
2.3 Phân lớp độ đo hấp dẫn khách quan theo tham số hàm ý thống kê 37
2.3.1 Quy tắc xác định giá trị biến thiên của độ đo dựa trên đạo hàm riêng 38
2.3.2 Quy tắc phân lớp độ đo dựa trên thuộc tính biến thiên 40
2.4 Kết quả phân lớp các độ đo hấp dẫn khách quan bất đối xứng 41
2.4.1 Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n 43
2.4.2 Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n 45
2.4.3 Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n 47
2.4.4 Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n 48
2.5 So sánh và đánh giá kết quả phân lớp theo tham số hàm ý thống kê 51
2.6 Kết luận chương 2 52
CHƯƠNG 3 MÔ HÌNH TƯ VẤN DỰA TRÊN CHỈ SỐ HÀM Ý THỐNG KÊ 53
3.1 Luật kết hợp dựa trên thuộc tính quyết định 53
3.1.1 Định nghĩa luật kết hợp dựa trên thuộc tính quyết định 53
3.1.2 Thuật toán sinh luật kết hợp dựa trên thuộc tính quyết định 54
Trang 63.2 Tham số hàm ý thống kê của luật kết hợp 56
3.2.1 Tham số hàm ý thống kê 56
3.2.2 Tham số hàm ý thống kê dựa trên ma trận nhị phân 57
3.2.2.1 Chuyển tập dữ liệu giao dịch sang ma trận thưa nhị phân 57
3.2.2.2 Chuyển tập luật kết hợp sang ma trận thưa nhị phân 58
3.2.2.3 Xác định giá trị cho các tham hàm ý thống kê của từng luật kết hợp59 3.3 Tính giá trị chỉ số hàm ý thống kê và giá trị đạo hàm riêng dựa trên các tham số hàm ý thống kê 61
3.4 Mô hình tư vấn dựa trên chỉ số hàm ý thống kê 61
3.4.1 Định nghĩa mô hình tư vấn dựa trên chỉ số hàm ý thống kê 61
3.4.2 Thuật toán tư vấn dựa trên chỉ số hàm ý thống kê 63
3.5 Thực nghiệm 64
3.5.1 Dữ liệu thực nghiệm 64
3.5.2 Đánh giá độ chính xác của mô hình trên tập dữ liệu chuẩn 67
3.5.3 Đánh giá độ chính xác của mô hình trên tập dữ liệu thực 68
3.6 Kết luận chương 3 72
CHƯƠNG 4 MÔ HÌNH TƯ VẤN LỌC CỘNG TÁC DỰA TRÊN CƯỜNG ĐỘ HÀM Ý THỐNG KÊ 73
4.1 Luật kết hợp dựa trên cường độ hàm ý thống kê 73
4.1.1 Định nghĩa luật kết hợp dựa trên cường độ hàm ý thống kê 73
4.1.2 Thuật toán sinh luật kết hợp dựa trên cường độ hàm ý thống kê 74
4.2 Mô hình tư vấn lọc cộng tác dựa trên cường độ hàm ý thống kê 76
4.2.1 Định nghĩa mô hình tư vấn dựa trên cường độ hàm ý thống kê 76
4.2.2 Thuật toán tư vấn dựa trên cường độ hàm ý thống kê 78
4.2.3 Đánh giá độ chính xác của mô hình 79
4.3 Thực nghiệm 81
4.3.1 Dữ liệu thực nghiệm 81
4.3.2 So sánh độ chính xác của mô hình trên dữ liệu xếp hạng dạng nhị phân và dữ liệu xếp hạng dạng số thực 81
Trang 74.3.3 Độ chính xác của mô hình so với các mô hình tư vấn lọc cộng tác khác82
4.4 Kết luận chương 4 84
CHƯƠNG 5 MÔ HÌNH TƯ VẤN LỌC CỘNG TÁC DỰA TRÊN TƯƠNG ĐỒNG HÀM Ý THỐNG KÊ 85
5.1 Độ đo tương đồng dựa trên cường độ hàm ý thống kê 85
5.1.1 Độ đo tương đồng hàm ý thống kê giữa hai người dùng 86
5.1.2 Thuật toán đo độ tương đồng hàm ý thống kê giữa hai người dùng 86
5.1.3 Tính chất của độ đo tương đồng hàm ý thống kê giữa hai người dùng 87 5.2 Mô hình tư vấn lọc cộng tác dựa trên tương đồng hàm ý thống kê 89
5.2.1 Định nghĩa mô hình tư vấn dựa trên tương đồng hàm ý thống kê 89
5.2.2 Thuật toán tư vấn lọc cộng tác dựa trên tương đồng hàm ý thống kê 90
5.3 Thực nghiệm 92
5.3.1 Dữ liệu thực nghiệm 92
5.3.2 Đánh giá mô hình trên dữ liệu xếp hạng dạng số thực 92
5.3.2.1 Đánh giá mô hình dựa trên kết quả xếp hạng 93
5.3.2.2 Đánh giá mô hình dựa trên kết quả tư vấn 94
5.3.3 Đánh giá mô hình trên dữ liệu xếp hạng dạng nhị phân 94
5.4 Kết luận chương 5 97
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 98 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ
TÀI LIỆU THAM KHẢO
PHỤ LỤC
Trang 8
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Phân tích hàm ý thống kê Statistical implicative analysis ASI Khuynh hướng biến thiên hàm ý
thống kê
Tendency of variation in statistical implications
Độ đo hấp dẫn khách quan Objective interestingness measures
Độ đo hấp dẫn chủ quan Subjective interestingness measures
Độ đo chỉ số hàm ý thống kê Implication index
Độ đo cường độ hàm ý thống kê Implication intensity
Độ đo tương đồng Similarity measures
Mô hình tư vấn Recommender models RM
Mô hình tư vấn dựa trên lọc nội
dung Content-based recommender models CB
Hồ sơ người dùng User profile
Mô hình tư vấn dựa trên lọc
Mô hình tư vấn dựa trên đặc tính
nhân khẩu học Demographic recommender models DRM
Mô hình tư vấn dựa trên tri thức Knowledge-based recommender
Trang 9Mô hình tƣ vấn dựa trên phân
tích hàm ý thống kê
Recommender model based on statistical implicative analysis ASICF
Mô hình tƣ vấn tích hợp Hybrid recommender models HRM
Mô hình tƣ vấn dựa trên tính
toán thông minh
Computational Intelligence-based recommender models CIRM
Mô hình tƣ vấn dựa trên mạng
hạng Evaluation based on the ratings
Đánh giá dựa trên kết quả tƣ vấn Evaluation based on
recommendation results
Trang 10DANH CÁC MỤC BẢNG
Bảng 1.1 Ma trận hỗn độn 30
Bảng 2.1 Kết quả khảo sát các độ đo dựa trên đạo hàm riêng 4 tham số 42
Bảng 2.2 Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo n 43
Bảng 2.3 Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo 45
Bảng 2.4 Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo 47
Bảng 2.5 Kết quả phân lớp các độ đo dựa trên đạo hàm riêng theo ̅ 49
Bảng 3.1 Tập dữ liệu phân nhóm thí sinh 55
Bảng 3.2 Kết quả sinh tập phổ biến 1 phần tử 55
Bảng 3.3 Kết quả sinh tập phổ biến 2 phần tử 55
Bảng 3.4 Kết quả sinh tập phổ biến 3 phần tử 56
Bảng 3.5 Kết quả sinh luật kết hợp dựa trên thuộc tính quyết định 56
Bảng 3.6 Kết quả chuyển từ dữ liệu giao dịch sang dạng ma trận nhị phân 57
Bảng 3.7 Kết quả chuyển từ luật kết hợp sang dạng ma trận nhị phân 58
Bảng 3.8 Kết quả chuyển vế trái của luật kết hợp sang dạng ma trận nhị phân 59
Bảng 3.9 Kết quả chuyển vế phải của luật kết hợp sang dạng ma trận nhị phân 59
Bảng 3.10 Giá trị các tham số ̅ cho từng luật kết hợp 60
Bảng 3.11 Giá trị chỉ số hàm ý thống kê và giá trị đạo hàm riêng theo các tham số hàm ý thống kê của từng luật kết hợp 61
Bảng 3.12 Nội dụng chi tiết của tập dữ liệu Lenses 65
Bảng 3.13 Mẫu dữ liệu tuyển sinh đã xử lý 66
Bảng 3.14 Tập luật kết hợp sinh ra trên tập dữ liệu Lenses 67
Bảng 3.15 Kết quả xác định các tham số hàm ý thống kê ̅ 67
Bảng 3.16 Kết quả tính giá trị của độ đo chỉ số hàm ý thống kê và giá trị đạo hàm riêng theo các tham số hàm ý thống kê cho từng luật kết hợp 68
Bảng 3.17 Kết quả tƣ vấn với các thuộc tính điều kiện {i1=1, i2=2, i3=2, i4=1} 68
Bảng 3.18 Kết quả sinh luật kết hợp cho mô hình trên tập dữ liệu DVT-Data 69
Bảng 3.19 Kết quả xác định các tham số , , , ̅ của 10 luật kết hợp đầu tiên của mô hình tƣ vấn 69
Trang 11Bảng 3.20 Danh sách 10 luật kết hợp có giá trị chỉ số hàm ý thống kê cao nhất 70
Bảng 3.21 Kết quả tư vấn ngành học dựa trên chỉ số hàm ý thống kê 71
Bảng 4.1 Ma trận xếp hạng của người dùng cho các sản phẩm 79
Bảng 4.2 Tập luật cho từng người dùng và các sản phẩm tư vấn 80
Bảng 4.3 So sánh độ chính xác của các mô hình trên hai kịch bản dữ liệu 82
Bảng 5.1 Ma trận xếp hạng của hai người dùng 88
Bảng 5.2 Danh sách luật kết hợp cho hai người dùng , 88
Bảng 5.3 Kết quả xác định các tham số và tính giá trị cường độ hàm ý thống kê của từng luật kết hợp 88
Bảng 5.4 So sánh các thông số lỗi của hai mô hình 93
Trang 12DANH MỤC CÁC HÌNH
Hình 1 Mối quan hệ giữa các chương của luận án 7
Hình 1.1 Mô hình biểu diễn phương pháp phân tích hàm ý thống kê 9
Hình 1.2 Mô hình tư vấn tổng quát 13
Hình 2.1 Bản số của một luật kết hợp 35
Hình 2.2 So sánh sự biến thiên của độ đo Implication index và độ đo Implication intensity theo tham số n ( ̅ ) 44
Hình 2.3 Biểu diễn sự biến thiên giảm của độ đo Implication index theo tham số v n ̅ 46
Hình 2.4 Biểu diễn sự độc lập của độ đo Laplace theo tham số v n ̅ 48
Hình 2.5 Biểu diễn sự phụ thuộc giá trị của độ đo J-measures theo tham số ̅
v n ̅ 50
Hình 3.1 Mô hình tư vấn dựa trên chỉ số hàm ý thống kê 62
Hình 4.1 Mô hình tư vấn lọc cộng tác dựa trên cường độ hàm ý thống kê 78
Hình 4.2 Biểu đồ cho thấy mô hình có độ chính xác cao trên dữ liệu xếp hạng dạng nhi phân 82
Hình 4.3 So sánh độ chính xác của các mô hình tư vấn 83
Hình 4.4 Biểu đồ so sánh đường tỷ lệ Precision/Recall của các mô hình 84
Hình 5.1 Mô hình tư vấn lọc cộng tác dựa trên tương đồng hàm ý thống kê 89
Hình 5.2 Ví dụ minh họa mô hình tư vấn lọc cộng tác dựa trên tương đồng hàm ý thống kê (A) Ma trận xếp hạng và tính toán danh sách các sản phẩm dự đoán cho người dùng u ; (B) Xác định danh sách người dùng tương đồng với người dùng u 91
Hình 5.3 Các phim được mô hình chọn để tư vấn của 4 người dùng đầu tiên 92
Hình 5.4 Biểu đồ cho thấy thông số lỗi trên từng người dùng của mô hình sử dụng độ đo SIS thấp hơn so với mô hình sử dụng độ đo Pearson 93
Hình 5.5 So sánh kết quả đánh giá độ chính xác của hai mô hình 94
Trang 13Hình 5.6 Các trang web được mô hình chọn tư vấn cho 6 người dùng đầu tiên 95Hình 5.7 So sánh kết quả đánh giá trung bình của k-fold = 5 khi số trang web được giới thiệu tăng dần từ 1 đến 15 96Hình 5.8 Biểu đồ ROC so sánh tỷ số precision - recall trên hai mô hình 96
Trang 14MỞ ĐẦU
1 Tính cấp thiết của luận án
Vấn đề quá tải thông tin (information overload) [6] thật sự trở nên phổ biến với sự phát triển mạnh mẽ của Internet và các mạng xã hội, lượng thông tin mà con người được tiếp cận đang ngày càng mở rộng Mỗi ngày, chúng ta sẽ tiếp xúc với nhiều nguồn thông tin: các thông tin trao đổi qua email, các bài báo trên mạng Internet, các bài đăng tải trên mạng xã hội, các thông tin quảng cáo từ các trang thương mại điện tử Với sự mở rộng thông tin từ Internet và các mạng xã hội như hiện này, việc lựa chọn thông tin hữu ích để ra quyết định của người dùng máy tính
và các thiết bị thông minh sẽ ngày một khó khăn hơn Mô hình tư vấn (recommender models) [27] được xem là một giải pháp hỗ trợ người dùng lựa chọn thông tin hiệu quả và được ứng dụng rộng rãi trong nhiều lĩnh vực
Mô hình tư vấn có khả năng tự động phân tích thông tin, phân loại, lựa chọn
và cung cấp cho người dùng những sản phẩm, hàng hóa, dịch vụ được quan tâm thông qua việc ứng dụng các kỹ thuật thống kê và trí tuệ nhân tạo (hệ chuyên gia, hệ
mờ, hệ hỗ trợ quyết định) Trong đó, các giải thuật học máy có vai trò quan trọng [12], [38] Dựa trên kỹ thuật tính toán kết quả tư vấn từ dữ liệu, người ta chia mô hình tư vấn thành nhiều loại khác nhau Mô hình tư vấn dựa trên lọc cộng tác (collaborative filtering recommender models) được sử dụng rộng rãi trong các lĩnh vực thương mại [27], [44], [58], tư vấn các sản phẩm cho người dùng dựa trên sự tương đồng giữa người dùng và cộng đồng người dùng sử dụng sản phẩm Khi đó, người dùng được tư vấn sử dụng sản phẩm khi đa số người dùng sử dụng sản phẩm
có cùng sở thích trên các sản phẩm đó Ngược lại, mô hình tư vấn dựa trên lọc nội dụng (content-based recommender models) đưa ra các sản phẩm gợi ý cho người dùng khi sản phẩm đó tương đồng với các sản phẩm khác đã được người dùng thích trong quá khứ [36], [54] Mô hình tư vấn dựa trên các đặc tính nhân khẩu học (demographic recommender models) đưa ra các sản phẩm gợi ý cho người dùng bằng cách sử dụng các thông tin nhân khẩu học của người dùng như giới tính, độ tuổi, quốc tịch [8], [53] Mô hình tư vấn dựa trên tri thức (knowledge-based
Trang 15recommender models) đưa ra các sản phẩm gợi ý cho người dùng dựa trên tri thức chuyên ngành, xác định sự phù hợp của sản phẩm (dựa trên các thuộc tính mô tả) với nhu cầu hay sở thích của người dùng, nhằm đạt được mục tiêu sản phẩm hữu dụng với người dùng [2], [69], [78] Mô hình tư vấn tích hợp (hybrid recommender models) được đề xuất nhằm hạn chế các khuyết điểm của các phương pháp trên [13], [45], [71] Thông thường, các giải pháp tư vấn tích hợp sử dụng từ hai hoặc nhiều giải pháp tư vấn khác nhau nhằm khắc phục các yếu điểm của từng giải pháp đơn lẻ Nhiều nghiên cứu chứng mình rằng các mô hình tư vấn tích hợp cho kết quả chính xác hơn các mô hình tư vấn đơn lẻ [12] Tuy nhiên, các mô hình này cũng yêu cầu cao hơn về chi phí tài nguyên và thời gian tính toán
Với sự đa dạng của các mô hình và giải pháp tư vấn, các mô hình tư vấn đã được triển khai và ứng dụng thực tế trong nhiều lĩnh vực (quản lý, thương mại, y tế, giáo dục, giải trí) Tuy nhiên, trong các mô hình tư vấn hiện tại vẫn tồn tại các vấn
đề kỹ thuật cần được tiếp tục nghiên cứu và hoàn thiện Mô hình tư vấn dựa trên lọc nội dung có một số nhược điểm: quá tập trung chuyên ngành (over-Specialization), vấn đề trích chọn đặc trưng (feature extraction), vấn đề người dùng mới (cold-Start);
Mô hình tư vấn dựa trên lọc cộng tác gặp phải những hạn chế: vấn đề người dùng mới/sản phẩm mới (cold-Start), vấn đề dữ liệu thưa (sparsity), vấn đề thích ứng quy
mô của hệ thống (scalability problem); Mô hình tư vấn dựa trên các đặc tính nhân khẩu có một số nhược điểm: xác định nhóm người dùng (user groups), xác định sở thích của nhóm người dùng (preferences of users), thu thập thông tin cá nhân (demographic of users); Mô hình tư vấn dựa trên tri thức có một số nhược điểm: vấn đề chi phí cho việc thu thập tri thức (cost of knowledge acquisition), vấn đề tương tác với người dùng (interaction with users), vấn đề tính độc lập sở thích người dùng (independence preferences of users)
Đề tài “Hệ tư vấn dựa trên phân tích hàm ý thống kê” được thực hiện trong khuôn khổ luận án tiến sĩ chuyên ngành khoa học máy tính với mong muốn được đóng góp một phần vào lĩnh vực nghiên cứu hệ tư vấn, cụ thể là mô hình tư vấn lọc cộng tác
Trang 162 Mục tiêu, phương pháp, đối tượng và phạm vi nghiên cứu của luận án
2.1 Mục tiêu nghiên cứu
Luận án được thực hiện nhằm nghiên cứu các độ đo hấp dẫn khách quan (objective interestingness measures) [5], phương pháp phân tích hàm ý thống kê (statistical implicative analysis) [73] và khuynh hướng biến thiên hàm ý thống kê [74] nhằm cải tiến độ chính xác của mô hình tư vấn lọc cộng tác dựa trên cách tiếp cận bất đối xứng Cụ thể hơn, luận án hướng đến hai mục tiêu chính sau:
- Nghiên cứu cách tiếp cận bất đối xứng của phương pháp phân tích hàm ý thống kê, trong đó quan tâm đến độ đo chỉ số hàm ý thống kê (implication index),
độ đo cường độ hàm ý thống kê (implication intensity) và khuynh hướng biến thiên hàm ý thống kê Từ đó xác định mối quan hệ hàm ý thống kê giữa các sản phẩm cần
tư vấn cũng như mức độ hàm ý giữa các nhóm người dùng dựa trên phương pháp phân tích hàm ý thống kê
- Nghiên cứu các mô hình tư vấn hiện tại như: tư vấn dựa trên nội dung, tư vấn dựa trên lọc công tác, tư vấn dựa trên tri thức, tư vấn dựa trên đặc tính nhân khẩu học và mô hình tư vấn tích hợp, quan tâm đến mô hình tư vấn dựa trên lọc cộng tác sử dụng các độ đo tương đồng Trên cơ sở đó, đề xuất các mô hình tư vấn lọc cộng tác dựa trên các độ đo được đề xuất từ phương pháp tiếp cận bất đối xứng: chỉ số hàm ý thống kê, cường độ hàm ý thống kê, tương đồng hàm ý thống kê và luật kết hợp
2.2 Đối tương nghiên cứu
- Thứ nhất, các độ đo hấp dẫn khách quan
- Thứ hai, phương pháp phân tích hàm ý thống kê, khuynh hướng biến thiên hàm ý thống kê
- Thứ ba, các mô hình tư vấn dựa trên phân tích hàm ý thống kê
2.3 Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý thuyết: phân tích, tổng hợp các nghiên cứu có liên quan đến nội dung nghiên cứu từ tài liệu tham khảo: sách, bài báo công bố trên tạp chí và kỷ yếu hội thảo để đề xuất các mô hình
Trang 17- Phương pháp nghiên cứu thực nghiệm: cài đặt và chạy thử nghiệm các mô hình đề xuất trên dữ liệu chuẩn đã công bố và dữ liệu thực tế
2.4 Phạm vi nghiên cứu
- Thứ nhất là nghiên cứu cách tiếp cận dựa trên bất đối xứng của phương pháp phân tích hàm ý thống kê, các phương pháp phân lớp độ đo Từ đó đề xuất một phương pháp phân lớp mới dựa trên tiếp cận bất đối xứng để phân lớp các độ
đo hấp dẫn khách quan
- Thứ hai là nghiên cứu độ đo chỉ số hàm ý thống kê, khuynh hướng biến thiên hàm ý thống kê đề xuất mô hình tư vấn dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo chỉ số hàm ý thống kê
- Thứ ba là nghiên cứu mô hình tư vấn lọc cộng tác dựa trên luật kết hợp, độ
đo cường độ hàm ý thống kê đề xuất mô hình tư vấn lọc cộng tác dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo cường độ hàm ý thống kê
- Thứ tư là nghiên cứu mô hình tư vấn lọc công tác dựa trên người dùng, độ
đo cường độ hàm ý thống kê đề xuất độ đo tương đồng giữa hai người dùng dựa trên tiếp cận bất đối xứng sử dụng độ đo cường độ hàm ý thống kê, nhằm cải thiện
độ chính xác của mô hình tư vấn lọc cộng tác dựa trên người dùng
3 Các đóng góp của luận án
- Thứ nhất là đề xuất phương pháp phân lớp các độ đo hấp dẫn khách quan dựa trên tiếp cận bất đối xứng sử dụng các tham số hàm ý thống kê Phương pháp này giúp biểu thị mối quan hệ biến thiên giữa của các độ đo hấp dẫn khách quan với các tham số hàm ý thống kê Từ đó, chọn được độ đo phù hợp cho ứng dụng cụ thể
- Thứ hai là đề xuất mô hình tư vấn dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo chỉ số hàm ý thống kê Mô hình này giải quyết một lớp bài toán tư vấn khi các thuộc tính điều kiện và thuộc tính quyết định trên cùng một đối tượng dựa trên luật kết hợp, chỉ số hàm ý thống kê và khuynh hướng biến thiên hàm
ý thống kê Người dùng cung cấp các thuộc tính điều kiện để mô hình đưa ra các gợi ý giúp người dùng chọn các giá trị cho các thuộc tính quyết định Mô hình được thực nghiệm trên hai tập dữ liệu: tập dữ liệu chuẩn gồm 5 thuộc tính và chỉ có 3 lớp
Trang 18(Lenses) [18] và tập dữ liệu thực tế gồm nhiều thuộc tính và có số lớp xác định theo từng năm (dữ liệu tuyển sinh trong 5 năm liên tục của Trường Đại học Trà Vinh) Kết quả thực nghiệm cho thấy mô hình đưa ra các luật tư vấn cho người dùng có thuộc tính quyết định chính xác so với dữ liệu thực tế
- Thứ ba là đề xuất mô hình tư vấn lọc cộng tác dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo cường độ hàm ý thống kê Mô hình này dựa trên tập luật kết hợp có độ ngạc nhiên cao (tập luật kết hợp được chọn dựa trên độ đo cường độ hàm ý thống kê) để đưa ra các kết quả tư vấn Mô hình được thực nghiệm trên hai tập dữ liệu: tập dữ liệu xếp hạng dạng số thực (MovieLens) [23] và tập dữ liệu xếp hạng dạng nhị phân (MSWeb) [46] Kết quả thực nghiệm cho thấy mô hình
tư vấn lọc cộng tác sử dụng luật kết hợp với độ đo cường độ hàm ý thống kê có độ chính xác cao trên tập dữ liệu xếp hạng dạng nhị phân
- Thứ tư là đề xuất độ đo tương đồng hàm ý thống kê dựa trên tiếp cận bất đối xứng để cải thiện độ chính xác của mô hình tư vấn lọc cộng tác dựa trên người dùng Độ đo này được xây dựng dựa trên luật kết hợp và độ đo cường độ hàm ý thống kê Độ đo được ứng dụng cho mô hình tư vấn lọc cộng tác dựa trên người dùng Qua kết quả thực nghiệm trên hai tập dữ liệu: tập dữ liệu xếp hạng dạng số thực (MovieLens) và tập dữ liệu xếp hạng dạng nhị phân (MSWeb) cho thấy mô hình sử dụng độ đo tương đồng hàm ý thống kê có độ chính xác cao hơn so với mô hình sử dụng độ đo tương đồng Pearson, Jaccard [57]
- Thứ năm là xây dựng được bộ công cụ thực nghiệm ARQAT (Association Rule Quality Analysis Tool) trên ngôn ngữ R Bộ công cụ này gồm các chức năng:
xử lý dữ liệu, sinh luật kết hợp, xác định các tham số hàm ý thống kê, tính giá trị hấp dẫn cho luật kết hợp dựa trên 4 tham số hàm ý thống kê, tính độ tương đồng của hai đối tượng dựa trên cường độ hàm ý thống kê, các chức năng xây dựng và đánh giá các mô hình tư vấn lọc cộng tác
4 Bố cục của luận án
Dựa trên mục tiêu, đối tượng và phạm vi nghiên cứu nêu trên, ngoài phần mở đầu và phần kết luận và hướng phát triển, luận án được cấu trúc gồm 5 chương và 6
Trang 19phụ lục, trong đó mối quan hệ về kiến thức giữa các chương trong luận án được trình bày chi tiết trong Hình 1
Chương 1: Giới thiệu tổng quan về phương pháp phân tích hàm ý thống kê,
khuynh hướng biến thiên hàm ý thống kê và mô hình tư vấn Nghiên cứu các mô hình tư vấn, tập trung phân tích ưu nhược của từng mô hình, phương pháp đánh giá
mô hình và ứng dụng của chúng trong các lĩnh vực
Chương 2: Trình bày tổng quan về độ đo hấp dẫn khách quan, phân lớp các
độ đo hấp dẫn khách quan: phân lớp dựa trên thuộc tính của độ đo và phân lớp dựa trên hành vi của độ đo Trên cơ sở nghiên cứu và khảo sát giá trị biến thiên của các
độ đo hấp dẫn khách quan bằng cách lấy đạo hàm riêng của hàm tính giá trị hấp dẫn của độ đo theo các tham số hàm ý thống kê, luận án đề xuất một phương pháp mới dùng để phân lớp các độ đo Phương pháp phân lớp các độ đo hấp dẫn khách quan dựa trên tiếp cận bất đối xứng sử dụng các tham số hàm ý thống kê Sau đó, tiến hành phân lớp trên 39 độ đo hấp dẫn khách quan thỏa tính chất bất đối xứng (gọi tắt
là độ đo hấp dẫn khách quan bất đối xứng) Kết quả phân lớp cho thấy một số khả năng ứng dụng hỗ trợ cho người dùng lựa chọn được độ đo hấp dẫn khách quan phù hợp dựa trên: tính biến thiên tăng, giảm của từng độ đo theo các tham số hàm ý
thống kê, mối quan hệ giữa sự biến thiên giá trị của các độ đo với giá trị tham số hàm ý thông kê và sự phụ thuộc lẫn nhau giữa các tham số trong công thức tính giá trị hấp dẫn của các độ đo
Chương 3: Trình bày mô hình tư vấn dựa trên tiếp cận bất đối xứng sử dụng
luật kết hợp và độ đo chỉ số hàm ý thống kê Mô hình này dựa trên luật kết hợp, chỉ
số hàm ý thống kê và đạo hàm riêng của độ đo theo từng tham số để đưa ra kết quả
tư vấn cho người dùng Để khắc phục các nhược điểm của mô hình tư vấn truyền thống, mô hình này đặc biệt quan tâm đến tỷ lệ, mối quan hệ hàm ý giữa các thuộc tính điều kiện và các thuộc tính quyết định trên cùng một đối tượng người dùng bằng cách kết hợp giá trị chỉ số hàm ý thống kê và khuynh hướng biến thiên theo giá trị đạo hàm riêng theo từng tham số Thông qua thực nghiệm trên hai tập dữ liệu: tập dữ liệu chuẩn (Lenses) và tập dữ liệu tuyển sinh của Trường Đại học Trà Vinh,
Trang 20mô hình đưa ra các luật kết hợp có giá trị hỗ trợ người dùng lựa chọn được thuộc tính quyết định
Hình 1 1 Mối quan hệ giữa các chương của luận án Chương 4: Trình bày mô hình tư vấn lọc cộng tác mới, mô hình tư vấn lọc
cộng tác dựa trên cường độ hàm ý thống kê Mô hình này dựa trên tiếp cận bất đối xứng sử dụng luật kết hợp và độ đo cường độ hàm ý thống kê Trong đó, mô hình
sử dụng luật kết hợp có độ ngạc nhiên cao được lựa chọn dựa trên độ đo cường độ hàm ý thống kê Phần thực nghiệm được triển khai trên hai tập dữ liệu thực tế và so sánh kết quả với các mô hình tư vấn hiệu quả khác Kết quả so sánh cho thấy mô hình tư vấn lọc cộng tác dựa trên cường độ hàm ý thống kê có độ chính xác cao hơn
so với các mô hình tư vấn lọc cộng tác khác Đặc biệt, mô hình đề xuất có độ chính xác cao trên tập dữ liệu xếp hạng dạng nhị phân
Chương 5: Trình bày các bước xây dựng một độ đo tương đồng mới cho mô
hình tư vấn lọc cộng tác dựa trên người dùng Độ đo tương đồng giữa hai người dùng được xây dựng dựa trên tiếp cận bất đối xứng sử dụng độ đo cường độ hàm ý thống kê (gọi là độ đo tương đồng hàm ý thống kê) Từ độ đo tương đồng này, mô hình tư vấn lọc cộng tác dựa trên người dùng được xây dựng để kiểm tra độ chính
Trang 21xác của độ đo tương đồng vừa đề xuất so với các độ đo tương đồng phổ biến khác Kết quả thực nghiệm trên hai tập dữ liệu: dữ liệu xếp hạng dạng số thực (MovieLens) và và dữ liệu xếp hạng dạng nhị phân (MSWeb) cho thấy mô hình tư vấn sử dụng độ đo tương đồng hàm ý thống kê có độ chính xác cao hơn so với mô hình vấn lọc cộng tác dựa trên người dùng sử dụng các độ đo tương đồng truyền thống như: Pearson, Jaccard [57]
Phụ lục: Trình bày công thức tính của các độ đo hấp dẫn khách quan bất đối
xứng, công thức đạo hàm riêng theo các tham số hàm ý thống kê của các độ đo hấp dẫn khách quan bất đối xứng và bộ công cụ ARQAT trên ngôn ngữ R
Trang 22CHƯƠNG 1 TỔNG QUAN
Nội dung chính của chương này giới thiệu tổng quan về phương pháp phân
tích hàm ý thống kê [73], [72], khuynh hướng biến thiên hàm ý thống kê [74] và mô
hình tư vấn [27], [38], [39], [57] Nghiên cứu phân tích ưu nhược điểm của các mô
hình tư vấn được đề xuất trong nghiên cứu và ứng dụng
1.1 Phân tích hàm ý thống kê
Phân tích hàm ý thống kê (statistical implicative analysis) [73], [72], [74] là
phương pháp phân tích dữ liệu cho phép phát hiện các luật (a là các thuộc
tính của các đối tượng thuộc tập A, b là các thuộc tính của các đối tượng thuộc tập B) bất đối xứng theo dạng “nếu a gần như b” hoặc “Ở mức độ nào b ứng với hàm ý của
a” [73], [72], [74] Mục đích của phương pháp này là phát hiện xu hướng trong một
tập các thuộc tính (biến) bằng cách sử dụng hai độ đo chỉ số hàm ý thống kê và
cường độ hàm ý thống kê Khác với các phương pháp phân tích dữ liệu khác,
phương pháp phân tích hàm ý thống kê quan tâm đến mối quan hệ bất đối xứng giữa
các biến (khi giá trị hấp dẫn của luật khác với giá trị hấp dẫn của luật )
Độ đo hàm ý được sử dụng để phát hiện các luật có mối quan hệ hàm ý mạnh giữa
các thuộc tính vế trái với các thuộc tính vế phải Phân tích hàm ý thống kê được áp
dụng trong nhiều lĩnh vực như giáo dục, tâm lý, công nghệ thông tin v.v [73], [72], [74]
Hình 1.1 2 Mô hình biểu diễn phương pháp phân tích hàm ý thống kê [72]
Giả sử là một tập gồm đối tượng hoặc cá nhân được mô tả bởi một tập
hữu hạn các biến (thuộc tính) nhị phân Gọi là một tập con gồm các đối
Trang 23tượng thỏa các thuộc tính ; Gọi là một tập con gồm các đối tượng thỏa các thuộc tính ; ̅ (tương ứng ̅) là phần bù của (tương ứng ); là số phần tử của tập ; là số phần tử của tập ; Số phản ví dụ (counter-example) ̅ ̅ là số đối tượng thỏa thuộc tính nhưng không thỏa thuộc tính Gọi và là hai tập ngẫu nhiên có số phần tử là và tương ứng [73]
Trong quá trình chọn mẫu [73], biến ngẫu nhiên ̅ tuân theo phân phối Poisson với tham số ̅
Luật được cho là chấp nhận được đối với một ngưỡng cho trước α nếu:
̅ ̅ (1.2) Chúng ta hãy xem xét trường hợp ̅ Trong trường hợp này, biến ngẫu nhiên ̅ theo phân phối Poisson có thể được chuẩn hóa ngẫu nhiên như sau:
Giá trị này đo độ lệch giữa giá trị ngẫu nhiên và giá trị mong đợi khi a và b
là hai biến độc lập Giá trị này được gọi là chỉ số hàm ý thống kê [73]
Khi độ xấp xỉ được điều chỉnh phù hợp (ví dụ > 4), biến ngẫu nhiên
q ̅ có giá trị xấp xỉ phân phối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1 (N(0,1) - standard Normal distribution) Giá trị cường độ hàm ý thống kê của luật được định nghĩa bởi [73]:
Trang 24( ̅ ̅ )
{
∫ ̅
(1.5)
Độ đo này được sử dụng để xác định độ không chắc chắn của các phản ví dụ
̅ trong tập E Giá trị cường độ hàm ý thống kê được chấp nhận với
ngưỡng cho trước nếu
1.2 Khuynh hướng biến thiên hàm ý thống kê
Khuynh hướng biến thiên hàm ý thống kê (tendency of variation in statistical implications) [73], [74] là phương pháp nghiên cứu nhằm kiểm tra tính ổn định của cường độ hàm ý thống kê để thấy được sự biến thiên rất nhỏ của các độ đo trong không gian lân cận của các tham số , [73], [74] Việc xác định được khuynh hướng biến thiên hàm ý thống kê của các độ đo hấp dẫn cho thấy một số khả năng ứng dụng trong nghiên cứu các độ đo hấp dẫn và áp dụng thực tế: nghiên cứu tính biến thiên tăng hay giảm của các độ đo, mối quan hệ phụ thuộc biến thiên giữa các tham số Sau đây là ví dụ minh họa để xem xét khuynh hướng biến thiên hàm ý thống kê của độ đo chỉ số hàm ý thống kê [73], [74] theo 4 tham số với công thức độ đo được định nghĩa (1.4)
Để quan sát sự ổn định của chỉ số hàm ý thống kê q, ta phải xem xét những
biết đổi nhỏ lân cận của các tham số hàm ý thống kê Để làm được điều này, chúng ta phải khảo sát chi tiết trên từng tham số cụ thể và xem các tham
số này là các số thực thỏa mãn bất đẳng thức sau:
và (1.6) Trong trường hợp này q được xem như một hàm vi phân liên tục [74]:
Với M là điểm có tọa độ ( ); dM là véc tơ thành phần vi phân tăng của các tham số
Hàm là một hàm 4 tham số Để quan sát sự biến thiên của q theo các tham số ta tiến hành lấy đạo hàm riêng Trên thực tế, sự biến thiên này nằm
Trang 25trong sự ước lượng tăng của hàm q với sự biến thiên của q theo các biến thiên thành phần tương ứng , , Vì vậy, ta có công thức:
Lấy đạo hàm riêng của hàm q theo n trong công thức (1.4) [74]:
√ ( ̅
Công thức (1.9) cho thấy nếu xem 3 tham số ̅ là hằng số thì chỉ số hàm ý thống kê q giảm theo √ Do đó, chất lượng hàm ý tốt hơn Đây là đặc tính riêng biệt của chỉ số hàm ý thống kê so với các độ đo khác Tính chất này được tán thành trong thống kê với độ tin cậy từ tần suất quan sát [74]
Lấy đạo hàm riêng của hàm q theo trong công thức (1.4)[74]:
Lấy đạo hàm riêng của hàm q theo trong công thức (1.4) [74]:
̅( ) ( ) (1.11)
Lấy đạo hàm riêng của hàm q theo ta có công thức sau [74]:
̅
√ (1.12)
Từ hai công thức (1.11) và (1.12) cho thấy, nếu và có khuynh hướng tăng thì chỉ số hàm ý thống kê q có khuynh hướng tăng Điều này được lý giải như sau: nếu số lượng và tăng thì chỉ số hàm ý thống kê q tăng khi
tham số n và được cố định [74]
Trang 261.3 Mô hình tư vấn
1.3.1 Các khái niệm cơ bản
Bài toán tư vấn được coi là bài toán ước lượng xếp hạng (rating) của các sản phẩm chưa được người dùng xem xét [27], [38], [57] Việc ước lượng này thường được dựa trên những đánh giá đã có của chính người dùng đó hoặc những người dùng khác Những sản phẩm có hạng cao nhất sẽ được dùng để tư vấn Bài toán tư vấn được xây dựng thành mô hình tổng quát như Hình 1.2
bất kỳ tùy thuộc vào lĩnh vực ứng dụng cụ thể Giá trị của hàm f( , ) có thể được
xác định bởi người dùng hoặc được tính toán bởi công thức nào đó Mỗi người dùng
trong không gian U được xác định bởi một hồ sơ người dùng (user profile) Hồ sơ
người dùng này có thể gồm rất nhiều loại thông tin: tên, tuổi, giới tính, thu nhập, vv
Trang 27hoặc có thể chỉ gồm một trường mã số người dùng (user id) duy nhất Tương tự như
thế, mỗi sản phẩm trong không gian I cũng được xác định bởi một tập các đặc trưng
Ví dụ, trong mô hình tư vấn phim cho người xem, đặc trưng của mỗi phim có thể là: thể loại, đạo diễn, diễn viên
Vấn đề chính của mô hình tư vấn là hàm f( , ) không được xác định trên toàn không gian U × I, mà chỉ trên một miền nhỏ của không gian đó [27], [38], [57] Điều này dẫn tới việc hàm f( , ) phải được ngoại suy trong không gian U × I
Thông thường, độ phù hợp được thể hiện bằng điểm và chỉ xác định trên tập các sản phẩm đã từng được người dùng đánh giá từ trước, tập này thường rất nhỏ Có rất nhiều cách để dự đoán, ước lượng hạng hoặc điểm cho các sản phẩm như sử dụng học máy, lý thuyết xấp xỉ, các thuật toán dựa trên kinh nghiệm và các thuật toán khác Các mô hình tư vấn được phân loại dựa trên cách sử dụng thuật toán ước lượng xếp hạng hoặc điểm của các sản phẩm
1.3.2 Mô hình tư vấn dựa trên lọc nội dung
Mô hình tư vấn dựa trên lọc nội dung là mô hình tư vấn dựa trên việc so sánh nội dung thông tin mô tả sản phẩm, nhằm tìm ra các sản phẩm tương tự với những sản phẩm người dùng đã từng quan tâm trong quá khứ để giới thiệu cho họ những sản phẩm này [12], [24], [27], [38], [57] Ví dụ, trong mô hình tư vấn phim, mô hình tìm ra các đặc tính chung của các phim như diễn viên, đạo diễn, thể loại người dùng đã đánh giá cao trong quá khứ để giới thiệu các phim có đặc tính tương tự nhưng người dùng chưa xem Các phương pháp tiếp cận cho mô hình tư vấn dựa trên lọc nội dung có nguồn gốc từ lĩnh vực truy vấn thông tin, trong đó sản phẩm được biểu diễn bằng một hồ sơ sản phẩm, người dùng được biểu diễn bằng một hồ
sơ người dùng Các phương pháp dự đoán của mô hình này thực hiện dựa vào việc xem xét các hồ sơ sản phẩm có mức độ phù hợp cao với hồ sơ người dùng
1.3.2.1 Bài toán tư vấn lọc nội dung
Cho { } là tập gồm m sản phẩm Nội dung của sản phẩm được ký hiệu là được biểu diễn thông qua tập các trọng số đặc trưng nội dung của các sản phẩm Tập các trọng số đặc trưng nội dụng của các sản
Trang 28phẩm được xây dựng bằng phép đo tần suất kết hợp với tần suất xuất hiện ngược
(Term Frequency / Inverse Document Frequency - TF-IDF) [7], [53] Phương pháp
này được thực hiện như sau:
Gọi là số lần xuất hiện của đặc trưng nội dung trong sản phẩm Khi
đó tần suất của đặc trưng nội dung trong sản phẩm được xác định theo công thức:
Phương pháp xác định tần suất xuất hiện ngược được thực hiện như sau:
Giả sử mô hình tư vấn có M sản phẩm cần được tư vấn cho người dùng và
đặc trưng nội dung xuất hiện trong sản phẩm Tần suất xuất hiện ngược của đặc trưng nội dung có tần suất xuất hiện trong sản phẩm là được xác định theo công thức sau:
Mức độ quan trọng hay trọng số của đặc trưng nội dung được xác định theo công thức sau:
(1.16) Trong công thức (1.15), nếu hay đặc trưng nội dung xuất hiện trong đại đa số các sản phẩm cần tư vấn đến người dùng, trọng số Nói cách khác, những đặc trưng nội dung có trong mọi sản phẩm, đặc trưng đó không
Trang 29chứa nhiều nội dung thông tin phản ánh sản phẩm Ngược lại, nếu đặc trưng nội dung chỉ xuất hiện trong một sản phẩm thì , khi đó Như vậy, những đặc trưng nội dung chỉ xuất hiện ở một sản phẩm và không xuất hiện ở những sản phẩm khác thì những đặc trưng nội dung này chứa nhiều nội dung quan trọng đối với sản phẩm
Bằng cách ước lượng này, mỗi sản phẩm được biểu diễn như một véc
tơ trọng số các đặc trưng nội dung ( ) , trong
đó là số lượng đặc trưng nội dung của toàn bộ sản phẩm
Cho { } là tập gồm n người dùng Với mỗi người dùng
, gọi là hồ sơ người dùng Hồ sơ của người dùng chính là lịch sử truy cập hoặc đánh giá của người dùng đối với các sản phẩm Mỗi
hồ sơ người dùng được biểu diễn bằng một véc tơ trọng số các đặc trưng nội dung , trong đó mỗi thể hiện mức độ quan
trọng của đặc trưng nội dung h đối với người dùng [53] Véc tơ trọng số được tính toán bằng nhiều kỹ thuật khác nhau như Rocchio [19], Bayesian [53], Winnow [61], và các độ đo tương đồng [65]
Bài toán tư vấn dựa trên lọc nội dung [12], [27], [38] đưa ra sản phẩm mới có
nội dung thích hợp với người dùng dựa trên tập hồ sơ sản phẩm ItemProfile( ) và
hồ sơ người dùng UserProfile( ) thông qua hàm được định nghĩa như sau:
( ) ( ) (1.17) Hàm ( ) xác định độ phù hợp giữa người dùng và sản phẩm dựa trên hai véc tơ ⃗⃗⃗⃗⃗⃗ và ⃗⃗⃗⃗⃗ thông qua các độ đo tương đồng như Cosine, Pearson, Jaccard [57]
1.3.2.2 Các nhược điểm của mô hình tư vấn dựa trên lọc nội dung
Mặc dù mô hình tư vấn dựa trên lọc nội dung đã áp dụng thành công trong nhiều lĩnh vực [12], [24], [27] Tuy nhiên, phương pháp này vẫn tồn tại một số nhược điểm sau:
Trang 30 Quá tập trung chuyên môn (over-Specialization) [12]: Mô hình tư vấn dựa
trên lọc nội dung có khuynh hướng giới thiệu các sản phẩm có sự tương đồng với các sản phẩm mà người dùng đã mua hoặc xếp hạng cao Ví dụ, một độc giả quan tâm đến các bài báo thuộc lĩnh vực kinh tế rất khó nhận được tư vấn về các bài báo thuộc lĩnh vực thể thao hoặc công nghệ
Vấn đề trích chọn đặc trưng (feature extraction) [12]: Mô hình tư vấn dựa
trên lọc nội dung kế thừa và phát triển chủ yếu dựa vào các phương pháp trích chọn đặc trưng trong lĩnh vực truy vấn thông tin Để có một tập các đặc trưng đầy đủ, các thuộc tính sản phẩm và hồ sơ người dùng phải được biểu diễn dưới dạng phù hợp để máy tính có thể tự động phân tích, tính toán trọng số các đặc trưng nội dung Vấn đề này sẽ càng khó hơn khi phải trích chọn các đặc trưng nội dung cho các đối tượng dữ liệu đa phương tiện như hình ảnh, âm thanh hay dịch vụ
Vấn đề người dùng mới (new User Problem) [12]: Các mô hình tư vấn dựa
trên lọc nội dung chỉ thực hiện hiệu quả khi người dùng mua hoặc xếp hạng một số lượng sản phẩm đủ lớn Khi người dùng mới vào hệ thống, hồ sơ người dùng chưa
có và các sản phẩm được người dùng mua hoặc xếp hạng cũng chưa có, vì vậy hệ thống sẽ không thể dự đoán chính xác các sản phẩm thích hợp cho người dùng
1.3.3 Mô hình tư vấn dựa trên lọc cộng tác
Mô hình tư vấn dựa trên lọc cộng tác [66] đã được ứng dụng thành công trong nhiều ứng dụng thương mại điện tử như Amazon [30], Netflix [17] Đây là một trong những giải pháp hiệu quả để giải quyết vấn đề bùng nổ thông tin cho các
hệ thống trực tuyến có số lượng người dùng tăng lên rất nhanh [12] Mô hình tư vấn dựa trên lọc cộng tác giới thiệu các sản phẩm cho người dùng dựa trên giả định những người dùng tương đồng nhau sẽ có sở thích giống nhau trên các sản phẩm hoặc người dùng có sở thích giống nhau trên các sản phẩm tương đồng nhau Vì vậy,
mô hình tư vấn dựa trên lọc cộng tác phụ thuộc hoàn toàn vào dữ liệu xếp hạng của người dùng cho các sản phẩm Ví dụ, trong mô hình tư vấn lọc cộng tác giới thiệu phim cho người xem, mô hình tìm nhóm người xem có cùng sở thích với người xem cần tư vấn trong quá khứ Sau đó, mô hình giới thiệu các phim được đánh giá cao
Trang 31bởi nhóm người xem này cho chính người xem cần tư vấn Mô hình tư vấn dựa trên lọc cộng tác được phân chia thành hai nhóm:
Nhóm dựa trên bộ nhớ (memory-based approaches) [83]: Các mô hình tư
vấn thuộc nhóm này sử dụng toàn bộ các sản phẩm được xếp hạng để sinh ra kết quả tư vấn hoặc dự đoán
Nhóm dựa trên mô hình (model-based approaches) [83]: Các mô hình tư
vấn thuộc nhóm này cho phép hệ thống học cách nhận dạng mẫu trong tập dữ liệu
để sinh ra kết quả tư vấn hoặc dự đoán
1.3.3.1 Bài toán tư vấn dựa trên lọc cộng tác
Ký hiệu { } là tập gồm n người dùng; { } là tập gồm m sản phẩm người dùng có thể lựa chọn Mỗi sản phẩm có thể là hàng hóa, phim, ảnh, tạp chí, tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin người dùng cần; { } là ma trận xếp hạng của người dùng cho các sản phẩm: mỗi dòng biểu thị cho một người dùng ( ), mỗi cột biểu thị cho một sản phẩm ( ), là giá trị đánh giá của người dùng đối với sản phẩm Giá trị có thể được thu thập trực tiếp bằng cách hỏi ý kiến người dùng hoặc thu thập gián tiếp thông qua cơ chế phản hồi của người dùng Giá trị trong trường hợp người dùng chưa đánh giá hoặc chưa biết đến sản phẩm Giả sử
là người dùng cần tư vấn [57] Bài toán tư vấn lọc cộng tác đưa ra đánh giá của đối với những sản phẩm chưa xếp hạng ( ), trên cơ sở đó tư vấn cho những sản phẩm có đánh giá cao
1.3.3.2 Lọc cộng tác dựa trên bộ nhớ
Trong mô hình tư vấn lọc cộng tác dựa trên bộ nhớ [83], việc xác định độ tương đồng giữa hai người dùng hoặc hai sản phẩm là rất quan trọng Hiện tại, trong lĩnh vực nghiên cứu máy học, có nhiều độ đo được đề xuất cho mục đích này Trong
đó, Pearson, Cosine là hai độ đo được nhiều mô hình tư vấn sử dụng
Trang 32Pearson là độ đo được sử dụng để xác định độ tương đồng giữa hai người dùng hoặc hai sản phẩm dựa trên tương quan thống kê Ví dụ, độ tương đồng của hai người dùng và được xác định bằng công thức [57]:
∑ ̅ ̅
√∑ ̅ √∑ ̅ (1.18) Trong đó là giá trị tương đồng giữa người dùng và người dùng
; I là tập các sản phẩm được xếp hạng bởi cả hai người dùng; là giá trị xếp hạng của người dùng cho sản phẩm ; ̅ là giá trị xếp hạng trung bình của người dùng ; là giá trị xếp hạng của người dùng cho sản phẩm ; ̅ là giá trị xếp hạng trung bình của người dùng ;
Cosine là độ đo được sử dụng để xác định độ tương đồng giữa hai người dùng hoặc hai sản phẩm dựa trên khoảng cách Cosine giữa hai véc tơ và véc tơ theo công thức [57]:
os( )
‖ ‖ ‖ ‖
∑
√∑ √∑ (1.19) Với là giá trị tương đồng giữa người dùng và người dùng ; m
là số chiều của véc tơ (số sản phẩm); là giá trị xếp hạng của người dùng cho sản phẩm ; là giá trị xếp hạng của người dùng cho sản phẩm
Để tính toán kết quả tư vấn cho người dùng , bước đầu tiên, mô hình tư vấn lọc cộng tác dựa trên bộ nhớ tính độ đo tương đồng giữa các người dùng hoặc giữa các sản phẩm dựa trên tổng giá trị xếp hạng của các người dùng khác và trọng
số trung bình Sau đó, giải thuật phân lớp được áp dụng dựa trên độ tương đồng để tìm ra người dùng cùng sở thích với người dùng Dựa trên danh sách người dùng tương đồng, mô hình sẽ tính giá trị xếp hạng dự đoán của người dùng đối với sản phẩm Thông thường, kết quả dự đoán được tính dựa trên công thức sau [57]:
Trang 33( ) ̅ ∑ ̅
∑ | | (1.20) Với ( ) là giá trị xếp hạng dự đoán của người dùng đối với sản phẩm ; u là giá trị tương đồng giữa người dùng và người dùng ; M là
số người dùng tương đồng; ̅ là giá trị xếp hạng trung bình của người dùng ;
là giá trị xếp hạng của người dùng cho sản phẩm
1.3.3.3 Lọc cộng tác dựa trên mô hình
Mô hình tư vấn lọc cộng tác dựa trên mô hình [83] sử dụng các giải thuật phân lớp, phân cụm và hồi quy để xây dựng mô hình huấn luyện Sau đó, mô hình huấn luyện được sử dụng để sinh ra kết quả dự đoán sở thích của người dùng về các sản phẩm chưa được đánh giá Ưu điểm của phương pháp này là mô hình huấn luyện có kích thước nhỏ hơn rất nhiều so với ma trận xếp hạng nên cho kết quả dự đoán nhanh và dễ cập nhật khi có thay đổi
1.3.3.4 Các nhược điểm của mô hình tư vấn lọc cộng tác
So với mô hình tư vấn dựa trên lọc nội dung, mô hình tư vấn dựa trên lọc cộng tác cho kết quả tư vấn chính xác hơn trong nhiều ứng dụng thực tế Tuy nhiên,
mô hình tư vấn dựa trên lọc cộng tác vẫn gặp phải những hạn chế cần được tiếp tục nghiên cứu như sau:
Vấn đề người dùng mới (new user problem) [12]: Giống như mô hình tư
vấn dựa trên lọc nội dung, để tìm chính xác các sản phẩm người dùng quan tâm, mô hình tư vấn dựa trên lọc cộng tác phải ước lượng được sở thích của người dùng đối với các sản phẩm mới thông qua những đánh giá của họ trong quá khứ Trong trường hợp một người dùng mới, chưa có bất cứ đánh giá nào cho các sản phẩm, khi
đó mô hình không thể đưa ra những kết quả tư vấn chính xác cho người dùng này
Vấn đề sản phẩm mới (new item problem) [12]: Trong các hệ thống thương
mại điện tử, các sản phẩm thường xuyên được bổ sung mới Một sản phẩm mới sẽ không có bất cứ đánh giá nào của người dùng cho sản phẩm này Do đó, mô hình không thể tư vấn sản phẩm này cho bất kỳ người dùng nào trong hệ thống
Trang 34 Vấn đề dữ liệu thưa (sparsity data problem) [12]: Kết quả dự đoán của mô
hình tư vấn dựa trên lọc cộng tác phụ thuộc chủ yếu vào các đánh giá của người dùng đối với các sản phẩm trong quá khứ (ma trận xếp hạng của người dùng cho các sản phẩm) Tuy nhiên, trong các hệ thống thực tế, số lượng người dùng và số lượng sản phẩm là rất lớn (hàng triệu người dùng và hàng nghìn sản phẩm), nhưng mỗi người dùng chỉ đánh giá trên một số sản phẩm được họ quan tâm và mỗi sản phẩm chỉ được đánh giá bởi một nhóm người dùng Vì thế ma trận xếp hạng của người dùng cho các sản phẩm luôn là một ma trận dữ liệu thưa
Vấn đề khả năng mở rộng của hệ thống (scalability problem) [12]: Trong
các mô hình tư vấn dựa trên lọc cộng tác thực tế, số lượng người dùng và số lượng sản phẩm thường tăng lên rất nhanh Vì vậy, để đảm bảo đáp ứng yêu cầu của người dùng, hệ thống yêu cầu nguồn tài nguyên phục vụ cho việc tính toán có thể vượt quá khả năng đáp ứng hiện tại của hệ thống
1.3.4 Mô hình tư vấn dựa trên các đặc tính nhân khẩu học
Mô hình tư vấn dựa trên các đặc tính nhân khẩu học [8], [53] giới thiệu các sản phẩm cho người dùng dựa trên các thông tin nhân khẩu học của người dùng như giới tính, độ tuổi, ngày sinh và các thông tin cá nhân khác Mô hình này phân nhóm các người dùng dựa trên các đặc tính nhân khẩu học Ví dụ, mô hình sẽ đưa những người dùng làm cùng nghề vào chung một nhóm hoặc những người dùng có cùng
độ tuổi cùng chung một nhóm Mô hình tư vấn dựa trên các đặc tính nhân khẩu cho rằng những người dùng cùng nhóm sẽ có cùng sự quan tâm hay sở thích về sản phẩm Dựa trên giao dịch mua bán hoặc đánh giá xếp hạng của những người dùng trong nhóm, mô hình sẽ xây dựng hồ sơ giao dịch cho nhóm người dùng Khi có một người dùng mới, mô hình sẽ xếp người dùng mới này vào một nhóm cụ thể trên
cơ sở xem xét các thông tin nhân khẩu học Sau đó, mô hình sẽ giới thiệu các sản phẩm cho người dùng mới này dựa trên hồ sơ giao dịch của nhóm mà người dùng mới được xếp vào [53] Vì vậy, mô hình không cần phải cập nhật hồ sơ người dùng
cụ thể như trong mô hình tư vấn dựa trên lọc nội dung hay mô hình tư vấn dựa trên
Trang 35lọc cộng tác Tuy nhiên, mô hình tư vấn dựa trên các đặc tính nhân khẩu có một số nhược điểm sau:
Xác định nhóm người dùng (identify user groups) [12]: Để xác định chính
xác nhóm cho một người dùng mới của mô hình là một vấn đề khó Bởi vì, nếu một người dùng bị xếp nhầm nhóm thì hầu như các sản phẩm tư vấn có thể trở nên vô nghĩa đối với người dùng này
Xác định sở thích của nhóm người dùng (identify preferences of user groups) [12]: Làm thế nào để xác định được danh sách các sản phẩm được nhóm
người dùng quan tâm cũng là một vấn đề phải giải quyết trong phương pháp tư vấn dựa trên các đặc tính nhân khẩu học
Thu thập thông tin nhân khẩu học của người dùng (collect demographic of users) [12]: Các mô hình tư vấn dựa trên các đặc tính nhân khẩu chỉ cho kết quả
chính xác khi chúng được cung cấp đầy đủ và chính xác các thông tin cá nhân của người dùng Tuy nhiên, các thông tin cá nhân của người dùng rất khó thu thập đầy
đủ do nhiều lý do như vấn đề riêng tư, vấn đề bảo mật Vì vậy, các thông tin này thường có độ chính xác không cao
1.3.5 Mô hình tư vấn dựa trên tri thức
Mô hình tư vấn dựa trên tri thức [2], [69], [78] là một mô hình cụ thể của mô hình tư vấn dựa trên thông tin mô tả các sản phẩm, sở thích của người dùng và các tiêu chí ràng buộc để giới thiệu các sản phẩm cho người dùng Mô hình này được áp dụng trong các tình huống các sản phẩm có tần suất mua không thường xuyên Ví
dụ, trong các lĩnh vực kinh doanh đặc thù như bất động sản, xe hơi, dịch vụ tài chính và các sản phẩm đắt giá khác Người dùng chỉ mua sản phẩm một lần và sử dụng trong thời gian dài Trong các trường hợp này, mô hình không thể dựa vào hồ
sơ giao dịch hay các đánh giá của người dùng để dự đoán sở thích của người dùng như trong phương pháp tư vấn dựa trên lọc nội dung hay lọc cộng tác Do phần lớn người dùng chỉ mua sản phẩm một lần với các yêu cầu chi tiết khác nhau [69] Vì thế, mô hình rất khó thu thập đủ các đánh giá xếp hạng cho một mô tả cụ thể của
Trang 36một sản phẩm Mặt khác, sở thích của người dùng về sản phẩm có thể thay đổi theo thời gian do người dùng sử dụng sản phẩm trong thời gian dài
Dựa trên mục đích tư vấn mô hình tư vấn dựa trên tri thức có thể được phân thành hai loại: Mô hình tư vấn dựa trên các ràng buộc (constraint-based recommender models) và Mô hình tư vấn dựa trên trường hợp mẫu (case-based recommender models) [38] Với mô hình tư vấn dựa trên các ràng buộc, người dùng xác định cụ thể các yêu cầu hoặc các ràng buộc trên các thuộc tính của sản phẩm Ví
dụ, khi người dùng cần mua máy ảnh kỹ thuật số, họ đưa ra các ràng buộc cụ thể như: độ phân giải phải lớn hơn 16, bộ nhớ phải trên 32GB, trọng lượng phải nhỏ hơn 0.3 kg Dựa trên các yêu cầu hoặc ràng buộc của người dùng, mô hình sinh ra các luật cụ thể để xác định độ phù hợp giữa yêu cầu người dùng với các thuộc tính sản phẩm Tùy theo số lượng loại kết quả trả về, người dùng có thể điều chỉnh các yêu cầu hay ràng buộc đã đưa ra ban đầu Quá trình sẽ lặp lại nhiều lần cho đến khi người dùng nhận được một kết quả thỏa mãn nhất Với mô hình tư vấn dựa trên trường hợp mẫu, các trường hợp cụ thể được chỉ rõ bởi người dùng như các mục tiêu hoặc các điểm mấu chốt Các độ đo tương đồng được định nghĩa trên các thuộc tính của sản phẩm để tìm ra sự tương đồng giữa các sản phẩm và các trường hợp mẫu Vì thế, các độ đo này được thiết kế dựa trên tri thức lĩnh vực cụ thể một cách cẩn thận Kết quả trả về thường được sử dụng như một trường hợp mục tiêu mới với các điều chỉnh của người dùng Quá trình điều chỉnh cứ tiếp tục cho đến khi người dùng tìm ra một sản phẩm mà họ thật sự thích
Tóm lại, hai mô hình trên đều cho người dùng cơ hội để điều chỉnh các yêu cầu của họ về sản phẩm cần tìm Tuy nhiên, cách điều chỉnh yêu cầu của người dùng khác nhau trên hai mô hình Trong mô hình tư vấn dựa trên trường hợp mẫu, các ví dụ được sử dụng như các điểm mấu chốt để hướng dẫn người dùng tìm kiếm dựa trên sự kết hợp với độ đo tương đồng Mô hình thường sử dụng giao diện đánh giá cho phép người dùng điều chỉnh một hay nhiều thuộc tính của sản phẩm họ cần tìm Trong mô hình tư vấn dựa trên các ràng buộc, các luật được sử dụng để hướng dẫn người dùng tìm kiếm Mô hình thường sử dụng giao diện tìm kiếm để người
Trang 37dùng điều chỉnh các ràng buộc của người dùng về sản phẩm cần tìm Phương pháp
tư vấn dựa trên tri thức đã xuất hiện trong nhiều ứng dụng thương mại điện tử để hỗ trợ người dùng chọn được sản phẩm phù hợp nhất Tuy nhiên, phương pháp này vẫn còn tồn tại một số nhược điểm sau cần được tiếp tục cải tiến:
Vấn đề chi phí cho việc thu thập tri thức (cost of knowledge acquisition)
[12]: Để có thể đưa ra các sản phẩm phù hợp với yêu cầu của người dùng, mô hình phải có đủ các tri thức về lĩnh vực của sản phẩm Các tri thức này phải được cung cấp từ các chuyên gia lĩnh vực
Vấn đề tương tác với người dùng (interaction with users) [12]: Để xác định
được yêu cầu của người dùng, mô hình phải tương tác liên tục với người dùng trong quá trình tư vấn như yêu cầu người dùng nhập các yêu cầu hoặc các ràng buộc dựa trên thuộc tính sản phẩm, xem xét kết quả và điều chỉnh các yêu cầu khi chưa tìm được kết quả tốt Việc mô hình phải tương tác quá nhiều với người dùng sẽ dẫn đến một số vấn đề phát sinh như người dùng cung cấp không chính xác thông tin, mất
nhiều thời gian cho việc điều chỉnh yêu cầu
Vấn đề tách rời sở thích của người dùng (independence preferences of users) [12]: Trong mô hình tư vấn dựa trên tri thức yêu cầu của từng người dùng
được xem xét độc lập để đưa ra kết quả tư vấn Điều này làm mất đi tính kế thừa các yêu cầu mang tính phổ biến trong cộng đồng người dùng và hệ thống phải mất nhiều thời gian để thu thập và tính toán cho người dùng mặc dù họ đã vào hệ thống
nhiều lần
1.3.6 Mô hình tư vấn dựa trên luật kết hợp
Mô hình tư vấn dựa trên luật kết hợp (recommender based on association rules model) đưa ra các sản phẩm tư vấn cho người dùng dựa trên tập luật kết hợp được sinh ra từ ma trận xếp hạng nhị phân của người dùng [59], [60] Để sinh tập luật kết hợp, ma trận xếp hạng được xem như một cơ sở dữ liệu với mỗi người dùng
là một giao dịch (transaction) chứa các sản phẩm được xếp hạng bằng 1 trong tập
các sản phẩm I của ma trận xếp hạng
Trang 38Khi đó, một giao dịch k được định nghĩa: { | } với là giá
trị xếp hạng của người dùng thứ k ( ) cho sản phẩm thứ j ( ); Từ đó, cơ sở dữ liệu giao dịch dùng để sinh luật kết hợp được định nghĩa: { } với là số người dùng trong tập dữ liệu xếp hạng
Các luật kết hợp được sinh ra từ cơ sở dữ liệu giao dịch có dạng [70]: với và Do số lượng luật kết hợp được sinh ra là rất lớn nên mô hình sử dụng các giá trị ngưỡng của hai độ đo support( ) > s; confidence( ) > c và chiều dài tối đa của luật | | để giới hạn số lượng luật kết hợp trong tập luật dùng cho mô hình
Từ tập luật kết hợp , mô hình tư vấn dựa trên luật kết hợp được định nghĩa [60]:
- là tập luật kết hợp dùng cho mô hình;
- là tập các sản phẩm của người dùng xếp hạng;
- { | } tìm tất cả các luật trong tập luật với vế trái chứa các sản phẩm được người dùng xếp hạng;
- { | st on n } chọn sản phẩm từ vế phải của tập luật với confidence( ) đạt giá trị cao nhất (các sản phẩm chưa được người dùng xếp hạng) để giới thiệu cho người dùng
1.3.7 Mô hình tư vấn dựa trên phân tích hàm ý thống kê
Mô hình tư vấn dựa trên phân tích hàm ý thống kê là một hướng tiếp cận mới cho mô hình tư vấn lọc cộng tác Trong hướng tiếp cận này, mô hình tư vấn lọc cộng tác được xây dựng dựa trên luật kết hợp và các độ đo được đề xuất từ phương pháp phân tích dữ liệu theo hướng tiếp cận bất đối xứng - Phương pháp phân tích hàm ý thống kê Mô hình tìm ra các sản phẩm tư vấn dựa trên tập luật kết hợp được xây dựng từ các độ đo xác định mối quan hệ hàm ý thống kê giữa các người dùng thông qua ma trận xếp hạng Mô hình được định nghĩa như sau:
- { } tập n người dùng;
- { } tập m sản phẩm;
Trang 39- { } ma trận xếp hạng của người dùng cho các sản phẩm;
- tập luật kết hợp được sinh ra từ ma trận xếp hạng
và độ đo hàm ý thống kê ;
- tập các sản phẩm tư vấn cho người dùng , các sản phẩm này được đưa ra dựa trên mối quan hệ hàm ý thống kê từ tập luật
1.3.8 Mô hình tư vấn tích hợp
Các mô hình tư vấn được trình bày ở phần trên khai thác các nguồn dữ liệu đầu vào khác nhau trong các ngữ cảnh khác nhau Ví dụ, mô hình tư vấn dựa trên lọc cộng tác, kết quả tư vấn được tính toán dựa trên dữ liệu xếp hạng của cộng đồng người dùng; mô hình tư vấn dựa trên lọc nội dung, kết quả tư vấn được tính toán dựa trên đặc trưng mô tả sản phẩm và dữ liệu xếp hạng của cá nhân người dùng cần
tư vấn; mô hình tư vấn dựa trên tri thức, cho kết quả tư vấn dựa trên các tương tác với người dùng trong bối cảnh tri thức lĩnh vực Tương tự như vậy, mô hình tư vấn dựa trên đặc tính nhân khẩu, sử dụng các thông tin nhân khẩu học của người dùng
để đưa ra các kết quả tư vấn Điều đáng chú ý là các mô hình khác nhau sử dụng các loại dữ liệu đầu vào khác nhau với các điểm mạnh và điểm yếu khác nhau Chẳng hạn như mô hình tư vấn dựa trên tri thức, có thể xử lý hiệu quả vấn đề thiếu thông tin của người dùng mới do mô hình không dựa trên dữ liệu có sẵn Ngược lại, mô hình tư vấn dựa trên lọc cộng tác lại cho kết quả tốt hơn khi khai thác dữ liệu có sẵn
Trong các trường hợp hệ thống có nhiều hơn một yếu tố dữ liệu đầu vào có sẵn, có thể linh hoạt trong việc sử dụng các mô hình tư vấn khác nhau cho việc cải thiện độ chính xác của kết quả tư vấn Trong trường hợp như vậy, nhiều cơ hội sử dụng mô hình tư vấn tích hợp [12] để đạt được kết quả tốt nhất cho mục đích tư vấn
Mô hình tư vấn tích hợp có liên quan chặt chẽ đến nhiều mô hình tư vấn đơn lẻ, trong đó sức mạnh của nhiều loại thuật toán học máy được kết hợp để tạo ra một mô hình hiệu quả hơn Mô hình tư vấn tích hợp không chỉ kết hợp sức mạnh của nhiều nguồn dữ liệu, mà còn có thể cải thiện hiệu quả của các mô hình tư vấn cụ thể (ví dụ,
mô hình tư vấn dựa trên lọc cộng tác) bằng cách kết hợp nhiều mô hình
Trang 40Mô hình tư vấn tích hợp [13], [45], [71] kết hợp hai hay nhiều mô hình tư vấn, nhằm đạt được kết quả tư vấn tốt hơn và loại bỏ các hạn chế của các mô hình
tư vấn đơn lẻ Hiện nay, các mô hình tư vấn được tích hợp từ phương pháp tư vấn dựa trên lọc cộng tác với một số phương pháp khác như phương pháp tư vấn dựa trên lọc nội dung và phương pháp tư vấn dựa trên các đặc tính nhân khẩu học Mô hình tích hợp giữa phương pháp lọc cộng tác và phương pháp tiếp cận dựa trên nội dung được sử dụng khá phổ biến trong các ứng dụng thương mại điện tử Sau đây là một số cách khác nhau để kết hợp phương pháp lọc cộng tác và phương pháp tiếp cận dựa trên lọc nội dung:
Mô hình sử dụng các phương pháp lọc dựa trên nội dung và lọc cộng tác một cách riêng biệt sau đó kết hợp kết quả dự đoán của hai phương pháp
Lồng ghép các đặc tính mạnh của phương pháp tư vấn dựa trên lọc nội dung vào mô hình tư vấn dựa trên lọc cộng tác
Lồng ghép các đặc tính mạnh của phương pháp tư vấn dựa trên lọc cộng tác vào mô hình tư vấn dựa trên lọc nội dung
Mô hình hợp nhất kết hợp các đặc tính mạnh của phương pháp tư vấn dựa trên lọc nội dung và phương pháp tư vấn dựa trên lọc cộng tác
1.4 Đánh giá mô hình tư vấn
Đánh giá mô hình tư vấn được dựa trên giả thuyết nếu mô hình chạy tốt trên
dữ liệu kiểm tra (các sản phẩm được người dùng xếp hạng), sẽ cho kết quả dự đoán tốt cho dữ liệu mới (các sản phẩm chưa được người dùng xếp hạng) [25] Trong đó,
ma trận xếp hạng của người dùng được chia làm hai phần dựa trên dòng (theo người dùng): phần được dùng để mô hình học gọi là tập huấn luyện và phần được dùng để kiểm tra kết quả dự đoán của mô hình gọi là tập kiểm tra Một mô hình được đánh giá là tốt nếu nó đưa ra các giá trị xếp hạng gần giống với các giá trị xếp hạng mà người dùng đã xếp hạng cho các sản phẩm trong tập kiểm tra hoặc các sản phẩm được mô hình chọn làm kết quả tư vấn cho người dùng là các sản phẩm được người dùng đó mua hoặc xếp hạng cao trong tập kiểm tra [34] Để đánh giá độ chính xác của mô hình tư vấn, người ta sử dụng một trong hai phương pháp: đánh giá dựa trên