Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê

NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN - Một là, đề xuất hai mức độ quan trọng hàm ý thống kê mới KnnUIR và KnnIIR dùng để dự đoán xếp hạng của người cần tư vấn. KnnUIR và KnnIIR được dựa trên một số mức độ quan trọng hàm ý thống kê có sẵn và kết hợp nhiều yếu tố tác động đến việc dự đoán xếp hạng; qua đó cải thiện hiệu quả tư vấn. - Hai là, đề xuất ba mô hình tư vấn mới SIR, UIR và IIR có thể áp dụng cho cả dữ liệu nhị phân và dữ liệu phi nhị phân. Những mô hình này sử dụng các mức độ quan trọng hàm ý thống kê có sẵn, KnnUIR và KnnIIR tương ứng để gợi ý cho người dùng danh sách các mục dữ liệu phù hợp. Các mô hình đề xuất được đánh giá theo tính chính xác của gợi ý và của xếp hạng dự đoán trên cả dữ liệu nhị phân và phi nhị phân. Kết quả thực nghiệm cho thấy hiệu quả tư vấn những các mô hình này cao hơn của những mô hình hiện có được so sánh. - Ba là, phát triển công cụ phần mềm Interestingnesslab dùng cho thực nghiệm. Công cụ này cài đặt các hàm tiện ích và các mô hình tư vấn đề xuất bằng ngôn ngữ R. Các hàm tiện ích được sử dụng để xây dựng, tích hợp và đánh giá các mô hình tư vấn đề xuất. - Bốn là, thu thập tập dữ liệu nhị phân DKHP có thể dùng để đánh giá hiệu quả hệ tư vấn. Tập DKHP lưu thông tin đăng ký học phần của các sinh viên công nghệ thông tin bậc đại học.

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

PHAN PHƯƠNG LAN

HỆ TƯ VẤN DỰA TRÊN MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng - Năm 2019

Trang 2

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

PHAN PHƯƠNG LAN

HỆ TƯ VẤN DỰA TRÊN MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ

Chuyên ngành: Khoa học máy tính

Mã số: 9480101

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học:

1 PGS TS Huỳnh Xuân Hiệp

2 TS Huỳnh Hữu Hưng

Đà Nẵng - Năm 2019

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự hướng dẫn của PGS.TS Huỳnh Xuân Hiệp và TS Huỳnh Hữu Hưng

Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không sao chép từ bất kỳ công trình nghiên cứu nào khác Một số kết quả nghiên cứu là thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng trong luận án Mọi trích dẫn trong luận án đều có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ

Tác giả

Trang 4

LỜI CẢM ƠN

Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc và gửi lời tri ân đến PGS TS Huỳnh Xuân Hiệp và TS Huỳnh Hữu Hưng đã tận tình hướng dẫn, truyền đạt kiến thức và kinh nghiệm nghiên cứu khoa học cho tôi trong suốt quá trình học tập, nghiên cứu và hoàn thành luận án

Tôi xin chân thành cảm ơn Phòng Đào tạo và Khoa Công nghệ thông tin - Trường Đại học Bách khoa đã luôn tạo điều kiện thuận lợi cho tôi trong thời gian làm nghiên cứu sinh tại đây Xin cảm ơn Ban Lãnh đạo trường Đại học Cần Thơ, Khoa Công nghệ thông tin và Truyền thông, Bộ môn Công nghệ phần mềm đã luôn hỗ trợ

và tạo điều kiện tốt nhất để tôi có thể tập trung nghiên cứu

Tôi xin được bày tỏ lòng biết ơn chân thành đến GS TS Régis Gras đã cung cấp cho tôi nhiều tài liệu về lý thuyết phân tích hàm ý thống kê và có những góp ý sâu sắc cho nghiên cứu của tôi Xin chân thành cảm ơn các nhà khoa học đã dành thời gian và công sức đọc và đưa ra các góp ý quý báu để luận án được hoàn chỉnh hơn

Cuối cùng, tôi xin được gửi lời cảm ơn sâu sắc đến gia đình và bạn thân

- những người luôn bên cạnh, giúp đỡ và động viên tôi trong suốt thời gian học tập, nghiên cứu và hoàn thành luận án

Đà Nẵng, ngày 09 tháng 11 năm 2019

NCS Phan Phương Lan

Trang 5

MỤC LỤC

1

MỤC LỤC I DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT VI DANH MỤC BẢNG VIII DANH MỤC HÌNH IX

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN 7

1.1.Mức độ quan trọng hàm ý thống kê 7

1.1.1 Định nghĩa mức độ quan trọng hàm ý thống kê 7

1.1.2 Mức độ quan trọng hàm ý thống kê cho dữ liệu nhị phân 8

1.1.2.1 Mối quan hệ hàm ý thống kê trên dữ liệu nhị phân 8

1.1.2.2 Chỉ số hàm ý và cường độ hàm ý 10

1.1.2.3 Cường độ hàm ý có entropy 12

1.1.2.4 Chỉ số gắn kết 13

1.1.2.5 Chỉ số đóng góp 13

1.1.2.6 Chỉ số tiêu biểu 14

1.1.3 Mức độ quan trọng hàm ý thống kê cho dữ liệu phi nhị phân 14

1.1.3.1 Mối quan hệ hàm ý thống kê trên dữ liệu phi nhị phân 15

1.1.3.2 Mức độ quan trọng hàm ý thống kê cho dữ liệu phi nhị phân 15

1.2.Mức độ quan trọng xếp hạng hàm ý thống kê 17

1.3.Hệ tư vấn và các hướng nghiên cứu 18

1.3.1 Hệ tư vấn 18

1.3.2 Phân loại hệ tư vấn 21

1.3.2.1 Hệ tư vấn thuộc nhóm cá thể 22

1.3.2.2 Hệ tư vấn thuộc nhóm cộng tác/cộng đồng 22

1.3.2.3 Hệ tư vấn thuộc nhóm chuyên gia 23

1.3.2.4 Hệ tư vấn thuộc nhóm lai ghép 24

Trang 6

1.3.2.5 Hệ tư vấn thuộc nhóm theo ngữ cảnh 25

1.3.3 Các hướng nghiên cứu về hệ tư vấn 26

1.3.3.1 Nghiên cứu về dữ liệu 26

1.3.3.2 Nghiên cứu đề xuất và cải tiến các phương pháp tư vấn 27

1.3.3.3 Nghiên cứu đánh giá hệ tư vấn 29

1.4.Kỹ thuật tư vấn lọc cộng tác 29

1.4.1 Kỹ thuật lọc cộng tác dựa trên bộ nhớ (láng giềng) 29

1.4.2 Kỹ thuật lọc cộng tác dựa trên mô hình 30

1.4.2.1 Tư vấn lọc cộng tác dựa trên luật kết hợp 30

1.4.2.2 Mô hình nhân tố tiềm ẩn 31

1.5.Đánh giá hiệu quả tư vấn 32

1.5.1 Phương pháp đánh giá chéo k tập con 35

1.5.2 Tính chính xác của gợi ý 36

1.5.3 Tính chính xác của xếp hạng được dự đoán 37

1.5.4 Tính chính xác của gợi ý được sắp thứ tự 38

1.6.Phương pháp tư vấn theo mức độ quan trọng hàm ý thống kê 39

1.6.1 Tư vấn dựa trên phân tích hàm ý thống kê hiện có 40

1.6.2 Tư vấn dựa trên mức độ quan trọng hàm ý thống kê 41

1.7.Kết luận chương 1 43

CHƯƠNG 2 TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ TRÊN LUẬT KẾT HỢP 44

2.1.Mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR 44

2.1.1 Mô hình tư vấn SIR 44

2.1.2 Mô hình tư vấn SIR được cải tiến 48

2.2.Hoạt động của mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật 49

2.2.1 Hoạt động của mô hình tư vấn SIR 49

2.2.2 Hoạt động của mô hình tư vấn SIR được cải tiến 53

2.3.Đánh giá hiệu quả tư vấn của mô hình SIR 54

2.3.1 Dữ liệu thực nghiệm của mô hình SIR 54

2.3.2 Công cụ thực nghiệm của mô hình SIR 56

Trang 7

2.3.3 Hiệu quả tư vấn của mô hình SIR trên dữ liệu nhị phân 57

2.3.3.1 Các giá trị tham số phù hợp 58

2.3.3.2 Thời gian xây dựng mô hình tư vấn trước và sau cải tiến 60

2.3.3.3 Tính chính xác của gợi ý qua so sánh nội trên dữ liệu nhị phân 62

2.3.3.4 Tính chính xác của gợi ý qua so sánh ngoại trên dữ liệu nhị phân 66

2.3.3.5 Mô hình tư vấn SIR trong gợi ý đăng ký học phần 69

2.3.4 Hiệu quả tư vấn của mô hình SIR trên dữ liệu phi nhị phân 69

2.3.4.1 Tính chính xác của gợi ý qua so sánh nội trên dữ liệu phi nhị phân 70

2.3.4.2 Tính chính xác của gợi ý qua so sánh ngoại trên dữ liệu phi nhị phân 73

CHƯƠNG 3 TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN NGƯỜI DÙNG 77

3.1.Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 78

3.2.Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR 79

3.3.Hoạt động của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 81

3.4.Đánh giá hiệu quả tư vấn của mô hình UIR 85

3.4.1 Dữ liệu thực nghiệm của mô hình UIR 85

3.4.2 Công cụ thực nghiệm của mô hình UIR 86

3.4.3 Đánh giá mô hình UIR qua tính chính xác của gợi ý 86

3.4.3.1 Tính chính xác của mô hình UIR qua so sánh ngoại 87

3.4.3.2 Tính chính xác của mô hình UIR qua so sánh nội 92

3.4.4 Đánh giá mô hình UIR qua tính chính xác của xếp hạng được dự đoán 95

3.4.4.1 Sai số của mô hình UIR qua so sánh ngoại 95

3.4.4.2 Sai số của mô hình UIR qua so sánh nội 98

3.4.5 Đánh giá mô hình UIR qua tính chính xác của gợi ý được sắp thứ tự 99

3.4.5.1 Độ lợi tích lũy giảm dần của mô hình UIR trên dữ liệu nhị phân 100

3.4.5.2 Độ lợi tích lũy giảm dần của mô hình UIR trên dữ liệu phi nhị phân 101

Trang 8

CHƯƠNG 4 TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý

THỐNG KÊ TRÊN MỤC 104

4.1.Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê trên mục dữ liệu 105

4.2.Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục IIR

106

4.3.Hoạt động của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục 109

4.4.Đánh giá hiệu quả tư vấn của mô hình IIR 111

4.4.1 Dữ liệu và công cụ thực nghiệm của mô hình IIR 111

4.4.2 Thời gian xây dựng ma trận mục trực tiếp và gián tiếp 112

4.4.3 Đánh giá mô hình IIR qua tính chính xác của gợi ý 113

4.4.3.1 Tính chính xác của mô hình IIR qua so sánh nội 114

4.4.3.2 Tính chính xác của mô hình IIR qua so sánh ngoại 116

4.4.3.3 Tính ổn định của mô hình IIR 118

4.4.4 Đánh giá mô hình IIR qua tính chính xác của xếp hạng được dự đoán 121

4.4.4.1 Sai số của mô hình IIR qua so sánh nội 122

4.4.4.2 Sai số của mô hình IIR qua so sánh ngoại 126

4.4.5 Đánh giá mô hình IIR qua tính chính xác của gợi ý được sắp thứ tự 128

4.5.So sánh hiệu quả tư vấn của các mô hình đề xuất 130

4.5.1 So sánh thời gian tư vấn 130

4.5.2 So sánh tính chính xác của các mô hình 132

4.5.3 Đánh giá chung về các mô hình đề xuất 136

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 139

Kết luận 139

Hướng phát triển 140

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 141

TÀI LIỆU THAM KHẢO 143

PHỤ LỤC 1

Phụ lục 1: Công cụ Interestingnesslab và tập dữ liệu DKHP 1

Trang 9

Công cụ Interestingnesslab 1

Tập dữ liệu DKHP 2

Phụ lục 2: Giải thuật tư vấn theo mức độ quan trọng hàm ý thống kê trên luật kết hợp 4

Sinh tập luật dựa trên ngưỡng hỗ trợ, ngưỡng tin cậy và độ dài tối đa của một luật 4

Biểu diễn tập luật theo phân tích hàm ý thống kê 4

Tính cường độ hàm ý, chỉ số gắn kết của luật 6

Lọc tập luật theo ngưỡng cường độ hàm ý hoặc chỉ số gắn kết 8

Phụ lục 3: Giải thuật tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 10

Biểu diễn mối quan hệ giữa hai người dùng theo phân tích hàm ý thống kê 10

Tính cường độ hàm ý giữa hai người dùng 11

Tìm các láng giềng gần nhất của người cần được tư vấn 12

Xác định chỉ số tiêu biểu của một mục đối với mối quan hệ hàm ý giữa hai người dùng

12

Dự đoán xếp hạng của người dùng cho các mục dữ liệu 14

Phụ lục 4: Giải thuật tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục dữ liệu 15

Xây dựng ma trận mục dữ liệu - gián tiếp 15

Xây dựng ma trận mục dữ liệu - trực tiếp 16

Dự đoán xếp hạng của người dùng cho các mục dữ liệu 17

Phụ lục 5: Giải thuật đánh giá hệ tư vấn 18

Phụ lục 6: Xác định giá trị tham số phù hợp của mô hình SIR, AR và IBCF 21

Ngưỡng tin cậy và hỗ trợ trong các mô hình SIR, AR 21

Độ dài tối đa của một luật trong các mô hình SIR, AR 22

Số láng giềng gần nhất của mô hình IBCF 25

Trang 10

DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT

Mô hình tư vấn theo mức độ quan

trọng xếp hạng hàm ý thống kê trên

mục

Mô hình tư vấn theo mức độ quan

Trang 11

Tư vấn dựa trên luật kết hợp Association rule based recommendation

Trang 12

DANH MỤC BẢNG

Bảng 1.1: Các mức độ quan trọng hàm ý thống kê 8

Bảng 1.2: Một ví dụ về dữ liệu đầu vào ở dạng nhị phân của phân tích hàm ý thống kê 10

Bảng 1.3: Một ví dụ về dữ liệu đầu vào ở dạng phi nhị phân của phân tích hàm ý thống kê 15

Bảng 1.4: Công thức tính của từng mức độ quan trọng hàm ý thống kê 16

Bảng 1.5: Các mức độ quan trọng xếp hạng hàm ý thống kê 18

Bảng 1.6: Một ví dụ về phân chia tập dữ liệu đầu vào với k-fold=4 35

Bảng 1.7: Ma trận nhầm lẫn 36

Bảng 2.1: Thông tin chung về các tập dữ liệu mẫu dùng trong thực nghiệm 55

Bảng 2.2: Dãy phân vị của tập MSWeb(875x135) 56

Bảng 2.3: Dãy phân vị của tập MovieLens(565x336) 56

Bảng 2.4: Dãy phân vị của tập DKHP(1.130x57) 56

Bảng 2.5: Các hệ tư vấn dùng cho việc xác định giá trị s và c của các mô hình SIR, AR trên tập MSWeb(875x135) và DKHP(1.130x57) 59

Bảng 2.6: Giá trị tham số phù hợp của các mô hình SIR, AR trên tập MSWeb(875x135) và DKHP(1.130x57) 59

Bảng 2.7: Giá trị tham số phù hợp của mô hình IBCF trên tập MSWeb(875x135) và DKHP(1.130x57) 60

Bảng 3.1: Thông tin chung về tập dữ liệu mẫu MovieLens(943x1.144) 85

Bảng 4.1: Thông tin chung về các tập dữ liệu mẫu được trích xuất từ MSWeb 118

Bảng 4.2: Các giá trị tham số phù hợp trên những tập dữ liệu mẫu của MSWeb 119

Bảng 4.3: Bảng tổng hợp đặc điểm của các mô hình tư vấn đề xuất 136

Trang 13

DANH MỤC HÌNH

Hình 0.1: Mối quan hệ giữa các chương của luận án 5

Hình 1.1: Biểu diễn của mối quan hệ a  b theo phân tích hàm ý thống kê 9

Hình 1.2: Mô hình biểu diễn phương pháp phân tích hàm ý thống kê 10

Hình 1.3: Dữ liệu đầu vào và đầu ra của hệ tư vấn 19

Hình 1.4: Phân loại hệ tư vấn theo đối tượng chính cung cấp thông tin 21

Hình 1.5: Các hướng nghiên cứu về hệ tư vấn 26

Hình 1.6: Sơ đồ đánh giá hiệu quả tư vấn (tính chính xác của kết quả tư vấn) 34

Hình 1.7: Mối liên kết giữa những định hướng của luận án và các hướng nghiên cứu về hệ tư vấn 42

Hình 1.8: Mối liên kết giữa kỹ thuật lọc cộng tác, các mức độ quan trọng hàm ý thống kê và đề xuất nghiên cứu của luận án 42

Hình 2.1: Mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR 46

Hình 2.2: Minh họa của mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR 47

Hình 2.3: Mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR được cải tiến 48

Hình 2.4: Hoạt động của mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR 49

Hình 2.5: Hoạt động của mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR được cải tiến 54

Hình 2.6: Tỷ lệ thời gian xây dựng mô hình của SIR sau và trước khi cải tiến trên tập MSWeb(875x135) với times=2 61

Hình 2.7: Tỷ lệ thời gian xây dựng mô hình của SIR sau và trước khi cải tiến trên tập DKHP(1.130x57) với times=2 61

Hình 2.8: Đường cong ROC và đường cong Precision - Recall của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=2, given=2 63

Hình 2.9: Đường cong ROC và đường cong Precision - Recall của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=2, given=6 63

Trang 14

Hình 2.10: Giá trị F1 của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=2 64 Hình 2.11: Đường cong ROC của bốn hệ tư vấn trên tập DKHP(1.130x57) khi times=2 và given=1, 3, 5 65 Hình 2.12: Đường cong Precision - Recall của bốn hệ tư vấn trên tập DKHP(1.130x57) khi times=4, given=2, 4 65 Hình 2.13: Đường cong Precision - Recall và đường cong ROC của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=6, given=7 67 Hình 2.14: Đường cong Precision - Recall của bốn hệ tư vấn trên tập MSWeb(875x135) khi (times, given) là (4, 3) và (2, 2) 68 Hình 2.15: Đường cong Precision - Recall và đường cong ROC của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=2, given=1 68 Hình 2.16: Đường cong Precision - Recall của bốn hệ tư vấn trên tập MovieLens(565x336) khi (times, given) là (2, 1) và (1, 6) 70 Hình 2.17: Đường cong Precision - Recall của bốn hệ tư vấn trên tập MovieLens(565x336) khi (times, given) là (5, 12) và (3, 17) 71 Hình 2.18: Đường cong ROC của bốn hệ tư vấn trên tập MovieLens(565x336) khi (times, given) là (2, 2) và (4, 17) 71 Hình 2.19: Sự chênh lệch giá trị Accuracy của ba hệ tư vấn trên tập MovieLens(565x336) khi times=2 72 Hình 2.20: Sự chênh lệch giá trị F1 của ba hệ tư vấn trên tập MovieLens(565x336) khi times=2 72 Hình 2.21: Đường cong ROC và Precision - Recall của hai hệ tư vấn trên tập MovieLens(565x336) khi times=3 và given=6 74 Hình 2.22: Sự chênh lệch giá trị F1 của hai hệ tư vấn trên tập MovieLens(565x336) khi times=1 74 Hình 3.1: Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR 80 Hình 3.2: Minh họa của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR 81 Hình 3.3: Hoạt động của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR 82

Trang 15

Hình 3.4: Đường cong ROC của năm hệ tư vấn trên tập MSWeb(875x135) khi (times, given, knn) là (4, 4, 50) và (4, 6, 60) 88 Hình 3.5: Đường cong Precision - Recall và ROC của năm hệ tư vấn trên tập MSWeb(875x135) với times=6, given=3, knn=30 88 Hình 3.6: Biểu đồ chênh lệch giá trị F1 của hai hệ tư vấn trên tập MSWeb(875x135) khi times=6 và knn=80 89 Hình 3.7: Sự chênh lệch giá trị F1của hai hệ tư vấn trên tập MSWeb(875x135) khi given=5 90 Hình 3.8: Thời gian tư vấn trên tập MSWeb(875x135) khi times=3 90 Hình 3.9: Sự chênh lệch giá trị F1, Accuracy của hai hệ tư vấn trên tập DKHP(1.130x57) khi times=3 và given=2 91 Hình 3.10: Sự chênh lệch giá trị Accuracy của hai hệ tư vấn trên tập DKHP(1.130x57) khi times=2 và given=3, 4 91 Hình 3.11: Thời gian tư vấn trên tập DKHP(1.130x57) khi times=3 92 Hình 3.12: Đường cong ROC của hai hệ tư vấn trên tập DKHP(1.130x57) khi (times, knn)

là (5, 40) và given=1, 2, 3 93 Hình 3.13: Sự chênh lệch giá trị F1 của hai hệ tư vấn trên tập MSWeb(875x135) khi given=1

và knn=50 tương ứng 94 Hình 3.14: Sự chênh lệch giá trị F1 của hai hệ tư vấn trên tập MSWeb(875x135) khi knn=50,

30 94 Hình 3.15: Giá trị MAE của ba hệ tư vấn trên tập MovieLens(943x1.144) khi (times, knn)

là (2, 30) và (2, 50) 96 Hình 3.16: Giá trị MSE của ba hệ tư vấn trên tập MovieLens(943x1.144) khi (times, knn)

là (2, 40) và (2, 60) 96 Hình 3.17: Giá trị MAE của ba hệ tư vấn trên tập MovieLens(943x1.144) khi times=2 và knn=10, 30, 50, 60, 80 97 Hình 3.18: Giá trị RMSE của ba hệ tư vấn trên tập MovieLens(943x1.144) khi times=3 98 Hình 3.19: Giá trị MAE của ba hệ tư vấn trên tập MovieLens(943x1.144) khi times=2 99 Hình 3.20: Giá trị nDCG của ba hệ tư vấn trên tập MSWeb(875x135) khi times=10 100 Hình 3.21: Sự chênh lệch giá trị nDCG của UIRTypicality RS và UBCFJaccard RS trên tập MSWeb(875x135) khi times=10 101

Trang 16

Hình 3.22: Giá trị nDCG của bốn hệ tư vấn trên tập MovieLens(943x1.144) khi times=5 102 Hình 3.23: Sự chênh lệch giá trị nDCG của UIRTypicality RS và UBCFCosine RS trên tập MovieLens(943x1.144) khi times=5 102 Hình 4.1: Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục IIR 107 Hình 4.2: Minh họa của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục IIR 108 Hình 4.3: Hoạt động của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục IIR 109 Hình 4.4: Tỷ lệ thời gian xây dựng ma trận mục trực tiếp và gián tiếp trên tập MSWeb(875x135) khi times=2 112 Hình 4.5: Tỷ lệ thời gian xây dựng ma trận mục trực tiếp và gián tiếp trên tập DKHP(1.130x57) khi times=2 113 Hình 4.6: Đường cong ROC của bốn hệ tư vấn trên tập MSWeb(875x135) khi times=4 và given=(2, 3, 4) 114 Hình 4.7: Đường cong ROC của bốn hệ tư vấn trên tập DKHP(1.130x57) khi times=2 và given=(2, 3, 4) 115 Hình 4.8: Đường cong Precision - Recall và ROC của bốn hệ tư vấn trên tập MSWeb(875x135) khi (times, given)=(2, 3) 116 Hình 4.9: Đường cong ROC của bốn hệ tư vấn trên tập MSWeb(875x135) khi (times, given)

là (2, 2) và (2, 1) 117 Hình 4.10: Giá trị F1 của bốn hệ tư vấn trên ba tập dữ liệu mẫu của MSWeb khi given=4 119 Hình 4.11: Giá trị F1 của từng hệ tư vấn trên tập MSWeb(875x135) và MSWeb(432x145) khi recs=3 120 Hình 4.12: Giá trị F1 của từng hệ tư vấn trên tập MSWeb(2.767x159) 121 Hình 4.13: Giá trị RMSE của IIRIIntens RS trên tập MovieLens(565x336) khi times=6 122 Hình 4.14: Giá trị MAE của IIRIIntens RS trên tập MovieLens(943x1.144) khi times=6 123

Trang 17

Hình 4.15: Sự chênh lệch giá trị RMSE của từng hệ tư vấn với IIRIIntens RS trên tập MovieLens(565x336) khi times=3 124 Hình 4.16: Sự chênh lệch giá trị MAE của từng hệ tư vấn với IIRIIntens RS trên tập MovieLens(565x336) khi times=3 124 Hình 4.17: Sự chênh lệch giá trị RMSE của từng hệ tư vấn với IIRIIntens RS trên tập MovieLens(943x1.144) khi times=4 125 Hình 4.18: Sự chênh lệch giá trị MAE của từng hệ tư vấn với IIRIIntens RS trên tập MovieLens(943x1.144) khi times=2 125 Hình 4.19: Sự chênh lệch giá trị RMSE của từng hệ tư vấn với IBCFPearson RS trên tập MovieLens(565x336) khi times=10 127 Hình 4.20: Sự chênh lệch giá trị MAE của từng hệ tư vấn với IBCFPearson RS trên tập MovieLens(565x336) khi times=10 127 Hình 4.21: Giá trị nDCG của ba hệ tư vấn trên tập MSWeb(875x135) khi times=30 129 Hình 4.22: Giá trị nDCG của ba hệ tư vấn trên tập MSWeb(2.767x159) khi times=4 129 Hình 4.23: Thời gian tư vấn của ba hệ thống trên tập MSWeb(875x135) khi times=4 và DKHP(1.130x57) khi times=16 130 Hình 4.24: Tỷ lệ thời gian tư vấn của UIR RS và IIR RS trên tập MovieLens(943x1.144) khi times=2 131 Hình 4.25: Sự chênh lệch giá trị F1 của IIR RS và SIR RS trên tập MSWeb(875x135) khi times=4 132 Hình 4.26: Sự chênh lệch giá trị F1 của UIR RS với IIR RS và SIR RS trên tập MSWeb(875x135) khi times=4 133 Hình 4.27: Sự chênh lệch giá trị nDCG của UIR RS và IIR RS trên tập MSWeb(875x135) khi times=2 134 Hình 4.28: Sự chênh lệch giá trị nDCG của UIR RS và IIR RS1 trên tập MovieLens(565x336) khi times=2 135 Hình 4.29: Sự chênh lệch giá trị nDCG của UIR RS và IIR RS2 trên tập MovieLens(565x336) khi times=2 135

Trang 18

0 MỞ ĐẦU

1 Tính cấp thiết của luận án

Sự phát triển của công nghệ web, internet và thiết bị điện tử làm cho các dịch

vụ thương mại điện tử, dịch vụ giải trí, v.v ngày càng phong phú cũng như các thông tin thu thập được ngày càng nhiều và đa dạng Người dùng có thể bị quá tải thông tin nên có thể đưa ra quyết định không đúng khi sử dụng những dịch vụ này Vì vậy, để đáp ứng nhu cầu tư vấn của người dùng và nhu cầu hỗ trợ kinh doanh của các nhà cung cấp, hệ tư vấn được xem là một trong các giải pháp hiệu quả cho bài toán bùng

nổ thông tin Hệ tư vấn (recommendation systems hoặc recommender system) [5] là

kỹ thuật hay công cụ phần mềm được nhúng trong các ứng dụng hoặc trang web giúp làm giảm tình trạng quá tải thông tin bằng cách tự động truy tìm thông tin và dịch vụ

có liên quan nhất từ một lượng lớn dữ liệu để dự đoán các giá trị xếp hạng/đánh giá (rating) của người dùng cho một mục dữ liệu (sản phẩm, dịch vụ, v.v) cụ thể và/hoặc gợi ý các mục có xếp hạng dự đoán cao nhất cho người đó Trải qua hơn hai mươi năm phát triển, hệ tư vấn được ứng dụng vào nhiều mặt của cuộc sống như: Thương mại điện tử, du lịch điện tử, học tập điện tử, dịch vụ điện tử, v.v [30] Các hệ tư vấn

có thể được phân loại theo kỹ thuật tư vấn [5][10][30], tính chất của dữ liệu [27], lĩnh vực ứng dụng [30], hoặc đối tượng chính cung cấp thông tin Hệ tư vấn được xây dựng theo một trong những kỹ thuật như: Dựa trên nội dung, lọc cộng tác, dựa trên tri thức, lai ghép [5][10][30] Trong đó, lọc cộng tác [1][13][15][34] là kỹ thuật quan trọng và được sử dụng phổ biến nhất Kỹ thuật này đưa ra các gợi ý cho người dùng dựa trên những mối quan hệ giữa các mục dữ liệu hay giữa những người dùng Các nghiên cứu về hệ tư vấn là khá đa dạng nhưng có thể được nhóm thành các hướng sau: (1) nghiên cứu về dữ liệu dùng trong hệ tư vấn; (2) đề xuất và cải tiến các phương pháp tư vấn; (3) đánh giá hệ tư vấn Mặc dù đã đạt được nhiều thành công song tất cả những hướng nghiên cứu này vẫn đang được tiếp tục phát triển để đáp ứng sự đa dạng

về lĩnh vực ứng dụng, sự khác nhau trong nhu cầu người dùng và sự phát triển của công nghệ Đặc biệt, hướng đề xuất và cải tiến các phương pháp tư vấn giữ vai trò chủ đạo

Trang 19

Phân tích hàm ý thống kê (Statistical Implicative Analysis - SIA) [61][62] là phương pháp phân tích dữ liệu được khởi đầu bởi Gras nhằm nghiên cứu các khuynh hướng giữa các thuộc tính (biến) dữ liệu Phương pháp này xem mối quan hệ giữa các thuộc tính là không đối xứng mà theo đó, giá trị hàm ý thống kê của mối quan hệ giữa các thuộc tính a với các thuộc tính b (𝑎 → 𝑏) và của mối quan hệ giữa b với a (𝑏 → 𝑎) là khác nhau nên phù hợp với mối quan hệ trong thực tế Trong phân tích hàm ý thống kê, mối quan hệ 𝑎 → 𝑏 được biểu diễn bằng bộ bốn giá trị 𝑛, 𝑛 , 𝑛 và

𝑛 ; việc phát hiện khuynh hướng dữ liệu được dựa trên giá trị của mối quan hệ theo các mức độ quan trọng hàm ý thống kê như cường độ hàm ý, chỉ số gắn kết Phương pháp này quan tâm nhiều đến số phản ví dụ 𝑛 trong mối quan hệ mà theo đó, mối quan hệ được quan sát thống kê chấp nhận càng ít số phản ví dụ thì nó càng có hàm

ý Hiện nay, việc liên kết phương pháp phân tích hàm ý thống kê vào những lĩnh vực nghiên cứu khác đang là một trong các chủ đề được quan tâm nhất Độ đo luôn là một thành phần quan trọng trong các hệ tư vấn vì nó được sử dụng vào việc tìm ra sự tương tự giữa những người dùng hay sự tương tự giữa các mục hay các mối quan hệ tin cậy mạnh giữa các mục, v.v để từ đó xây dựng danh sách gợi ý Do đó, các mức

độ quan trọng của phân tích hàm ý thống kê có thể được xem xét cho việc phát triển

hệ tư vấn

Các nghiên cứu liên kết phân tích hàm ý thống kê vào hệ tư vấn còn khá ít Những nghiên cứu [55][60] sử dụng luật kết hợp và một số mức độ quan trọng hàm

ý thống kê để xây dựng hệ tư vấn Nhìn chung, các nghiên cứu vẫn còn một số vấn

đề chưa giải quyết: (1) chỉ mới tập trung xây dựng mô hình tư vấn trên dữ liệu nhị phân và chưa quan tâm đến dữ liệu phi nhị phân, đánh giá hiệu quả tư vấn của mô hình theo tính chính xác của gợi ý; (2) đều sử dụng luật kết hợp để thực hiện tư vấn nên thời gian tư vấn trực tuyến có thể lâu và máy tính có thể bị quá tải trong quá trình

xử lý; (3) thiếu kết hợp đặc trưng của một số mức độ quan trọng hàm ý thống kê để nâng cao hiệu quả gợi ý

Vì vậy, đề tài “Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê” được thực hiện trong khuôn khổ luận án tiến sĩ chuyên ngành khoa học máy tính với mong muốn được đóng góp một phần vào lĩnh vực nghiên cứu hệ tư vấn và phân tích hàm

ý thống kê

Trang 20

2 Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án

2.1 Mục tiêu nghiên cứu

Luận án tìm hiểu, vận dụng các mức độ quan trọng hàm ý thống kê và kỹ thuật

tư vấn lọc cộng tác để đề xuất và hiệu chỉnh các mô hình tư vấn nhằm cải tiến hiệu quả (mà cụ thể là độ chính xác) của mô hình; qua đó, góp phần liên kết lý thuyết phân tích hàm ý thống kê vào lĩnh vực hệ tư vấn

2.2 Đối tượng nghiên cứu

Luận án tập trung vào các đối tượng nghiên cứu sau:

- Các mức độ quan trọng hàm ý thống kê

- Các mô hình tư vấn theo các mức độ quan trọng hàm ý thống kê sử dụng kỹ thuật lọc cộng tác

2.3 Phạm vi nghiên cứu

Luận án được giới hạn trong phạm vi sau: Tìm hiểu các mức độ quan trọng hàm

ý thống kê, kỹ thuật tư vấn lọc cộng tác, các nghiên cứu hiện có về hệ tư vấn dựa trên phân tích hàm ý thống kê để:

- Đề xuất và mở rộng mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật kết hợp

- Đề xuất một mức độ quan trọng mới ở góc độ người dùng (gọi là xếp hạng hàm ý thống kê trên người dùng) và mô hình tư vấn theo mức độ mới này

- Đề xuất một mức độ quan trọng mới ở góc độ mục dữ liệu (gọi là xếp hạng hàm ý thống kê trên mục) và mô hình tư vấn theo mức độ mới này

Tất cả các mô hình đề xuất đều có thể áp dụng cho cả dữ liệu nhị phân và phi nhị phân

3 Các đóng góp của luận án

Luận án có những đóng góp sau:

- Các mức độ quan trọng hàm ý thống kê mới trên cả dữ liệu nhị phân và phi nhị phân gồm: Xếp hạng hàm ý thống kê trên người dùng 𝐾𝑛𝑛𝑈𝐼𝑅 (K nearest neighbors/users based implicative rating) và xếp hạng hàm ý thống kê trên mục dữ liệu 𝐾𝑛𝑛𝐼𝐼𝑅 (K nearest neighbors/items based implicative rating) Hai mức độ quan trọng này được dùng để dự đoán xếp hạng của một người dùng cho một mục dữ liệu

- Các mô hình tư vấn mới có thể áp dụng trên dữ liệu nhị phân và phi nhị phân

Trang 21

+ Mô hình tư vấn theo mức độ quan trọng hàm ý thống kê sử dụng kỹ thuật lọc cộng tác dựa trên luật kết hợp 𝑆𝐼𝑅

+ Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 𝑈𝐼𝑅 (user implicative rating based model) sử dụng 𝐾𝑛𝑛𝑈𝐼𝑅

+ Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục 𝐼𝐼𝑅 (item implicative rating based model) sử dụng 𝐾𝑛𝑛𝐼𝐼𝑅

- Công cụ phần mềm Interestingnesslab dùng cho thực nghiệm Công cụ này cài đặt các hàm tiện ích và các mô hình tư vấn đề xuất bằng ngôn ngữ R; qua đó, cho phép người dùng viết các kịch bản sử dụng hệ tư vấn và đánh giá hiệu quả tư vấn

- Tập dữ liệu nhị phân DKHP có thể dùng để đánh giá hiệu quả tư vấn Tập DKHP lưu thông tin đăng ký học phần của sinh viên các khóa 40, 41, 42 và 43 (tương ứng với các năm 2015, 2016, 2017 và 2018) thuộc Khoa Công nghệ thông tin và Truyền thông, trường Đại học Cần Thơ

4 Bố cục của luận án

Dựa trên mục tiêu, đối tượng và phạm vi nghiên cứu, luận án được cấu trúc thành

ba phần: Phần mở đầu, phần nội dung và kết quả nghiên cứu, phần kết luận và hướng phát triển Phần nội dung và kết quả nghiên cứu được cấu trúc thành bốn chương và sáu phụ lục Mối quan hệ về kiến thức giữa các chương trong luận án được trình bày chi tiết trong Hình 0.1

Chương 1 tìm hiểu về các mức độ quan trọng hàm ý thống kê, kỹ thuật tư vấn

và phương pháp đánh giá hệ tư vấn, các hướng nghiên cứu về hệ tư vấn cũng như những nghiên cứu hiện có về hệ tư vấn dựa trên lý thuyết phân tích hàm ý thống kê

để xác định phạm vi nghiên cứu của luận án Trên các cơ sở này, Chương 1 phác thảo những đề xuất tư vấn sẽ được cụ thể hóa trong các chương sau

Chương 2 trình bày một mô hình tư vấn theo mức độ quan trọng hàm ý thống

kê sử dụng kỹ thuật lọc cộng tác dựa trên luật kết hợp cho cả dữ liệu nhị phân và phi nhị phân Mô hình cho phép chọn một trong các mức độ quan trọng hàm ý thống kê khác nhau (như cường độ hàm ý có hay không có entropy, chỉ số gắn kết) và kết hợp với chỉ số đóng góp để gợi ý cho người cần tư vấn danh sách các mục dữ liệu có chất lượng hàm ý cao Mô hình tư vấn đề xuất được so sánh với một số mô hình hiện có của gói recommenderlab [48] Hiệu quả của mô hình được đánh giá qua tính chính xác của các gợi ý như đường cong ROC, đường cong Precision - Recall, giá trị F1

Trang 22

điều hòa giữa hai giá trị chính xác (Precision) và bao phủ (Recall) Bên cạnh đó, mô hình đề xuất còn được cải tiến để làm giảm thời gian tư vấn qua việc kết hợp đồng thời các hoạt động biểu diễn tập luật theo quan điểm phân tích hàm ý thống kê và tính giá trị của luật theo một mức độ quan trọng hàm ý thống kê ngay tại giai đoạn sinh tập luật Ngoài ra, mô hình cũng được mở rộng để có thể tư vấn theo những mối quan

là các láng giềng gần nhất của người cần tư vấn, giá trị xếp hạng cho mục dữ liệu cần

dự đoán xếp hạng của những láng giềng này và ảnh hưởng của mục dữ liệu đang xét

Chương 3: Tư vấn theo mức độ quan trọng xếp hạng

hàm ý thống kê trên người dùng KnnUIR Mô hình Thực nghiệm

Chương 4: Tư vấn theo mức độ quan trọng xếp hạng

hàm ý thống kê trên mục dữ liệu KnnIIR Mô hình Thực nghiệm

Tư vấn dựa trên phân tích hàm ý thống kê

-Kỹ thuật tư vấn -Đánh giá hiệu quả tư vấn

Trang 23

đến sự hình thành mối quan hệ láng giềng 𝐾𝑛𝑛𝑈𝐼𝑅 được phát triển từ hai mức độ quan trọng cơ sở: Cường độ hàm ý và chỉ số tiêu biểu Khác với cách tiếp cận ở Chương 2, cường độ hàm ý sẽ đo sức mạnh của mối quan hệ giữa hai người dùng thay vì giữa các mục dữ liệu; chỉ số tiêu biểu sẽ đo sự ảnh hưởng của một mục dữ liệu đối với sự hình thành mối quan hệ giữa hai người dùng thay vì của người dùng đối sự hình thành mối quan hệ giữa các mục Mô hình tư vấn đề xuất 𝑈𝐼𝑅 không chỉ

dự đoán xếp hạng mà còn gợi ý cho người cần tư vấn danh sách các mục có xếp hạng

dự đoán cao Mô hình 𝑈𝐼𝑅 được so sánh với một số mô hình hiện có của gói recommenderlab qua việc đánh giá tính chính xác của: Các gợi ý như Chương 2, xếp hạng dự đoán theo các sai số và gợi ý được sắp thứ tự theo nDCG Dữ liệu dùng trong thực nghiệm là dữ liệu nhị phân hoặc phi nhị phân

Chương 4 mô tả một mức độ quan trọng hàm ý thống kê mới 𝐾𝑛𝑛𝐼𝐼𝑅 để dự đoán xếp hạng của người dùng và mô hình tư vấn mới 𝐼𝐼𝑅 theo mức độ quan trọng này 𝐾𝑛𝑛𝐼𝐼𝑅 kết hợp giá trị bất ngờ khi quan sát một số lượng nhỏ các phản ví dụ, giá trị tin cậy dựa trên số đồng thuận của các mối quan hệ giữa hai mục dữ liệu và các xếp hạng đã có của người cần tư vấn để thực hiện dự đoán xếp hạng Mục đích của sự kết hợp này là để phân biệt rõ ảnh hưởng của từng mục dữ liệu lên mục dữ liệu đang xét nhằm cải thiện hiệu quả tư vấn Tương tự như các chương trước, mô hình tư vấn 𝐼𝐼𝑅 được so sánh với một số mô hình hiện có; được đánh giá qua tính chính xác của: Gợi ý, xếp hạng dự đoán và gợi ý được sắp thứ tự; được áp dụng cho

cả dữ liệu nhị phân hoặc phi nhị phân Bên cạnh đó, Chương 4 còn cải thiện thời gian

tư vấn bằng cách xây dựng trực tiếp ma trận mối quan hệ giữa các mục dữ liệu Trong chương này, mức độ quan trọng hàm ý thống kê sẽ đo sức mạnh của mối quan hệ giữa hai mục dữ liệu thay vì giữa hai người dùng như Chương 3 hay giữa một tập mục dữ liệu với một mục như Chương 2

Phần Phụ lục trình bày: Công cụ Interestingnesslab được phát triển và tập dữ liệu DKHP được thu thập để chạy các kịch bản thực nghiệm (Phụ lục 1); các giải thuật cài đặt các mô hình tư vấn đề xuất (Phụ lục 2, 3, 4, 5) và một số kịch bản thực nghiệm bổ sung khi đánh giá các mô hình đề xuất (Phụ lục 6)

Trang 24

1 CHƯƠNG 1 TỔNG QUAN

Chương 1 tập trung nghiên cứu sự liên kết giữa lý thuyết phân tích hàm ý thống

kê và bài toán hệ tư vấn thông qua: (1) xác định các mức quan trọng hàm ý thống kê trên cả dữ liệu nhị phân và phi nhị phân có thể hỗ trợ cho hoạt động tư vấn; (2) tìm hiểu về hệ tư vấn và những nghiên cứu hiện có về hệ tư vấn dựa trên lý thuyết phân tích hàm ý thống kê để định hướng nghiên cứu của luận án; (3) xác định kỹ thuật tư vấn và phương pháp đánh giá hệ tư vấn được sử dụng trong luận án Trên cơ sở này, Chương 1 phác thảo các đề xuất tư vấn theo mức độ quan trọng hàm ý thống kê mà chúng sẽ được trình bày chi tiết trong các chương còn lại

1.1 Mức độ quan trọng hàm ý thống kê

1.1.1 Định nghĩa mức độ quan trọng hàm ý thống kê

Mức độ quan trọng hàm ý thống kê là một độ đo của lý thuyết phân tích hàm ý thống kê - một lý thuyết phân tích dữ liệu được đề xuất bởi Gras và các cộng sự [61] Mức độ quan trọng hàm ý thống kê được sử dụng để đo giá trị của mối quan hệ giữa các thuộc tính (biến) ở cả dạng nhị phân và phi nhị phân; qua đó, giúp phát hiện các khuynh hướng trong một tập hợp các thuộc tính Với dữ liệu nhị phân, mỗi thuộc tính chỉ nhận một trong hai giá trị 0 hoặc 1 Với dữ liệu phi nhị phân, mỗi thuộc tính nhận giá trị số thực và được quy đổi về đoạn [0,1]

Đặc điểm của mức độ quan trọng hàm ý thống kê là không đối xứng, dựa trên xác suất và có sự kết hợp phi tuyến tính giữa các thuộc tính Bảng 1.1 tổng hợp vai trò của các mức độ quan trọng hàm ý thống kê Chi tiết về từng mức độ quan trọng được trình bày trong các Mục 1.1.2 và Mục 1.1.3 Các mức độ quan trọng hàm ý thống kê trong Bảng 1.1 được sử dụng để xây dựng mô hình tư vấn trên luật kết hợp (Chương 2 của luận án) và là cơ sở để đề xuất hai mức độ quan trọng hàm ý thống kê mới trong các mô hình tư vấn trên người dùng và trên mục dữ liệu (Chương 3 và Chương 4 của luận án)

Trang 25

Cường độ hàm ý có

entropy

Điều chỉnh giá trị bất ngờ được lượng hóa bởi cường độ hàm

ý bằng việc quan tâm đến chiều ngược của mối quan hệ (𝑏 → 𝑎) Cường độ hàm ý có entropy củng cố sự chắc chắn

về chất lượng tốt của một mối quan hệ

xây dựng dựa trên cường độ hàm ý và entropy

của một mối quan hệ

mối quan hệ

1.1.2 Mức độ quan trọng hàm ý thống kê cho dữ liệu nhị phân

1.1.2.1 Mối quan hệ hàm ý thống kê trên dữ liệu nhị phân

Mối quan hệ 𝑎 → 𝑏 (hay khuynh hướng các đối tượng có thuộc tính 𝑏 khi chúng

có thuộc tính 𝑎) được chấp nhận khi nó đạt tới một mức tin cậy xác định Khi đó, ta

có thể xem mối quan hệ 𝑎 → 𝑏 như một quy tắc hay một luật Luật này khó bị thay thế nếu có rất ít số đối tượng không có 𝑏 khi có 𝑎 (phản ví dụ) mới xuất hiện Tuy nhiên, nếu số phản ví dụ mới càng tăng, sự tin cậy của luật sẽ bị giảm và luật có thể

Trang 26

bị loại bỏ Theo phương pháp phân tích hàm ý thống kê, một mối quan hệ được quan sát thống kê chấp nhận càng ít số phản ví dụ thì nó càng có hàm ý [61]

Hình 1.1 biểu diễn mối quan hệ 𝑎 → 𝑏 theo phương pháp phân tích hàm ý thống

kê Mối quan hệ 𝑎 → 𝑏 được thể hiện bằng một bộ gồm bốn giá trị 𝑛, 𝑛 , 𝑛 và 𝑛 Trong Hình 1.1:

- 𝐸 là tổng thể gồm 𝑛 đối tượng được mô tả bởi một tập hữu hạn các thuộc tính nhị phân 𝑉

- 𝐴 ⊂ 𝐸 là tập con gồm các đối tượng có thuộc tính 𝑎, 𝐴̅ là tập bù của tập 𝐴

- 𝐵 ⊂ 𝐸 là tập con gồm các đối tượng có thuộc tính 𝑏, 𝐵 là tập bù của tập 𝐵

- (𝐴 ∩ 𝐵) ⊂ 𝐸 là tập con gồm các đối tượng có thuộc tính 𝑎 mà không có thuộc tính 𝑏

- 𝑛 = 𝑐𝑎𝑟𝑑(𝐴) và 𝑛 = 𝑐𝑎𝑟𝑑(𝐴̅) là bản số của tập 𝐴 và tập 𝐴̅ tương ứng

- 𝑛 = 𝑐𝑎𝑟𝑑(𝐵) và 𝑛 = 𝑐𝑎𝑟𝑑(𝐵) là bản số của tập 𝐵 và tập 𝐵 tương ứng

gọi là chỉ số chống khuynh hướng từ 𝑎 tới 𝑏

Hình 1.1: Biểu diễn của mối quan hệ a  b theo phân tích hàm ý thống kê

Support Desktop, End User Produced View, Knowledge Base, Microsoft com Search} như Bảng 1.2 Số đối tượng thỏa thuộc tính Support Desktop là 2; số đối tượng thỏa thuộc tính End User Produced View là 4 và số đối tượng thỏa thuộc tính Support Desktop nhưng không thỏa thuộc tính End User Produced View là 1 Như vậy, mối

Trang 27

quan hệ {Support Desktop}  {End User Produced View} được biểu diễn bởi bộ

𝑛, 𝑛 , 𝑛 và 𝑛 là {9, 2, 4, 1}

Bảng 1.2: Một ví dụ về dữ liệu đầu vào

ở dạng nhị phân của phân tích hàm ý thống kê

Hình 1.2: Mô hình biểu diễn phương pháp phân tích hàm ý thống kê Mối quan hệ 𝑎 → 𝑏 là có thể chấp nhận ở ngưỡng 𝛼 nếu xác suất của 𝑐𝑎𝑟𝑑(𝑋 ∩𝑌) ≤ 𝑐𝑎𝑟𝑑(𝐴 ∩ 𝐵) là nhỏ hơn hoặc bằng ngưỡng 𝛼 [61]

Trang 28

Trong (1.1), 𝑐𝑎𝑟𝑑(𝐴 ∩ 𝐵) là số phản ví dụ được quan sát và 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌) là số phản ví dụ được mong đợi

Khi biến ngẫu nhiên 𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌) tuân theo phân phối Poisson với tham số 𝜆 =, 𝑃(𝑐𝑎𝑟𝑑(𝑋 ∩ 𝑌) ≤ 𝑐𝑎𝑟𝑑(𝐴 ∩ 𝐵)) được tính như công thức (1.2) [61]

𝑛 𝑛𝑛

Giá trị được quan sát của 𝑄 𝑎, 𝑏 trong thực nghiệm được biểu diễn bởi 𝑞 𝑎, 𝑏

𝑞 𝑎, 𝑏 đo độ lệch giữa giá trị mong đợi và ngẫu nhiên khi 𝑎 và 𝑏 là độc lập Khi sự xấp xỉ được chứng minh là đúng (𝜆 > 4), 𝑄 𝑎, 𝑏 tuân theo phân phối chuẩn 𝑁(0,1)

𝑞 𝑎, 𝑏 được gọi là chỉ số hàm ý (implicative index) [61] của mối quan hệ 𝑎 →

𝑏 và được lượng hóa qua bộ giá trị 𝑛, 𝑛 , 𝑛 và 𝑛 với 𝑛 = 𝑛 − 𝑛 như công thức (1.4)

𝑛 𝑛𝑛

Trang 29

Công thức (1.5) cho thấy chỉ số hàm ý được sử dụng để tính cường độ hàm ý, chỉ số hàm ý càng thấp thì cường độ hàm ý càng cao

Cường độ hàm ý là một độ đo chất lượng thông tin, quy nạp và không đối xứng Mối quan hệ 𝑎 → 𝑏 là có thể chấp nhận ở ngưỡng 𝛼 nếu cường độ hàm ý 𝜑(𝑎, 𝑏) ≥ 1 − 𝛼 Việc sử dụng cường độ hàm ý thích ứng tốt với dữ liệu nhiễu vì một số nhỏ phản ví dụ không làm mất đi mối quan hệ hàm ý

1.1.2.3 Cường độ hàm ý có entropy

Độ đo cường độ hàm ý 𝜑(𝑎, 𝑏) bị một số hạn chế: Có khuynh hướng không đủ phân biệt khi số 𝑛 tăng cao; chưa quan tâm đến chiều ngược 𝑏 → 𝑎 mà nó củng cố sự chắc chắn về chất lượng tốt của mối quan hệ giữa 𝑎 và 𝑏 [26] Vì vậy, cường độ hàm

ý có entropy (entropic version of implicative intensity) [26][61] 𝜙(𝑎, 𝑏) đã được đề xuất và có công thức tính như (1.6) Cường độ hàm ý có entropy điều chỉnh giá trị bất ngờ được lượng hóa bởi cường độ hàm ý bằng cách tính đến sự mất cân bằng giữa

số ví dụ 𝑛 và số phản ví dụ 𝑛 của mối quan hệ 𝑎 → 𝑏 và sự mất cân bằng giữa số

ví dụ 𝑛 và số phản ví dụ 𝑛 của mối quan hệ 𝑏 → 𝑎 Cường độ hàm ý có entropy dựa trên entropy của Shannon để lượng hóa phi tuyến những khác biệt này

Trong công thức (1.6), 𝜑(𝑎, 𝑏) là cường độ hàm ý được xác định bởi (1.5) và

tăng cường sự tương phản giữa các pha khác nhau Hệ số 𝛼 càng thấp thì cường độ hàm ý có entropy giảm càng nhiều theo 𝑛 và việc phân hạng các mối quan hệ là

bình của các mẫu ngẫu nhiên trong đó ta kiểm tra xem 𝑏 (hay 𝑎) có được nhận dạng

(1.9) [26][61] tương ứng

Trang 30

1 nếu ngược lại

1.1.2.4 Chỉ số gắn kết

Chỉ số gắn kết (cohesion measure) [61] được sử dụng để phát hiện các mối quan

hệ với chất lượng hàm ý tốt giữa các thành phần Chỉ số gắn kết giữa vế trái 𝑎 và vế phải 𝑏 của mối quan hệ 𝑎 → 𝑏, được ký hiệu là 𝑐𝑜ℎ(𝑎, 𝑏), được xác định theo công thức (1.10) [61]

1.1.2.5 Chỉ số đóng góp

Để đo sự góp phần của một đối tượng 𝑖 đối với sự hình thành của một mối quan

hệ 𝑎 → 𝑏, chỉ số đóng góp (contribution measure) đã được đề xuất [44][61] Gọi 𝑎(𝑖)

và 𝑏(𝑖) là các giá trị cho biết có sự hiện diện hay không có sự hiện diện của thuộc tính 𝑎 và 𝑏 tương ứng trong đối tượng 𝑖 Chỉ số đóng góp của một đối tượng 𝑖 đối với

sự tồn tại của mối quan hệ 𝑎 → 𝑏 được xác định theo công thức (1.11) [44][61]

Trang 31

dụ của 𝑎 → 𝑏 𝜑(𝑖, 𝑎 → 𝑏) có giá trị 𝑝 khi đối tượng 𝑖 không thích (hoặc không quan tâm) đến cả thuộc tính 𝑎 và 𝑏 - nói cách khác, 𝑖 không được tính là một ví dụ đúng của 𝑎 → 𝑏 Trong thực nghiệm, 𝑝 thường được đặt là giá trị trung lập 0.5.

1.1.2.6 Chỉ số tiêu biểu

Để đo tính tiêu biểu của một đối tượng 𝑖 trong sự hình thành mối quan hệ 𝑎 →

𝑏, chỉ số tiêu biểu (typicality measure) được đề xuất như công thức (1.12) [44][61]

Trong đó, 𝑑 (𝑖, 𝑎 → 𝑏) là khoảng cách hàm ý giữa đối tượng 𝑖 và mối quan hệ

𝑑 (𝑖, 𝑎 → 𝑏) được xác định dựa trên cường độ hàm ý 𝜑(𝑎, 𝑏) của 𝑎 → 𝑏 và chỉ số đóng góp 𝜑(𝑖, 𝑎 → 𝑏) của đối tượng 𝑖 đối với sự tồn tại của mối quan hệ 𝑎 → 𝑏 Công thức tính khoảng cách hàm ý 𝑑 (𝑖, 𝑎 → 𝑏) được trình bày trong (1.13) [44][61]

Công thức (1.12) và (1.13) cho thấy chỉ số tiêu biểu 𝛾 được dựa trên khoảng cách 𝜒 giữa các phân phối 1 − 𝜑(𝑎, 𝑏) và 1 − 𝜑(𝑖, 𝑎 → 𝑏)

1.1.3 Mức độ quan trọng hàm ý thống kê cho dữ liệu phi nhị phân

Mức độ quan trọng hàm ý thống kê được tiếp tục mở rộng cho dữ liệu phi nhị phân [44][61][63] Tuy nhiên, giá trị của chúng phải được chuyển đổi về khoảng [0,1]

Ví dụ, gọi 𝑎(𝑖) là giá trị của thuộc tính 𝑎 được xác định bởi đối tượng 𝑖, nếu thuộc tính 𝑎 gồm các giá trị 𝑎(𝑖) nằm trong khoảng [0, 𝑚𝑎𝑥(𝑎(𝑖))] thì 𝑎(𝑖) phải được

Trang 32

1.1.3.1 Mối quan hệ hàm ý thống kê trên dữ liệu phi nhị phân

Trong phân tích hàm ý thống kê, mối quan hệ 𝑎 → 𝑏 với 𝑎 và 𝑏 là các thuộc tính phi nhị phân vẫn được biểu diễn bằng một bộ gồm bốn giá trị 𝑛, 𝑛 , 𝑛 và 𝑛 Gọi 𝑎(𝑖) và 𝑏(𝑖) là giá trị của các thuộc tính phi nhị phân 𝑎 và 𝑏 được xác định bởi

𝑏(𝑖)) với 𝑏(𝑖) = 1 − 𝑏(𝑖)

Story (1995), Star Wars (1977), Liar Liar (1997)} như Bảng 1.3 Mối quan hệ {Toy Story (1995)}  {Star Wars (1977)} được biểu diễn bởi bộ 𝑛, 𝑛 , 𝑛 và 𝑛 là {9, 5.2, 7.8, 0.72}

Bảng 1.3: Một ví dụ về dữ liệu đầu vào

ở dạng phi nhị phân của phân tích hàm ý thống kê

1.1.3.2 Mức độ quan trọng hàm ý thống kê cho dữ liệu phi nhị phân

Hai mức độ quan trọng chỉ số hàm ý (propensity index) 𝑞 (𝑎, 𝑏) và cường độ hàm ý (propension intensity) 𝜑(𝑎, 𝑏) cho loại thuộc tính phi nhị phân được định nghĩa như công thức (1.14) và (1.15) tương ứng [44][61][63]

Trang 33

Trong (1.14), 𝑚 và 𝑚 là giá trị trung bình của các thuộc tính 𝑎 và 𝑏 tương

𝑛 𝑛𝑛

Dữ liệu phi nhị phân

( , ) ặ ( , )

Trang 34

1 nếu (𝑎(𝑖) = 1 hoặc 𝑎(𝑖) = 0) và 𝑏(𝑖) = 1

0 nếu 𝑎(𝑖) = 1 và 𝑏(𝑖) = 0

𝑝 ∈ (0,1)nếu 𝑎(𝑖) = 𝑏(𝑖) = 0

Dữ liệu phi nhị phân: Sử dụng cùng công thức trên nhưng trước

đó a và b phải được nhị phân hóa với ngưỡng threshold

Mức độ quan trọng xếp hạng hàm ý thống kê là độ đo được đề xuất trong luận

án này dựa trên một số mức độ quan trọng hàm ý thống kê Mức độ xếp hạng hàm ý thống kê được sử dụng để dự đoán xếp hạng của một đối tượng đối với một thuộc tính; từ đó giúp thực hiện hoạt động tư vấn Ta có thể xếp độ đo đề xuất này vào nhóm mức độ quan trọng hàm ý thống kê

Mức độ quan trọng xếp hạng hàm ý thống kê (Bảng 1.5) được phát triển cho hai loại dữ liệu khác nhau (nhị phân, phi nhị phân) và ở hai góc độ khác nhau (người dùng, mục dữ liệu) Ở góc độ người dùng, mối quan hệ hàm ý giữa hai người dùng

và tính tiêu biểu của một mục dữ liệu đối với sự hình thành mối quan hệ giữa hai người được xem xét Ở góc độ mục dữ liệu, độ bất ngờ (qua cường độ hàm ý, chỉ số gắn kết) và độ tin cậy giữa hai mục được xem xét Các mức độ quan trọng xếp hạng hàm ý thống kê sẽ được trình bày chi tiết trong Mục 3.1, Mục 4.1

Trang 35

Bảng 1.5: Các mức độ quan trọng xếp hạng hàm ý thống kê

Mức độ quan trọng

Xếp hạng hàm ý thống

kê trên người dùng

Dự đoán giá trị xếp hạng của một người dùng cho một mục

dữ liệu từ những người dùng gần nhất và từ ảnh hưởng của mục dữ liệu đang xét lên mối quan hệ hai người Cụ thể, mức độ này dựa trên: (1) giá trị xếp hạng mục dữ liệu đang xét của những người dùng có quan hệ hàm ý mạnh qua cường độ hàm ý (những láng giềng gần) với người người cần tư vấn; (2) chỉ số tiêu biểu của mục dữ liệu đang xét đối với sự hình thành mối quan hệ hàm ý giữa người cần

tư vấn và người có quan hệ hàm ý mạnh

Xếp hạng hàm ý thống

kê trên mục dữ liệu

Dự đoán giá trị xếp hạng của một người dùng cho một mục

dữ liệu từ những mục dữ liệu đã biết của người đang xét

và từ mối quan hệ giữa hai mục dữ liệu (mục dữ liệu đã biết và mục dữ liệu đang xét) Cụ thể, mức độ này dựa trên: (1) các giá trị xếp hạng đã biết của người cần tư vấn; (2) giá trị hấp dẫn của mối quan hệ giữa các mục láng giềng gần và mục đang xét

1.3 Hệ tư vấn và các hướng nghiên cứu

1.3.1 Hệ tư vấn

Sự tăng trưởng nhanh và đa dạng của các thông tin có sẵn trên internet cũng như

sự phát triển của nhiều dịch vụ như dịch vụ thương mại điện tử, dịch vụ giải trí thường khiến cho người dùng bị quá tải dẫn đến họ có thể đưa ra các quyết định không đúng

Hệ tư vấn [15] là công cụ phần mềm được nhúng trong các ứng dụng hoặc trang web giúp làm giảm tình trạng quá tải thông tin Hệ tư vấn sử dụng các loại tri thức và dữ liệu khác nhau (ví dụ: Sở thích, hành động của người dùng và thông tin theo ngữ cảnh)

để đề xuất các mục (ví dụ: Sản phẩm, bộ phim, bài hát) có thể hữu ích cho người dùng

Một hệ tư vấn thực hiện những bước xử lý chính [11][18] sau:

Trang 36

- Thu thập dữ liệu

- Lọc dữ liệu bằng một kỹ thuật lọc phù hợp, ví dụ: Dựa trên cộng tác, dựa trên nội dung, dựa trên tri thức, v.v Kỹ thuật lọc phụ thuộc vào loại dữ liệu gắn với lĩnh vực ứng dụng mà hệ tư vấn đang xử lý và dạng kết quả mà nó định sinh ra

- Xếp hạng các đối tượng (mục hay người dùng) được gợi ý

- Trình bày kết quả gợi ý (tập các đối tượng được xếp hạng cao nhất) cho người dùng

Ngoài ra, sau khi có được phản hồi của người dùng về các gợi ý trước đó, hệ tư vấn còn cho phép lặp lại những bước trên để tìm ra các gợi ý mới hoặc tốt hơn

Dữ liệu đầu vào và dữ liệu đầu ra của hệ tư vấn được liệt kê trong Hình 1.3

Hình 1.3: Dữ liệu đầu vào và đầu ra của hệ tư vấn

Dữ liệu đầu vào của hệ tư vấn có thể phân thành các nhóm như dưới đây Trong

đó, dữ liệu giao dịch là phong phú nhất

- Dữ liệu mục Các mục (hay mục tin, mục dữ liệu - item) có thể được biểu diễn bằng nhiều cách khác nhau chẳng hạn như dùng một tập các thuộc tính hay đơn giản chỉ dùng một mã nhận dạng mục

- Dữ liệu người dùng Thông tin người dùng có thể được biểu diễn chỉ bằng một mã nhận dạng hoặc một tập các thuộc tính - ví dụ, tập các thuộc tính nhân khẩu học gồm: Tuổi tác, giới tính, nghề nghiệp và nền tảng giáo dục

- Dữ liệu giao dịch (các tương tác giữa người dùng và hệ thống được ghi lại) Các giao dịch lưu trữ những thông tin quan trọng được tạo ra trong quá trình tương tác giữa người dùng và hệ thống Trong đó, các xếp hạng (những phản hồi của người dùng cho các mục đã chọn) là dạng dữ liệu giao dịch phổ biến nhất mà hệ tư vấn thu thập và sử dụng Các xếp hạng này có thể được thu thập tường minh hoặc không

Trang 37

tường minh Chúng có thể có nhiều dạng khác nhau như số liên tục hoặc khoảng, thứ bậc, nhị phân hoặc nhất phân

- Cơ sở tri thức Các cơ sở tri thức có thể được lấy từ thông tin có sẵn công khai, các chuyên gia lĩnh vực, kinh nghiệm trong quá khứ hoặc việc khai phá các tập dữ liệu lịch sử

- Thông tin ngữ cảnh Đây là các thông tin bổ sung nhằm xác định tình huống

cụ thể mà theo đó các đề xuất được đưa ra Chúng có thể là thông tin vị trí, thông tin

về thời gian hoặc thông tin xã hội

- Đặc tả của người dùng Thay vì sử dụng lịch sử của người dùng, một số kỹ thuật tư vấn cho phép họ tương tác với hệ thống qua việc xác định và điều chỉnh các yêu cầu

Dữ liệu đầu ra của một hệ tư vấn có thể ở những dạng sau:

- Các xếp hạng được dự đoán Hệ thống dự đoán các giá trị xếp hạng/đánh giá của người dùng cho những mục cụ thể

- Danh sách những mục (hoặc những người) được gợi ý Hệ thống đề xuất những mục được xếp hạng cao nhất cho một người dùng cụ thể (hoặc xác định những người dùng có xếp hạng cao nhất cho một mục cụ thể)

Các hệ tư vấn truyền thống thường sử dụng dữ liệu giao dịch (chẳng hạn như các hành vi mua hàng hóa hay xếp hạng cho sản phẩm) và các thuộc tính về người dùng và mục để dự đoán xếp hạng của người dùng và đưa ra danh sách các gợi ý Bài toán tư vấn này, còn được gọi là bài toán tư vấn hai chiều truyền thống [15], có thể được hình thức hóa bởi:

- 𝑈 là tập hợp hữu hạn người dùng;

- 𝐼 là tập hợp hữu hạn các mục;

- 𝑓: 𝑈 × 𝐼 → 𝑅 (với 𝑅 là một tập hợp có thứ tự hoàn toàn) là một hàm tiện ích

đo tính hữu dụng của một mục cụ thể 𝑖𝐼 cho một người dùng 𝑢𝑈

Như vậy, bài toán tư vấn hai chiều được xem như bài toán hàm ánh xạ Với từng người dùng 𝑢𝑈, ta cần chọn một mục 𝑖𝐼 sao cho tối đa hóa tiện ích của người dùng Bài toán tư vấn hai chiều truyền thống trên được mở rộng thành bài toán tư vấn nhiều chiều nếu có thêm các loại dữ liệu đầu vào khác Ví dụ, với các hệ tư vấn dựa trên ngữ cảnh, hàm tiện ích sẽ có dạng: 𝑓: 𝑈 × 𝐼 × 𝐶 → 𝑅 trong đó 𝐶 là tập các trạng thái ngữ cảnh

Trang 38

1.3.2 Phân loại hệ tư vấn

Các hệ tư vấn có thể được phân loại theo kỹ thuật (phương pháp) tư vấn, tính chất của dữ liệu hoặc lĩnh vực ứng dụng Rất nhiều nghiên cứu đã phân loại các hệ tư vấn theo kỹ thuật tư vấn Các kỹ thuật tư vấn [5][10][30] có thể được chia thành hai lớp chính: Lớp các phương pháp cơ bản (truyền thống) như dựa trên nội dung, lọc cộng tác và dạng lai ghép; lớp các phương pháp phát triển gần đây (mới) trên nền các phương pháp cơ bản như dựa trên ngữ cảnh hay dựa trên nhóm Ở cách phân loại theo tính chất dữ liệu [27], hạt nhân của sự phân loại tập trung vào ba yếu tố: Mục tiêu của

dữ liệu (theo người dùng hoặc mục); phương thức thu thập dạng tường minh (ví dụ: Những xếp hạng cho các mục cụ thể được thực hiện bởi người dùng) hoặc dạng không tường minh (ví dụ: Số lần người dùng đã xem một bộ phim); mức thông tin (gồm: Bộ nhớ, nội dung hoặc ngữ cảnh xã hội) Như vậy, hệ tư vấn sẽ được phân nhóm dựa trên việc xác định dữ liệu đầu vào theo ba yếu tố trên và sự kết hợp của những yếu tố

đó Ở cách phân loại theo lĩnh vực ứng dụng [30], các hệ tư vấn được chia vào một trong tám lĩnh vực chính là: Chính phủ điện tử, kinh doanh điện tử, thương mại (mua sắm) điện tử, thư viện điện tử, học tập điện tử, du lịch điện tử, dịch vụ điện tử và các hoạt động nhóm điện tử

Hình 1.4: Phân loại hệ tư vấn theo đối tượng chính cung cấp thông tin Chúng tôi phân loại các hệ tư vấn theo đối tượng chính cung cấp thông tin như Hình 1.4 Các đối tượng đó là: Cá thể, cộng đồng, chuyên gia hay lai ghép các đối tượng vừa nêu Tất cả chúng đều có thể bị tác động bởi ngữ cảnh Cách phân loại theo đối tượng được gắn với kỹ thuật tư vấn

Cá thể

Cộng tác /Cộng đồng

Chuyên gia Ngữ cảnh

Lai ghép

Trang 39

1.3.2.1 Hệ tư vấn thuộc nhóm cá thể

Hệ tư vấn thuộc nhóm cá thể sẽ sử dụng thông tin của chính cá thể đó để thực hiện gợi ý bằng kỹ thuật tư vấn dựa trên nội dung (content based recommendation)

Kỹ thuật này sử dụng các thuộc tính mô tả (được gọi là nội dung) của các mục để đưa

ra gợi ý; nó cố gắng đề xuất các mục tương tự như các mục mà người dùng đã yêu thích trong quá khứ [5][54] Các bước chính để đưa ra gợi ý cho người dùng là: (1) tiền xử lý và trích xuất đặc trưng; (2) học hồ sơ người dùng dựa trên nội dung; (3) lọc

và gợi ý các mục Việc chọn và đánh trọng số cho các đặc trưng là một hoạt động quan trọng trong tiền xử lý và trích xuất đặc trưng Một số độ đo thường được sử dụng để lựa chọn đặc trưng là: Chỉ số Gini, Entropy và thống kê χ2 [5]; để xác định trọng số của từ khoá là: Tần suất (term frequency - TF) và tần suất ngược (inverse document frequency - IDF) [10][54] Một số phương pháp được sử dụng để biểu diễn mục như không gian vector dựa trên từ khóa hay dựa trên bản thể học [54] Để học

hồ sơ người dùng và lọc các gợi ý, các mô hình như: Mô hình phân lớp, mô hình hồi quy, mô hình cây quyết định, hay máy vector hỗ trợ [5][10][49][58] được sử dụng

Hệ tư vấn thuộc nhóm cá thể có một số ưu điểm sau: (1) có thể gợi ý cho người dùng các mục mới vì hệ thống sẽ dựa vào những mục khác có thuộc tính tương tự đã được xếp hạng bởi người dùng; (2) có sự độc lập của người dùng vì hệ thống chỉ khai thác các xếp hạng được cung cấp bởi chính người dùng đó để xây dựng hồ sơ của anh/cô ấy mà không cần đến các xếp hạng của những người dùng khác Tuy nhiên,

hệ tư vấn thuộc nhóm cá thể vẫn còn những nhược điểm: (1) gặp vấn đề người dùng mới vì hệ tư vấn không có lịch sử xếp hạng của người dùng này nên không hiệu quả trong việc cung cấp các gợi ý cho họ; (2) gặp vấn đề chuyên môn hóa thái quá (overspecialization) vì hệ thống có xu hướng gợi ý các mục tương tự như những mục

mà người dùng đã xếp hạng hay thích trước đó

1.3.2.2 Hệ tư vấn thuộc nhóm cộng tác/cộng đồng

Hệ tư vấn thuộc nhóm cộng tác sẽ sử dụng thông tin từ cộng đồng (người dùng hoặc mục dữ liệu) để thực hiện gợi ý bằng kỹ thuật tư vấn lọc cộng tác (collaborative filtering recommendation) Kỹ thuật này có thể được nhóm thành hai lớp chung: Dựa trên bộ nhớ và dựa trên mô hình [37] Các bước chính để đưa ra gợi ý cho người dùng

Trang 40

là: (1) lấy thông tin về sở thích của một người dùng cần được tư vấn; (2) so khớp các xếp hạng của người dùng này với những người dùng khác và tìm ra những người có nhiều sở thích giống nhất; (3) gợi ý cho người dùng (cần được tư vấn) các mục được đánh giá cao bởi những người dùng ở bước trên

Ưu điểm của hệ tư vấn thuộc nhóm cộng tác dựa trên bộ nhớ là dễ cài đặt và dễ giải thích kết quả gợi ý Ưu điểm của hệ tư vấn nhóm cộng tác dựa trên mô hình là cải thiện được hiệu quả của các dự đoán và cung cấp mối quan hệ trực quan cho các gợi ý Tuy nhiên, hệ tư vấn thuộc nhóm cộng tác vẫn có một số nhược điểm sau: (1) gặp vấn đề dữ liệu thưa (sparse matrix) vì hầu hết người dùng chỉ xếp hạng những mục mà họ quan tâm (là một số rất nhỏ trong một số rất lớn các mục của hệ thống thực) nên hiệu quả của những dự đoán và các gợi ý của hệ tư vấn sẽ bị ảnh hưởng; (2) gặp vấn đề người dùng mới (vấn đề mục mới - cold start) vì hệ thống chưa có thông tin về đối tượng mới này, từ đó rất khó để tìm những đối tượng tương tự; (3) gặp vấn đề về khả năng mở rộng (đáp ứng) của hệ thống khi số người dùng và số mục tăng lên rất nhiều

1.3.2.3 Hệ tư vấn thuộc nhóm chuyên gia

Hệ tư vấn thuộc nhóm chuyên gia sẽ sử dụng cơ sở tri thức được cung cấp chủ yếu bởi các chuyên gia và yêu cầu/mong muốn trực tiếp của người dùng để thực hiện gợi ý bằng kỹ thuật tư vấn dựa trên tri thức (knowledge-based recommendation) Kỹ thuật này có thể phân thành: Tư vấn dựa trên trường hợp (case based recommendation)

và tư vấn dựa trên ràng buộc (constraint based recommendation) [5] Các bước chính

để đưa ra gợi ý cho người dùng là: (1) cho phép người dùng xác định các ràng buộc (những yêu cầu lên các thuộc tính của mục) hoặc các trường hợp (những mục tiêu); (2) so khớp các ràng buộc đã xác định ở bước trên với các thuộc tính của mục hoặc các trường hợp với các mục dựa trên tri thức lĩnh vực và sau đó đưa ra các gợi ý; (3) xác định những điều chỉnh đối với ràng buộc trên các thuộc tính hoặc những điều chỉnh đối với các mục; (4) lặp lại việc tìm kiếm (quay lại bước thứ hai) để có được kết quả tư vấn tốt hơn

Hệ tư vấn thuộc nhóm chuyên gia có một số ưu điểm: (1) thường hiệu quả khi

xử lý các vấn đề người dùng mới và mục mới vì hầu hết các hệ tư vấn loại này chủ

Định dạng
Số trang	192
Dung lượng	8,69 MB