CHƯƠNG 2. HỆ TƯ VẤN VÀ CÁC PHƯƠNG PHÁP LỌC
2.3. VẤN ĐỀ COLD - START
Trong hệ thống khuyến nghị, với hai phương pháp lọc cộng tác và lọc dựa trên nội dung, hệ thống đều phải dựa trên lịch sử đánh giá của người dùng đối với những tài nguyên đã được đánh giá trong quá khứ. Điều này có nghĩa là đối với người dùng mới thì hệ thống không có thông tin về đánh giá của người dùng trong dữ liệu nên không thể áp dụng các phương pháp trên để khuyến nghị [12]. Những người dùng mới này lại chiếm một lượng không nhỏ trong tổng số người dùng, đóng vai trò quan trọng trong việc duy trì và phát triển quy mô mặt hàng, gây ảnh hưởng đến hiệu suất của hệ tư vấn [20]. Vấn đề trên được gọi là vấn đề cold - start xảy đến với người dùng mới. Do vậy, hê tư vấn cần phải thay thế dữ liệu đầu vào cho phù hợp với đối tượng người dùng này.
Ví dụ: Một hệ khuyến nghị có người dùng mới và chưa có đánh giá tài nguyên của người dùng này.
Bảng 2.2: Ma trận đánh giá của người dùng lên tài nguyên có người dùng mới I
U
i1 i2 i3 i4
u1 1 2 3
u2 2 3 4 5
u3 X
u4 4 3 2 1
Ở bảng trên, do không có thông tin đánh giá của người dùng u3 lên bất kỳ tài nguyên nào nên chúng ta không thể sử dụng lọc cộng tác dự báo đánh giá người dùng
u3 lên tài nguyên i2 đƣợc.
2.3.2. Phương pháp dựa trên nhân khẩu
Một phương pháp khuyến nghị mới được đề xuất để giải quyết vấn đề trên. Đó là phương pháp dựa trên nhân khẩu. Phương pháp này có sự thay đổi đầu vào là không nhằm vào lịch sử đánh giá của những người dùng mà dựa vào sự tương đồng về mặt nhân khẩu giữa những người dùng với nhau, ví dụ như tuổi, công việc, nơi ở và giả định rằng những người dùng có sự tương đồng về mặt nhân khẩu sẽ có những đánh giá, lựa chọn tương tự nhau để hình thành một nhóm người dùng “gần gũi”. Trong đó, một người dùng là người dùng đang cần được tư vấn, còn lại là những người dùng đã từng tham gia đánh giá.
Phương pháp khuyến nghị dựa trên nhân khẩu bao gồm ba quá trình [7]: giai đoạn dữ liệu đầu vào, giai đoạn tính toán tương tự và giai đoạn tính toán đề nghị. Dữ liệu đầu vào là dữ liệu nhân khẩu của người dùng mới được xếp chung với dữ liệu của những người dùng khác đã biết thông tin đánh giá. Giai đoạn tính toán tương tự sử dụng dữ liệu nhân khẩu của những người đánh giá để tìm ra người dùng tương đồng với người dùng cần tư vấn rồi thành lập nhóm người dùng tương đồng với người dùng đó. Giai đoạn tính đoán đề nghị tìm đƣợc các tài nguyên có sự phổ biến cao đối với những người dùng trong nhóm tương tự để đưa ra đề nghị cho người dùng mới.
Hình 2.4: Phương pháp dựa trên nhân khẩu
Ta sẽ thực hiện ví dụ sau. Bảng dưới đây có thông tin nhân khẩu của một số người dùng, trong đó có một người dùng cần khuyến nghị.
Bảng 2.3: Bảng thông tin nhân khẩu của một số người dùng Tên Giới tính Nghề nghiệp Quốc gia Tuổi
John Nam Sinh viên Anh 13
Paul Nam Bác sĩ Anh 34
Sarah Nữ Sinh viên Mỹ 12
Mike Nam Giáo viên Anh 27
Theo bảng thông tin trên có bốn thuộc tính nhân khẩu học là giới tính, nghề nghiệp, quốc gia và tuổi. Giả sử John là người dùng cần tư vấn thì dựa theo sự giống nhau về giới tính, quốc gia thì giống Paul và Mike. Nếu lựa chọn sự tương đồng về mặt nghề nghiệp thì Sarah tương tự John. Sự lựa chọn các thuộc tính tương tự ở giai đoạn dữ liệu vào ảnh hưởng đến số lượng người dùng cho giai đoạn tính toán tương tự và từ đó ảnh hưởng đến kết quả cho giai đoạn tính toán đề nghị.
Cùng với quá trình trên, một khuôn khổ mới dựa trên dữ liệu nhân khẩu học đƣợc xây dựng nhằm đánh giá ảnh hưởng thuộc tính nhân khẩu tới đánh giá của người dùng.
Khung đánh giá nhân khẩu gồm bốn phần: dữ liệu nguồn, phân tích thuộc tính, phân chia dữ liệu và đƣa ra khuyến nghị [7].
Nguồn dữ liệu chứa dữ liệu về người dùng, tương ứng với giai đoạn dữ liệu đầu vào. Phân tích thuộc tính sẽ phân tích các loại thuộc tính nhân khẩu, sự phân bố của các loại thuộc tính trong dữ liệu và xác định các thuộc tính hợp lệ cho việc khuyến nghị.
Phần phân chia dữ liệu gồm hai công việc là tách tập dữ liệu ra thành một tập dữ liệu huấn luyện và loại bỏ một số đánh giá của một vài người dùng được lựa chọn ngẫu nhiên (coi như ẩn hoặc người dùng mới không có đánh giá) từ tập dữ liệu được huấn luyện và ghi lại xếp hạng của những người dùng đó vào tập dữ liệu thử nghiệm tương ứng với mỗi thuộc tính hợp lệ. Phần phân tích thuộc tính và phần phân chia dữ liệu thuộc vào giai đoạn tính toán tương tự. Sau đó, phần đưa ra đề nghị rút ra những đối tượng xuất hiện trong tập dữ liệu huấn luyện giới thiệu cho người dùng mới và sử dụng các tập dữ liệu ẩn đã có sẵn đánh giá độ chính xác. Phần đƣa ra đề nghị xảy ra trong giai đoạn tính toán đề nghị.
Hình 2.5: Khung đánh giá thuộc tính nhân khẩu