1. Trang chủ
  2. » Cao đẳng - Đại học

Tích hợp thông tin ngữ cảnh trong hệ gợi ý

59 58 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 1,04 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • Danh mục các hình vẽ

  • Danh mục các bảng

  • 1 GIỚI THIỆU

    • 1.1 Tổng quan về hệ gợi ý

      • 1.1.1 Bài toán hệ gợi ý

      • 1.1.2 Cách tiếp cận giải quyết bài toán

        • 1.1.2.1 Lọc cộng tác

        • 1.1.2.2 Dựa vào nội dung

        • 1.1.2.3 Cách tiếp cận kết hợp

      • 1.1.3 Miền ứng dụng của hệ gợi ý

        • 1.1.3.1 Thương mại điện tử

        • 1.1.3.2 Giải trí

        • 1.1.3.3 Giáo dục

    • 1.2 Đánh giá hệ gợi ý

      • 1.2.1 Các phương pháp đánh giá

        • 1.2.1.1 Phương pháp đánh giá trực tuyến

        • 1.2.1.2 Phương pháp thực nghiệm không trực tuyến

        • 1.2.1.3 Phương pháp nghiên cứu người dùng

      • 1.2.2 Các độ đo

        • 1.2.2.1 Độ đo RMSE và MAE

        • 1.2.2.2 Độ đo NRMSE và NMAE

    • 1.3 Thách thức của hệ gợi ý truyền thống

    • 1.4 Ngữ cảnh trong hệ gợi ý

      • 1.4.1 Khái niệm ngữ cảnh

      • 1.4.2 Thu thập thông tin ngữ cảnh

    • 1.5 Tổng kết chương 1

  • 2 TÍCH HỢP THÔNG TIN NGỮ CẢNH TRONG HỆ GỢI Ý

    • 2.1 Hệ gợi ý theo ngữ cảnh

    • 2.2 Các phương pháp tích hợp thông tin ngữ cảnh trong hệ gợi ý

      • 2.2.1 Lọc trước theo ngữ cảnh

      • 2.2.2 Lọc sau ngữ cảnh

      • 2.2.3 Mô hình hóa ngữ cảnh

        • 2.2.3.1 Cách tiếp cận dựa trên kinh nghiệm

        • 2.2.3.2 Cách tiếp cận dựa trên mô hình

    • 2.3 Kết luận chương 2

  • 3 THỰC NGHIỆM

    • 3.1 Dữ liệu thực nghiệm

    • 3.2 Cài đặt thực nghiệm

    • 3.3 Kết quả thực nghiệm:

    • 3.4 Kết luận chương

  • Tài lịu tham khao

Nội dung

Tổng quan về hệ gợi ý

Bài toán hệ gợi ý

Hệ gợi ý là một hệ thống lọc thông tin giúp người dùng tìm kiếm sản phẩm và dịch vụ phù hợp với sở thích của họ Chúng được ứng dụng phổ biến trong nhiều lĩnh vực như mua sắm trực tuyến, đọc tin tức, âm nhạc, du lịch, xem phim và mạng xã hội, với các ví dụ điển hình như Amazon, Netflix và Facebook Các phương pháp xây dựng hệ gợi ý có thể được phân loại thành ba loại chính: lọc cộng tác, dựa trên nội dung và kết hợp giữa hai phương pháp này.

Trong hệ gợi ý truyền thống, người dùng đánh giá sản phẩm để thể hiện mức độ hài lòng của mình, với các giá trị từ 1 đến 5, trong đó 1 là rất không hài lòng và 5 là rất hài lòng Những đánh giá này có thể được thu thập một cách tường minh hoặc ngầm định Hệ gợi ý được xây dựng dựa trên dữ liệu sở thích của người dùng, được biểu diễn dưới dạng ma trận Users × Items, trong đó mỗi dòng đại diện cho một người dùng và các đánh giá của họ về các sản phẩm khác nhau Mỗi cột đại diện cho một sản phẩm và các đánh giá từ nhiều người dùng khác nhau Tuy nhiên, ma trận này thường thưa thớt vì có ít cặp user-item có dữ liệu đánh giá Mục tiêu chính của hệ gợi ý là dự đoán các đánh giá cho những sản phẩm mà người dùng chưa từng tương tác.

Chúng tôi định nghĩa "sản phẩm" là các đối tượng như sản phẩm, dịch vụ, tin tức, bài báo và mẫu tin quảng cáo mà người dùng quan tâm và đánh giá trong hệ thống gợi ý Hệ thống này sẽ dự đoán các đánh giá chưa biết cho các cặp người dùng và sản phẩm còn lại, từ đó cung cấp cho người dùng những sản phẩm có khả năng nhận được đánh giá cao.

Trong bài toán hệ gợi ý, U đại diện cho tập hợp người dùng với tổng số người dùng M = |U|, và I là tập hợp sản phẩm với tổng số sản phẩm N = |I| Ma trận đánh giá Y chứa các đánh giá thực tế của người dùng, trong khi Yˆ là ma trận đánh giá được dự đoán Mỗi đánh giá của người dùng u trên sản phẩm i được ký hiệu là r ui, và đánh giá dự đoán là rˆui Mục tiêu là xây dựng hàm dự đoán đánh giá r: U × I → R, nhằm ánh xạ mỗi cặp (u, i) vào tập giá trị đánh giá R, từ đó lấp đầy ma trận đánh giá R bằng các giá trị dự đoán.

Trong hệ thống gợi ý, tính tiện ích của sản phẩm được thể hiện qua mức độ quan tâm của người dùng đối với một mặt hàng cụ thể, được xác định bằng trọng số Ví dụ, người dùng u1 đánh giá sản phẩm i3 với trọng số là 4, như được minh họa trong Bảng 1.1.

Bảng 1.1: Bảng ma trận trọng số đánh giá của hệ gợi ý. i 1 i 2 i 3 i 4 i 5 u1 5 3 4 4 ? u 2 2 2 4 1 4 u 3 1 4 5 1 2 u 4 1 4 2 4 3

Cách tiếp cận giải quyết bài toán

Có ba cách tiếp cận để giải quyết bài toán:

Các thuật toán lọc cộng tác khai thác dữ liệu về sở thích của người dùng và sự tương đồng giữa người dùng hoặc sản phẩm để đưa ra gợi ý Hệ thống này giúp người dùng lựa chọn sản phẩm dựa vào ý kiến và đánh giá của người khác Lọc cộng tác được chia thành hai nhóm chính: phương pháp dựa trên láng giềng, sử dụng dữ liệu đánh giá trực tiếp để dự đoán các đánh giá chưa biết, và phương pháp dựa trên mô hình, nơi dữ liệu đánh giá được dùng để học và phát triển mô hình dự đoán.

Phương pháp lọc cộng tác dựa trên láng giềng được chia thành hai hướng tiếp cận chính: dựa trên người dùng và dựa trên sản phẩm Hướng tiếp cận đầu tiên tập trung vào việc dự đoán đánh giá của người dùng u cho sản phẩm i bằng cách sử dụng các đánh giá từ những người tương đồng với u Trong khi đó, hướng tiếp cận thứ hai dựa vào lịch sử đánh giá của người dùng u trên các sản phẩm khác tương tự với i để đưa ra dự đoán cho đánh giá của u về sản phẩm i.

Many readers of Stephen R Covey's "The 7 Habits of Highly Effective People" and Jim Collins' "Good to Great" often seek out Napoleon Hill's "Think and Grow Rich." This indicates a shared interest among these readers Consequently, when a new user shows interest in "The 7 Habits of Highly Effective People" and "Good to Great," the system can recommend "Think and Grow Rich" as a book they might also enjoy, as illustrated in Figure 1.1.

Hình 1.1: Minh họa phương pháp lọc cộng tác.

Các thuật toán gợi ý dựa trên nội dung khai thác các thuộc tính của sản phẩm để xác định những đặc điểm chung mà người dùng quan tâm Chẳng hạn, trong hệ thống gợi ý phim, các thuộc tính như thể loại, đạo diễn và diễn viên được sử dụng để đề xuất những bộ phim phù hợp với sở thích của người dùng Nếu một người dùng thường đánh giá cao các bộ phim có sự tham gia của diễn viên A, hệ thống sẽ gợi ý cho họ những bộ phim khác có những đặc điểm tương tự.

1.1.2.3 Cách tiếp cận kết hợp

Kết hợp phương pháp lọc cộng tác và lọc dựa trên nội dung là xu hướng phổ biến trong các hệ thống gợi ý Nhiều hệ thống hiện nay sử dụng sự kết hợp giữa nội dung sản phẩm (item-based), nội dung người dùng (user-based), phân rã ma trận (matrix factorization) và lọc ngữ cảnh (context-based filtering) để nâng cao độ chính xác và hiệu quả của các gợi ý.

Trong các phương pháp tiếp cận, lọc cộng tác là cách phổ biến nhất, dựa vào hành vi quá khứ của người dùng như lịch sử giao dịch, đánh giá sản phẩm và thói quen xem phim hoặc nghe nhạc Phương pháp này không yêu cầu tạo hồ sơ tường minh cho người dùng Hệ thống lọc cộng tác hoạt động bằng cách so sánh các sản phẩm và người dùng khác nhau để gợi ý sản phẩm phù hợp.

Miền ứng dụng của hệ gợi ý

Hệ gợi ý ứng dụng hiện đang được áp dụng rộng rãi trong nhiều lĩnh vực khác nhau như thương mại điện tử, giải trí và giáo dục, với các ví dụ tiêu biểu từ Amazon, eBay, YouTube, Netflix và LastFM Bài viết này sẽ giới thiệu một số ứng dụng mới nhất trong các lĩnh vực này, làm nổi bật vai trò của hệ gợi ý trong việc nâng cao trải nghiệm người dùng và tối ưu hóa quy trình tìm kiếm thông tin.

1.1.3.1 Thương mại điện tử Đi đầu trong lĩnh vực này là Amazon và Ebay, họ đã rất thành công trong việc tích hợp hệ gợi ý nói riêng và các kỹ thuật trong khai phá dữ liệu nói chung vào hệ thống.

Last.fm là một nền tảng gợi ý bài hát nổi tiếng toàn cầu, sử dụng xếp hạng từ người dùng để dự đoán những bài hát mà họ sẽ thích trong tương lai Tại Việt Nam, nhiều dịch vụ nghe nhạc trực tuyến như nhaccuatui.com, nhacso.net và p3.zing.vn cũng áp dụng công nghệ gợi ý tương tự.

Netflix.com là một trong những nền tảng gợi ý phim hàng đầu thế giới, sử dụng hệ thống dựa trên các đánh giá trước đó để dự đoán sở thích của người dùng đối với những bộ phim mà họ chưa xem.

Nhóm tác giả [14] đã áp dụng kỹ thuật BMF để dự đoán kết quả học tập của sinh viên, nhằm cung cấp gợi ý cho việc chọn môn học tự chọn Hệ thống này xử lý dữ liệu điểm số của sinh viên, chuyển đổi chúng sang định dạng phù hợp với thuật toán BMF, đồng thời tìm kiếm siêu tham số và đánh giá, so sánh với các thuật toán khác.

Đánh giá hệ gợi ý

Các phương pháp đánh giá

Các phương pháp đánh giá hệ gợi ý được phân loại thành ba loại chính: đánh giá trực tuyến, thực nghiệm không trực tuyến và nghiên cứu người dùng.

1.2.1.1 Phương pháp đánh giá trực tuyến Được sử dụng để so sánh các thuật toán gợi ý, từ đó lựa chọn thuật toán tốt nhất, trong đó, các thuật toán cần đánh giá sẽ được cài đặt trên một hệ thống thực nghiệm trực tuyến Với mỗi hành động từ người dùng, hệ thống sẽ gửi dữ liệu (chẳng hạn như thông tin tương tác của người dùng với hệ thống) đến một thuật toán và trả kết quả gợi ý từ thuật toán này đến người dùng Thuật toán nào trả về kết quả có tỷ lệ lựa chọn cao hơn sẽ là thuật toán tốt hơn Độ đo thường được sử dụng trong phương pháp này là CTR (Click Through Rate), thể hiện tỷ lệ các gợi ý được người dùng nhấn vào so với tổng số gợi ý thuật toán đưa ra Để

2 https://www.nhaccuatui.com đảm bảo việc đánh giá công bằng, các thuật toán sẽ được lựa chọn một cách ngẫu nhiên [15].

Phương pháp này mang lại lợi ích từ việc thu thập phản hồi thực tế của người dùng, giúp phản ánh chính xác hành vi và mong muốn của họ Tuy nhiên, nó cũng tồn tại một số hạn chế như: (i) việc thiết lập thực nghiệm tốn nhiều thời gian và chi phí, đòi hỏi tích hợp các thuật toán vào hệ thống hiện có; (ii) có thể gây ra ấn tượng không tốt cho người dùng tham gia khi các gợi ý từ thuật toán không phù hợp.

1.2.1.2 Phương pháp thực nghiệm không trực tuyến

Dựa trên dữ liệu sở thích người dùng đã thu thập, phương pháp đánh giá khả năng dự đoán của hệ gợi ý sử dụng các độ đo thích hợp mà không cần tương tác với người dùng thực, giúp tiết kiệm chi phí trong các thử nghiệm so sánh thuật toán Tuy nhiên, việc thiếu tương tác trực tiếp dẫn đến khoảng cách giữa kết quả thực nghiệm và thực tế khi triển khai hệ thống, đồng thời không thể trả lời các câu hỏi về trải nghiệm người dùng như tính dễ sử dụng, giao diện thân thiện và thời gian phản hồi Phương pháp này chủ yếu được áp dụng để đánh giá và so sánh khả năng dự đoán của các thuật toán, nhằm tìm ra giải pháp tối ưu và các tham số tốt nhất cho các nghiên cứu và thực nghiệm sau.

1.2.1.3 Phương pháp nghiên cứu người dùng Được thực hiện dựa trên việc thực nghiệm trên một nhóm đối tượng trong vai trò là người dùng hệ thống Những người này sẽ được yêu cầu thực hiện một số tác vụ tương tác với hệ gợi ý (chẳng hạn như tìm kiếm, đọc, xem sản phẩm, thêm vào giỏ hàng, thực hiện mua hàng) Trong quá trình họ tương tác với hệ thống,chúng ta quan sát và ghi lại hành vi của họ (thủ công hoặc tự động) [16] Các thông tin thu thập có thể mang tính định lượng (ví dụ: thời gian họ dừng lại ở mỗi sản phẩm, thứ tự các sản phẩm được lựa chọn) hoặc định tính (ví dụ: họ có cảm thấy giao diện thân thiện không? các thao tác với hệ thống có thuận lợi không?).

Các độ đo

Mỗi hệ thống gợi ý cần có các chỉ số phù hợp để đánh giá hiệu quả, đặc biệt trong nhiệm vụ dự đoán đánh giá Nhiệm vụ này yêu cầu hệ thống dự đoán điểm số (thường là từ 1 đến 5 sao) cho từng cặp người dùng và sản phẩm trong tập kiểm tra Độ chính xác của thuật toán gợi ý được đánh giá thông qua việc đo lường sự khác biệt giữa giá trị đánh giá dự đoán và giá trị thực tế.

1.2.2.1 Độ đo RMSE và MAE

Các độ đo phổ biến cho nhiệm vụ này bao gồm việc sử dụng tập dữ liệu đánh giá T, bao gồm các cặp (u, i) với giá trị đánh giá ẩn đi Độ đo RMSE được tính theo công thức cụ thể.

(ˆr ui −r ui ) 2 (1.1) và MAE được tính bởi công thức:

Người thiết kế hệ gợi ý có thể chọn RMSE hoặc MAE để đánh giá độ chính xác của thuật toán, tùy thuộc vào mục tiêu cụ thể RMSE đặc biệt phù hợp với các thuật toán có sai số nhỏ giữa các cặp (u, i), vì nó bình phương độ lỗi trước khi tính trung bình Điều này có nghĩa là RMSE sẽ đánh giá cao hơn cho các thuật toán có lỗi phân bố rộng rãi, ngay cả khi tổng độ lỗi giống nhau.

Các độ đo RMSE và MAE chỉ chú trọng đến độ lớn của lỗi mà không xem xét ngữ nghĩa của các đánh giá Ví dụ, trong hệ thống gợi ý phim với thang điểm từ 1 đến 5 sao, 1-2 sao cho thấy phim không nên xem, trong khi 3-5 sao cho thấy phim được đánh giá tốt hơn Cụ thể, trong trường hợp một bộ phim được đánh giá 2 sao nhưng thuật toán dự đoán 1 sao, và trường hợp một bộ phim được đánh giá 3 sao nhưng thuật toán lại đưa ra dự đoán khác, sẽ có sự khác biệt rõ rệt về ý nghĩa của các đánh giá này.

Cả hai trường hợp đều có độ lỗi là 1, nhưng trong trường hợp thứ nhất, 1 sao và 2 sao đều chỉ ra rằng bộ phim không nên được xem, cho thấy thuật toán đã dự đoán chính xác Ngược lại, trường hợp thứ hai lại không phản ánh điều này.

1.2.2.2 Độ đo NRMSE và NMAE

Hai độ đo chính được sử dụng là RMSE và MAE, nhưng được chuẩn hóa theo khoảng đánh giá từ R min đến R max Việc này cho phép so sánh độ chính xác của các thuật toán trên các miền bài toán khác nhau, như trong trường hợp bài toán gợi ý phim với khoảng đánh giá từ 1 đến 5 sao và bài toán gợi ý du lịch với khoảng đánh giá từ 1 đến 10 sao.

Trong trường hợp tập dữ liệu đánh giá có phân phối không cân bằng, như khi một số sản phẩm nhận được nhiều đánh giá hơn, giá trị RMSE/MAE có thể không đại diện cho tất cả sản phẩm Để khắc phục điều này, có thể tính RMSE/MAE cho từng sản phẩm và sau đó lấy trung bình cho toàn bộ sản phẩm trong tập kiểm tra Tương tự, nếu có sự phân phối không đồng đều giữa các người dùng, việc sử dụng độ đo trung bình RMSE/MAE cũng là một giải pháp hợp lý.

Thách thức của hệ gợi ý truyền thống

Hiện nay, hệ thống gợi ý truyền thống đang đối mặt với nhiều thách thức, bao gồm dữ liệu thưa, sự xuất hiện của sản phẩm mới, người dùng mới và khả năng mở rộng quy mô.

Dữ liệu thưa là vấn đề phổ biến trong các tập sản phẩm lớn, khi số lượng người dùng mới tăng lên nhưng họ chỉ tương tác với một phần nhỏ trong danh sách sản phẩm Tại Việt Nam, người dùng thường không có thói quen đánh giá hay nhận xét về sản phẩm, điều này khiến việc xác định sở thích của họ trở nên khó khăn hơn.

2 Khả năng mở rộng phạm vi: Khi số người dùng và sản phẩm ngày càng mở rộng, phạm vi xử lý sẽ trở thành một vấn đề lớn.

Sản phẩm mới và người dùng mới (cold-start) gặp khó khăn trong việc gợi ý do thiếu thông tin lịch sử Ngay cả những sản phẩm đã được mô tả rõ ràng cũng có thể gây nhầm lẫn Để hiểu sở thích của người dùng mới, hệ thống cần áp dụng các phương pháp lai, kết hợp giữa lọc cộng tác và nội dung Ngoài ra, có những kỹ thuật xác định sản phẩm tốt nhất cho người dùng mới, giúp cải thiện khả năng gợi ý trong tình huống này.

Một số thách thức về môi trường bao gồm lượng bán lẻ và người dùng có thể đạt đến hàng triệu, yêu cầu các ứng dụng phải cung cấp kết quả trong thời gian thực (không quá nửa giây) đồng thời đảm bảo chất lượng gợi ý tốt Người dùng cũ thường có quá nhiều thông tin thừa, trong khi người dùng mới lại thiếu dữ liệu, dẫn đến việc thông tin người dùng dễ bị bỏ quên.

Ngữ cảnh trong hệ gợi ý

Khái niệm ngữ cảnh

Khái niệm về “ngữ cảnh” đã được nghiên cứu trong nhiều lĩnh vực khác nhau

Theo Dourish, ngữ cảnh được chia thành hai loại: góc nhìn biểu diễn và góc nhìn tương tác Ông phân loại ngữ cảnh dựa trên hai khía cạnh chính: (i) mức độ thông tin mà hệ gợi ý nắm được về các yếu tố ngữ cảnh, từ có đầy đủ thông tin đến không có thông tin nào, và (ii) sự thay đổi của các yếu tố ngữ cảnh theo thời gian, từ tĩnh đến động Sự kết hợp của hai khía cạnh này tạo ra sáu trường hợp ngữ cảnh khác nhau Trong đó, trường hợp ngữ cảnh tĩnh với hệ thống nắm đầy đủ thông tin tương ứng với góc nhìn biểu diễn, trong khi trường hợp ngữ cảnh động mà hệ gợi ý không có thông tin lại tương ứng với góc nhìn tương tác.

Hệ thống gợi ý thường dựa trên bài toán điền ma trận, tập trung vào tương tác giữa người dùng và sản phẩm để dự đoán các giá trị chưa được quan sát Các thuật toán được phát triển nhằm ghi lại hồ sơ sở thích dài hạn của người dùng, nhưng nhiều ứng dụng cần xem xét cả ý định ngắn hạn để đưa ra gợi ý phù hợp Một số hệ gợi ý dựa trên phiên làm việc khai thác hành vi của người dùng ẩn danh để đưa ra gợi ý mà không cần dữ liệu lịch sử Ý định ngắn hạn của người dùng là thông tin ngữ cảnh quan trọng, và các nghiên cứu trước đây chủ yếu tập trung vào ngữ cảnh theo góc nhìn biểu diễn Tuy nhiên, các nghiên cứu gần đây cho thấy rằng thông tin ngữ cảnh theo thời gian có thể nâng cao độ chính xác của gợi ý, nhấn mạnh tầm quan trọng của ngữ cảnh theo góc nhìn tương tác.

Dey [28] cũng đưa ra định nghĩa về tính toán ngữ cảnh (context-aware com- puting), khái niệm được giới thiệu lần đầu bởi Schilit and Theimer [29] vào năm

1994: “A system is context-aware if it uses context to provide relevant information and/or services to the user, where relevancy depends on the user’s task”.

Thu thập thông tin ngữ cảnh

Thông tin ngữ cảnh có thể được thu thập một cách tường minh, ngầm định hoặc thông qua suy luận [30]:

Thu thập tường minh là quá trình thu thập thông tin ngữ cảnh bằng cách hỏi trực tiếp người dùng qua phỏng vấn, phiếu khảo sát trực tuyến hoặc các phương tiện khác Ví dụ, một nghiên cứu đã xây dựng website khảo sát để đánh giá ý kiến của người dùng về các bộ phim, đồng thời ghi nhận các thông tin ngữ cảnh như thời gian xem, địa điểm và người xem cùng Trong một năm, 117 sinh viên đã tham gia khảo sát, thu thập được 1.755 đánh giá trên 210 bộ phim.

Thu thập ngầm định là quá trình thu thập thông tin ngữ cảnh từ dữ liệu hoặc môi trường liên quan đến người dùng hoặc sản phẩm mà không cần sự tương tác trực tiếp Ví dụ, thông tin về vị trí có thể được rút trích từ tọa độ của thiết bị di động, trong khi thông tin thời gian có thể xác định dựa trên thời điểm thực hiện giao dịch, và thông tin thời tiết hiện tại cũng có thể được khai thác một cách tự động.

Thu thập thông tin ngữ cảnh thông qua suy luận (Inferring) là một phương pháp khai thác dữ liệu và thống kê mà không cần tương tác trực tiếp với người dùng Nghiên cứu [32] cho thấy thông tin về địa điểm xem phim, như xem ở rạp hay ở nhà, có thể được suy luận bằng cách so sánh thời gian đánh giá của người dùng với thời gian trình chiếu của bộ phim Nếu đánh giá được thực hiện trong vòng 2 tháng kể từ khi bộ phim ra mắt, thì có thể kết luận rằng người dùng đã xem phim ở rạp; ngược lại, nếu không, họ có khả năng đã xem ở nhà.

Việc thu thập thông tin ngữ cảnh tường minh rất quan trọng cho người xây dựng hệ thống gợi ý, giúp họ có được thông tin cần thiết để phát triển mô hình gợi ý phù hợp với người dùng Tuy nhiên, phương pháp này cũng tồn tại một số hạn chế cần được xem xét.

Thứ nhất, người dùng có thể không sẵn lòng để lại đánh giá, việc yêu cầu họ cung cấp thêm thông tin ngữ cảnh lại càng khó hơn.

Việc thu thập thông tin ngữ cảnh sau khi người dùng đã trải nghiệm sản phẩm trong thời gian dài có thể dẫn đến việc họ nhớ lại thông tin không chính xác hoặc thiếu sót Do đó, khi thiết kế hệ thống gợi ý, cần xác định số lượng và độ chi tiết của thông tin ngữ cảnh cần thu thập Các giá trị cho mỗi chiều ngữ cảnh nên được đơn giản hóa để nâng cao độ chính xác của dữ liệu Người thiết kế cần cân nhắc giữa độ chính xác và kích thước dữ liệu, như ví dụ [31] đã chỉ ra, khi thiết kế chiều Time chỉ bao gồm hai giá trị là Weekday và Weekend.

Việc thu thập thông tin ngữ cảnh ngầm định không yêu cầu tương tác trực tiếp từ người dùng, mà diễn ra một cách trong suốt, cho phép thu thập các đánh giá và sở thích qua hoạt động của họ trên hệ thống, như thời gian xem phim hay sự kiện mua sản phẩm Nghiên cứu đã chỉ ra rằng tần suất mua sản phẩm có thể phản ánh mức độ quan tâm của người dùng Tuy nhiên, không phải tất cả thông tin ngữ cảnh đều có thể được thu thập theo mong muốn của người xây dựng hệ thống gợi ý Để xây dựng các yếu tố ngữ cảnh phù hợp, cần xác định các yếu tố có liên quan đến từng lĩnh vực cụ thể, vì chúng có thể ảnh hưởng đến trải nghiệm sản phẩm của người dùng ở những mức độ khác nhau Sau khi thu thập dữ liệu, có thể áp dụng các phương pháp kiểm định để giữ lại những thông tin ngữ cảnh thực sự có tác động và loại bỏ những thông tin ít có ý nghĩa, như việc kiểm tra ảnh hưởng của thời tiết đến trải nghiệm xem phim.

Tổng kết chương 1

Bài viết đã làm rõ các khái niệm về hệ gợi ý, cách phát biểu và giải quyết bài toán, cũng như các lĩnh vực ứng dụng Đồng thời, nó nêu ra những thách thức mà hệ gợi ý truyền thống phải đối mặt và nghiên cứu cơ sở lý thuyết về ngữ cảnh Ngoài ra, bài viết cũng đề cập đến cách thu thập thông tin ngữ cảnh, tác động của ngữ cảnh đến hệ gợi ý truyền thống, và cách tích hợp thông tin ngữ cảnh vào hệ gợi ý, những nội dung này sẽ được trình bày chi tiết trong chương tiếp theo.

CHƯƠNG 2 TÍCH HỢP THÔNG TIN NGỮ CẢNH

Thông tin ngữ cảnh có ảnh hưởng lớn đến độ chính xác của hệ gợi ý truyền thống, dẫn đến việc gợi ý và đánh giá sản phẩm cho người dùng không đạt yêu cầu Hệ gợi ý này cũng đối mặt với nhiều thách thức như dữ liệu thưa, khả năng mở rộng, và sự xuất hiện của sản phẩm và người dùng mới Để khắc phục những vấn đề này, nhiều phương pháp hiện đại đã được nghiên cứu, trong đó tích hợp thông tin ngữ cảnh được xem là xu hướng nổi bật nhằm nâng cao độ chính xác và hiệu quả gợi ý cho người dùng Chương này sẽ trình bày chi tiết về cách thức tích hợp thông tin ngữ cảnh trong hệ thống gợi ý.

Hệ gợi ý theo ngữ cảnh

Hệ gợi ý truyền thống dựa vào thông tin người dùng và sản phẩm, bao gồm mã người dùng, mã sản phẩm, hồ sơ người dùng và đặc điểm sản phẩm, để đưa ra gợi ý và dự đoán cho các cặp người dùng-sản phẩm chưa biết Những hệ thống này được gọi là hệ gợi ý 2 chiều (2D).

Hệ gợi ý theo ngữ cảnh là một cải tiến của các hệ gợi ý truyền thống, cho phép đưa ra các gợi ý cho người dùng dựa trên thông tin ngữ cảnh như thời tiết, thời gian và tâm trạng Dữ liệu sở thích của người dùng được mở rộng thành một tập dữ liệu đa chiều, bao gồm người dùng, sản phẩm và các thông tin ngữ cảnh Được định nghĩa một cách hình thức, bài toán hệ gợi ý theo ngữ cảnh với hàm dự đoán đánh giá là r : U × I × C → R, trong đó rˆ uic là giá trị đánh giá dự đoán cho người dùng u trên sản phẩm i trong ngữ cảnh c, ánh xạ mỗi bộ (u, i, c)∈U × I × C vào tập giá trị đánh giá R.

Các phương pháp tích hợp thông tin ngữ cảnh trong hệ gợi ý

Lọc trước theo ngữ cảnh

Hướng tiếp cận lọc trước theo ngữ cảnh sử dụng thông tin ngữ cảnh để chọn lọc dữ liệu 2DU x I phù hợp nhất, từ đó tạo ra các gợi ý cho người dùng Một trong những lợi ích quan trọng của phương pháp này là khả năng tái sử dụng các kỹ thuật gợi ý truyền thống 2 chiều đã được đề cập trước đó Ngữ cảnh c sẽ được sử dụng như một truy vấn để lọc ra các dữ liệu đánh giá liên quan.

Trong hệ thống gợi ý phim, việc sử dụng ngữ cảnh để lọc dữ liệu là rất quan trọng Chẳng hạn, nếu một người dùng muốn xem phim vào thứ Bảy, chỉ những bộ phim được chiếu vào ngày đó và đã được xếp hạng cao mới được đưa ra gợi ý Điều này cho thấy bộ truy vấn lọc dữ liệu được xây dựng dựa trên ngữ cảnh cụ thể về thời gian, và được gọi là lọc trước dữ liệu chính xác.

Tác giả Adomavicius đã đề xuất một phương pháp rút gọn dữ liệu để chuyển đổi bài toán gợi ý trong không gian dữ liệu nhiều chiều về dạng bài toán hệ gợi ý truyền thống 2 chiều Phương pháp này cho phép áp dụng trực tiếp các nghiên cứu trước đây về hệ gợi ý 2 chiều vào các hệ gợi ý nhiều chiều, mang lại lợi thế quan trọng cho các phương pháp lọc trước theo ngữ cảnh.

Hàm xếp hạng 2 chiều R U ser D × Item: U x I cho phép dự đoán xếp hạng của người dùng đối với sản phẩm, sử dụng tập dữ liệu xếp hạng mẫu D, bao gồm các bảng ghi về người dùng, sản phẩm và xếp hạng Ví dụ, có thể dự đoán xếp hạng của John cho sản phẩm StarWar thông qua hàm này.

Hàm dự đoán xếp hạng 3 chiều với ngữ cảnh thời gian có thể được định nghĩa bằng công thức: R D U ser × Item × T ime :U x I x T →Rating.

D là tập dữ liệu bao gồm các bảng ghi thông tin về người dùng, mặt hàng, thời gian và xếp hạng Hàm dự đoán xếp hạng 3 chiều có thể được mở rộng thành hàm dự đoán xếp hạng 2 chiều thông qua nhiều phương pháp khác nhau, sử dụng công thức đã được xác định.

∀(u, i, t)∈U ×I×T, R D U ser×Item×T ime(u, i, t) = R D[T ime=t] U ser×Item (u, i) (2.1)

Ký hiệu Time=t đại diện cho bộ lọc theo ngữ cảnh thời gian, trong khi D[Time=t] là tập dữ liệu xếp hạng được lọc từ dữ liệu ban đầu D Tập dữ liệu này chỉ giữ lại những bản ghi thỏa mãn điều kiện thời gian Time với giá trị bằng t, đồng thời chỉ bao gồm hai chiều dữ liệu là User và Item cùng với giá trị xếp hạng rating tương ứng.

Dựa trên phân tích, nếu coi tập dữ liệu ba chiều D là một quan hệ, thì D[T ime=t] có thể được xem như một quan hệ khác được tạo ra từ D thông qua các phép toán quan hệ, bao gồm phép chọn và phép chiếu.

Phương pháp bộ lọc chính xác đôi khi dẫn đến kết quả hạn chế khi rút gọn dữ liệu Chẳng hạn, khi một người dùng xem phim với bạn gái trong rạp vào thứ 7, ngữ cảnh c = (bạn gái, trong rạp, thứ 7) có thể gây ra vấn đề trong việc truy vấn dữ liệu do nhiều nguyên nhân khác nhau Đặc biệt, có một tỷ lệ không nhỏ các ngữ cảnh chính xác không đủ ý nghĩa, ảnh hưởng đến chất lượng kết quả thu được.

Sở thích xem phim với bạn gái vào cuối tuần có thể tương tự nhau, nhưng lại khác biệt vào các ngày trong tuần Do đó, nên sử dụng ngữ cảnh tổng quát như "cuối tuần" thay vì chỉ tập trung vào thứ 7 Hơn nữa, các ngữ cảnh chính xác có thể không cung cấp đủ dữ liệu để dự đoán xếp hạng, dẫn đến vấn đề dữ liệu thưa trong các hệ thống gợi ý truyền thống Tóm lại, hệ thống gợi ý có thể thiếu dữ liệu quá khứ về sở thích xem phim với bạn gái vào thứ 7, điều này cần được xem xét.

Tổng quát hóa ngữ cảnh cho phép cải thiện khả năng truy vấn lọc dữ liệu bằng cách sử dụng một ngữ cảnh cụ thể Nếu c 0 = (c 0 1 , , c 0 k) là ngữ cảnh tổng quát hóa của c = (c 1 , , c k), thì điều này đúng khi ci → c 0 i với mọi i từ 1 đến k trong trật tự ngữ cảnh tương ứng Như vậy, c’ có thể được sử dụng như một truy vấn để thu thập dữ liệu được xếp hạng theo ngữ cảnh.

Adomavicius đề xuất một phương pháp phát triển tổng quát hóa ngữ cảnh trong hệ thống gợi ý, không sử dụng ngữ cảnh chính xác tại thời điểm t, mà thay vào đó áp dụng hàm lọc trước tổng quát hóa Time∈S t, với S t là miền ngữ cảnh hóa Ví dụ, trong một hệ gợi ý phim, để dự đoán xếp hạng của người dùng John Doe cho bộ phim Gladiator, ta cần xem xét các yếu tố ngữ cảnh liên quan.

Để tính toán chính xác, nên sử dụng ngữ cảnh xếp hạng theo Weekday thay vì chỉ dựa vào xếp hạng theo Monday khi lọc dữ liệu dự đoán Điều này có nghĩa là với mỗi bộ dữ liệu (u,i,t) mà t thuộc Weekday, chúng ta có khả năng dự đoán xếp hạng một cách hiệu quả hơn.

R D U ser×Item×T ime(u, i, t) =R D [T ime∈W eekday]( U ser,Item,ARRG(Rating))

Tổng quát hơn, để dự đoán xếp hạng R(u,i,t), dùng miền ngữ cảnh xác định St như sau:

R D U ser×Item×T ime(u, i, t) = R D [T ime ∈ St ]( U ser,Item,ARRG(Rating))

Hàm đại số trong công thức trên được sử dụng để xác định giá trị xếp hạng chung cho toàn bộ tập dữ liệu trên miền S t Hàm này có thể tính toán giá trị xếp hạng trung bình, hỗ trợ trong việc rút gọn chiều dữ liệu của không gian miền gợi ý.

Hàm rút gọn 3 chiều có thể được mở rộng thành phương thức rút gọn tổng quát n chiều về không gian gợi ý m chiều (với m < n) Thông thường, các hệ thống gợi ý áp dụng m=2, vì các hệ gợi ý truyền thống chỉ được xây dựng với 2 chiều dữ liệu User x Item Việc tổng quát hóa ngữ cảnh có nhiều khả năng xảy ra, tùy thuộc vào phân loại và mức độ chi tiết của ngữ cảnh Ví dụ, trong lĩnh vực xem phim, các loại ngữ cảnh được nhận diện sẽ phụ thuộc vào suy luận từ phân cấp ngữ cảnh.

Company: GirlFriend → Friends →NotAlone → AnyCompany;

Lọc sau ngữ cảnh

Hướng tiếp cận lọc sau bỏ qua yếu tố ngữ cảnh trong dữ liệu đầu vào khi tính toán gợi ý cho người dùng, như thể hiện trong Hình 2.1.b Sau khi thu được kết quả gợi ý từ các kỹ thuật gợi ý 2 chiều truyền thống, hàm lọc theo ngữ cảnh sẽ được áp dụng để tinh chỉnh danh sách gợi ý dựa trên thông tin ngữ cảnh Danh sách gợi ý được điều chỉnh sẽ được hình thành qua các bước cụ thể.

Bước 1 Lọc bỏ các gợi ý không liên quan với ngữ cảnh;

Bước 2 Hiệu chỉnh thứ tự xếp hạng các gợi ý trong danh sách.

Trong các hệ thống gợi ý phim, nếu người dùng muốn xem một bộ phim hài vào cuối tuần, hệ thống sẽ sử dụng kỹ thuật gợi ý hai chiều để tạo ra danh sách phim Bằng cách này, hệ thống có thể loại bỏ các bộ phim không liên quan đến thể loại hài, đảm bảo rằng người dùng chỉ nhận được những gợi ý phù hợp với sở thích của mình.

Hướng tiếp cận lọc sau theo ngữ cảnh tập trung vào việc phân tích dữ liệu sở thích của người dùng trong một ngữ cảnh cụ thể để xác định các mẫu gợi ý điển hình Những mẫu này sau đó được sử dụng để điều chỉnh danh sách gợi ý, nhằm cung cấp cho người dùng những sản phẩm phù hợp với ngữ cảnh của họ, như minh họa trong Hình 2.2.

Hình 2.2: Bước hiệu chỉnh danh sách gợi ý trong lọc sau theo ngữ cảnh.

Tương tự như các kỹ thuật gợi ý khác, hướng tiếp cận lọc sau theo ngữ cảnh cũng được phân loại theo hai nhóm:

Dựa trên kinh nghiệm, việc tìm kiếm các thuộc tính đặc trưng của sản phẩm phù hợp với người dùng trong ngữ cảnh cụ thể là rất quan trọng Ví dụ, nếu người dùng muốn xem diễn viên yêu thích của mình trong một bối cảnh nhất định, các thuộc tính này sẽ được sử dụng để điều chỉnh danh sách gợi ý một cách hiệu quả.

Dựa trên mô hình dự đoán, chúng ta có thể tính toán xác suất mà người dùng sẽ chọn một thể loại sản phẩm cụ thể trong ngữ cảnh nhất định Ví dụ, xác suất liên quan có thể được sử dụng để điều chỉnh danh sách gợi ý, giúp nâng cao trải nghiệm người dùng.

Mô hình hóa ngữ cảnh

Hướng tiếp cận mô hình hóa sử dụng thông tin ngữ cảnh trực tiếp trong hàm gợi ý nhằm dự đoán xếp hạng của người dùng đối với sản phẩm Trong ba hướng tiếp cận, mô hình hóa mới áp dụng các hàm gợi ý nhiều chiều, được thể hiện qua các mô hình dự đoán dựa trên kỹ thuật cây quyết định, đại số hồi quy, và mô hình thống kê Ngoài ra, các tính toán dựa trên kinh nghiệm cũng được kết hợp với thông tin ngữ cảnh, bên cạnh thông tin về người dùng và sản phẩm, theo công thức xếp hạng Rating = R(U, I, C).

2.2.3.1 Cách tiếp cận dựa trên kinh nghiệm Ý tưởng của hướng tiếp cận này là mở rộng mô hình 2 chiều truyền thống có kết hợp thông tin ngữ cảnh như các chiều dữ liệu thêm vào bên cạnh User và Item Một trong những mô hình 2 chiều hay được áp dụng để mở rộng là mô hình gợi ý người láng giềng gần nhất [36],[37] Khi đó, hệ thống sẽ thực hiện xây dựng hàm tính đơn vị khoảng cánh n-chiều thay vì chỉ sử dụng các độ đo tương quan truyền thống là user-user, item-item Để hiểu được cơ chế thực hiện của hướng tiếp cận này, ta hãy xem xét ví dụ về không gian gợi ý User x Item x Time Áp dụng kỹ thuật người láng giềng gần nhất (dựa trên trọng số của tổng các xếp hạng dự đoán liên quan), hàm dự đoán xếp hạng r u,i,t sẽ được tính theo công thức sau [31]: ru,i,t =k X

Trong công thức W((u, i, t),(u 0 , i 0 , t 0 ))×ru 0 ,i 0 ,t 0 (2.4), W((u, i, t),(u 0 , i 0 , t 0 )) đại diện cho trọng số của xếp hạng ru 0 ,i 0 ,t 0 trong dự đoán của r u,i,t, với k là yếu tố chuẩn hóa Trọng số W được tính dựa trên khoảng cách tương quan giữa hai điểm (u 0 , i 0 , t 0) và (u, i, t) trong không gian nhiều chiều, với giá trị W càng lớn khi khoảng cách tương quan càng nhỏ, cụ thể là W((u, i, t),(u 0 , i 0 , t 0 )) = 1/dist[(u 0 , i 0 , t 0 ),(u, i, t)] Việc lựa chọn hàm tính khoảng cách tương quan dist phụ thuộc vào ứng dụng cụ thể.

Một trong những phương pháp đơn giản để xây dựng hàm khoảng cách trong không gian nhiều chiều là sử dụng hướng tiếp gần, tương tự như phương pháp rút gọn dữ liệu đã được đề cập ở phần 2.2.1 Cụ thể, hàm tính khoảng cách giữa các điểm trong không gian nhiều chiều có cùng ngữ cảnh được định nghĩa như sau: dist[(u, i, t),(u 0 , i 0 , t 0 )] = n dist[(u 0 ,i 0 ,t 0 ),(u,i,t)], nếu t = t 0.

Hàm khoảng cách này chỉ phụ thuộc vào các giá trị xếp hạng trong cùng miền ngữ cảnh tại thời điểm time=t, rút gọn bài toán thành tối ưu hệ gợi ý 2 chiều truyền thống trên miền đánh giá có cùng giá trị ngữ cảnh t của điểm (u, i, t) Nếu định nghĩa hàm khoảng cách dist[(u 0 , i 0 , t 0 ),(u, i, t)] chỉ dựa vào khoảng cách giữa hai user khi i = i’, chúng ta sẽ thu được phương thức tương tự với cách tiếp cận lọc trước đã được trình bày.

Cách tiếp cận này có thể dễ dàng mở rộng cho không gian n chiều bằng cách xác định khoảng cách giữa hai điểm xếp hạng Khoảng cách được tính là dist[(u 0 , i 0 ),(u, i)] chỉ khi các ngữ cảnh của hai điểm xếp hạng này tương đồng.

Có một số phương thức phổ biến để xây dựng hàm khoảng cách, bao gồm khoảng cách theo trọng số Manhattan và khoảng cách theo trọng số Euclidean Đối với khoảng cách Manhattan, công thức được biểu diễn như sau: dist[(u, i, t),(u 0 , i 0 , t 0 )] = w 1 d 1 ((u, u 0 ) + w 2 d 2 (i, i 0 ) + w 3 d 3 (t, t 0 )) Trong khi đó, khoảng cách Euclidean được tính bằng công thức: dist[(u, i, t),(u 0 , i 0 , t 0 )] = √(w 1 d 1^2 ((u, u 0 ) + w 2 d 2^2 (i, i 0 ) + w 3 d 3^2 (t, t 0 ))) Trong đó, d 1 , d 2 , d 3 đại diện cho khoảng cách theo người dùng, sản phẩm và thời gian, còn w 1 , w 2 , w 3 là trọng số tương ứng cho từng chiều dữ liệu, phản ánh mức độ quan trọng của chúng.

Khoảng cách dist có thể được tính bằng nhiều phương pháp khác nhau, thường dựa trên các giá trị xếp hạng của cùng một người dùng hoặc cùng một mục Nghiên cứu về các cách định nghĩa khoảng cách này tiếp tục là một lĩnh vực hấp dẫn, nhằm so sánh hiệu suất dự đoán của các phương pháp khác nhau.

2.2.3.2 Cách tiếp cận dựa trên mô hình Ý tưởng của hướng tiếp cận này là mở rộng các hệ gợi ý 2 chiều truyền thống được xây dựng dựa trên việc mô hình hóa hàm dự đoán xếp hạng Một trong những kỹ thuật hay được áp dụng để mở rộng đó là kỹ thuật phân rã ma trận (MF) Khi đó ta gọi phương pháp này là kỹ thuật gợi ý hướng ngữ cảnh dựa trên phân rã ma trận, viết tắt là CAMF.

Kỹ thuật MF vẫn được coi là công nghệ tiên tiến nhất trong hệ thống gợi ý truyền thống Phân rã ma trận là quá trình chia nhỏ một ma trận lớn để cải thiện hiệu suất của các hệ thống gợi ý.

X được phân tách thành hai ma trận nhỏ hơn với kích thước W và H, nhằm tái tạo lại X một cách chính xác nhất có thể, tức là X ≈ W H T, như được thể hiện trong Hình 2.3.

Mục tiêu chính của kỹ thuật này là phân rã ma trậnX thành 2 ma trận nhỏ hơn

Hình 2.3: kỹ thuật này là phân rã ma trận X thành 2 ma trận nhỏ hơn.

W và H sao cho ta có thể xây dựng lại X từ 2 ma trận con này:

Với W và H là 2 ma trận con:

W là ma trận chứa các vector mô tả người dùng, với mỗi dòng u tương ứng với K nhân tố tiềm ẩn H cũng là một ma trận, trong đó mỗi dòng i là một vector.

K nhân tố tiềm ẩn mô tả cho item I; K: là số nhân tố tiềm ẩn (lantent factors)

K ∈ |U| và K ∈ |I| Đặt wuk và hik là các phần tử tương ứng của hai ma trận W và H Công thức dự đoán xếp hạng của người dùng u đối với sản phẩm I được biểu diễn bằng ˆ r ui.

Chi tiết về giải thuật học, thực hiện huấn luyện sao cho tìm được hai ma trận

W và H được tối ưu theo một điều kiện nào đó.

Ví dụ, hàm mục tiêu cần tối ưu là:

0(u,i,r)∈D train e ui 2 (2.11) e ui 2 = (r ui −rˆ ui ) 2 = r ui −

Một trong những kỹ thuật tối ưu hóa hàm mục tiêu hiệu quả là sử dụng SGD (Stochastic Gradient Descent), hay còn gọi là giảm gradient ngẫu nhiên Quá trình này bắt đầu bằng việc khởi tạo các giá trị ngẫu nhiên cho W và H, sau đó thực hiện cập nhật từng bước cho đến khi hàm mục tiêu đạt được giá trị nhỏ nhất Để đạt được điều này, cần xác định xem có nên tăng hay giảm các giá trị của W và H trong mỗi lần cập nhật, do đó việc tính toán đạo hàm từng phần là rất quan trọng.

Để giảm thiểu độ lỗi tối đa, cần cập nhật giá trị cho w uk và h ik thông qua kỹ thuật SGD, với công thức: w 0 uk = w uk − β ∂.

∂w uk e ui 2 =w uk + 2βe ui h ik =w uk + 2β2 (r ui −rˆ ui )h ik (2.15) h ik =h ik −β ∂

∂h ik e ui 2 =h ik + 2βe ui h ik =h ik + 2β2 (r ui −ˆr ui )w uk (2.16) β: tốc độ học (learning rate) Sau quá trình tối ưu, ta có được giá trị của W và H.

Dữ liệu thực nghiệm

Trong nghiên cứu của chúng tôi, hai bộ dữ liệu chính được sử dụng là Travel-STS, tập trung vào lĩnh vực du lịch, và InCarMusic, liên quan đến âm nhạc Thông tin chi tiết về từng bộ dữ liệu sẽ được trình bày sau đây.

Bộ dữ liệu Travel-STS [42]: Có 325 người dùng, 249 sản phẩm, 2.414 đánh giá. với các điều kiện ngữ cảnh như:

Thời tiết: Nắng, mây, mưa, giông, trời quang, tuyết rơi.

Nhiệt độ: Đốt, nóng, ấm, mát, lạnh, lạnh.

Thời gian có sẵn: Nửa ngày, một ngày, hơn một ngày.

Sự đông đúc: Sầm uất, không đông đúc, vắng tanh.

Mùa: Xuân, hạ, thu, đông.

Chi phí: Thấp, trung bình, cao.

Buổi sáng, buổi trưa, buổi tuối.

Bạn Đồng hành: Với bạn bè /đồng nghiệp, con cái, một mình, với bạn gái/bạn trai, với gia đình.

Tâm trạng: Vui, buồn, năng động, lười biếng.

Các ngày trong tuần: Ngày làm việc, cuối tuần.

Mục tiêu du lịch bao gồm nhiều lĩnh vực đa dạng như kinh doanh, chăm sóc sức khỏe, khám phá danh lam thắng cảnh và phong cảnh, tham quan các địa điểm tôn giáo, thăm bạn bè, giáo dục, tham gia các hoạt động thể thao, và tham dự các sự kiện xã hội.

Di chuyển: xe hơi, xe đạp, giao thông công cộng, không có phương tiện giao thông.

Bộ dữ liệu Travel-STS có định dạng được mô tả như hình 3.1

Hình 3.1: Bộ dữ liệu có định dạng được mô tả

Bộ dữ liệu InCarMusic [43]: Có 66 người dùng, 50 sản phẩm, 955 đánh giá với đánh giá với các điều kiện ngữ cảnh như:

Phong cách lái xe (DS): lái xe thoải mái, lái xe thể thao.

Loại đường (RT): thành phố, đường cao tốc.

Phong cảnh (L): đường bờ biển, vùng nông thôn, núi / đồi, đô thị.

Trang thái (S): thức, buồn ngủ. Điều kiện giao thông (TC): đường tự do, nhiều ô tô, kẹt xe.

Tâm trạng (M): hoạt động, vui vẻ, lười biếng, buồn bã.

Thời tiết (W): có mây, có tuyết, nắng, mưa.

Thời gian (NP): thời gian trong ngày, buổi sáng, buổi tối, buổi chiều.

Bộ dữ liệu có định dạng được mô tả như hình 3.2

Hình 3.2: Bộ dữ liệu có định dạng được mô tả

Cài đặt thực nghiệm

Để đánh giá hiệu quả tích hợp thông tin ngữ trong hệ gợi ý, các thực nghiệm được tiến hành với hai loại hệ thống: (i) hệ gợi ý truyền thống dựa trên phương pháp lọc cộng tác sử dụng mô hình phân rã ma trận (hệ thống MF) và (ii) hệ gợi ý tích hợp thông tin ngữ cảnh thông qua mô hình hóa ngữ cảnh.

Chúng tôi áp dụng độ đo RMSE thông qua phương pháp kiểm thử chéo 5 phần (5-fold cross-validation), một kỹ thuật phổ biến giúp đánh giá khách quan Để tính toán độ chính xác, chúng tôi lấy top 10 kết quả gợi ý đầu tiên Các hệ gợi ý được cài đặt trên công cụ nguồn mở CARSKIT.

Hình 3.3: Cấu trúc công cụ nguồn mở CARSKIT

Dữ liệu định dạng nhị phân, tệp lưu một trong hai định dạng txt hoặc csv bằng cách sử dụng dấu phẩy làm dấu phân cách.

Hình 3.4: Bộ dữ liệu có định dạng được mô tả

Thuật toán trong công cụ CARSKIT chia làm loại (cơ sở và tích hợp ngữ cảnh)

Trong luận vă này, sử dụng phần mềm Eclipse Java 2018 tích hợp công cụ nguồn mở CARSKIT vào để tiến hành thực hiện cụ thể hình 3.5:

Cấu hình thực nghiệp được tiến hành như hình 3.6:

Hình 3.5: Tích hợp công cụ nguồn mở CARSKIT vào Eclipse Java 2018

Hình 3.6: Cấu hình tập tin setting.conf trong công cụ CARSKIT

Lấy kết quả trả về từ tập tin results trong công cụ CARSKIT hình 3.7:

Hình 3.7: Tập tin results trong công cụ CARSKIT

Ngày đăng: 10/08/2021, 15:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] M. Deshpande and G. Karypis, “Item-based top-n recommendation al- gorithms,” ACM Transactions on Information Systems (TOIS), vol. 22, no. 1, pp. 143–177, 2004 Sách, tạp chí
Tiêu đề: Item-based top-n recommendation al- gorithms
[2] X. Ning, C. Desrosiers, and G. Karypis, “A comprehensive survey of neighborhood-based recommendation methods,” in Recommender sys- tems handbook. Springer, 2015, pp. 37–76 Sách, tạp chí
Tiêu đề: Recommender systems handbook
Tác giả: X. Ning, C. Desrosiers, G. Karypis
Nhà XB: Springer
Năm: 2015
[3] V.-D. Nguyen and V.-N. Huynh, “Two-probabilities focused combina- tion in recommender systems,” International Journal of Approximate Reasoning, vol. 80, pp. 225–238, 2017 Sách, tạp chí
Tiêu đề: Two-probabilities focused combination in recommender systems
Tác giả: V.-D. Nguyen, V.-N. Huynh
Nhà XB: International Journal of Approximate Reasoning
Năm: 2017
[4] J. A. Konstan, B. N. Miller, D. Maltz, J. L. Herlocker, L. R. Gordon, and J. Riedl, “Grouplens: applying collaborative filtering to usenet news,”Communications of the ACM, vol. 40, no. 3, pp. 77–87, 1997 Sách, tạp chí
Tiêu đề: Grouplens: applying collaborative filtering to usenet news
Tác giả: J. A. Konstan, B. N. Miller, D. Maltz, J. L. Herlocker, L. R. Gordon, J. Riedl
Nhà XB: Communications of the ACM
Năm: 1997
[5] Y. Koren, “Factorization meets the neighborhood: a multifaceted collab- orative filtering model,” in Proceedings of the 14th ACM SIGKDD in- ternational conference on Knowledge discovery and data mining, 2008, pp. 426–434 Sách, tạp chí
Tiêu đề: Factorization meets the neighborhood: a multifaceted collaborative filtering model
Tác giả: Y. Koren
Nhà XB: Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining
Năm: 2008
[6] A. Mnih and R. R. Salakhutdinov, “Probabilistic matrix factorization,”in Advances in neural information processing systems, 2008, pp. 1257–1264 Sách, tạp chí
Tiêu đề: Probabilistic matrix factorization
[7] T. Hofmann, “Collaborative filtering via gaussian probabilistic latent se- mantic analysis,” in Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, 2003, pp. 259–266 Sách, tạp chí
Tiêu đề: Collaborative filtering via gaussian probabilistic latent semantic analysis
Tác giả: T. Hofmann
Nhà XB: Proceedings of the 26th annual international ACM SIGIR conference on Research and development in information retrieval
Năm: 2003
[8] P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, and J. Riedl, “Grou- plens: an open architecture for collaborative filtering of netnews,” in Proceedings of the 1994 ACM conference on Computer supported coop- erative work, 1994, pp. 175–186 Sách, tạp chí
Tiêu đề: Grou-plens: an open architecture for collaborative filtering of netnews
Tác giả: P. Resnick, N. Iacovou, M. Suchak, P. Bergstrom, J. Riedl
Nhà XB: Proceedings of the 1994 ACM conference on Computer supported cooperative work
Năm: 1994
[9] M. J. Pazzani and D. Billsus, “Content-based recommendation sys- tems,” in The adaptive web. Springer, 2007, pp. 325–341 Sách, tạp chí
Tiêu đề: The adaptive web
Tác giả: M. J. Pazzani, D. Billsus
Nhà XB: Springer
Năm: 2007
[10] R. J. Mooney and L. Roy, “Content-based book recommending using learning for text categorization,” in Proceedings of the fifth ACM con- ference on Digital libraries, 2000, pp. 195–204 Sách, tạp chí
Tiêu đề: Content-based book recommending using learning for text categorization
[11] J.-w. Ahn, P. Brusilovsky, J. Grady, D. He, and S. Y. Syn, “Open user profiles for adaptive news systems: help or harm?” in Proceedings of the 16th international conference on World Wide Web, 2007, pp. 11–20 Sách, tạp chí
Tiêu đề: Open user profiles for adaptive news systems: help or harm
[12] M. Balabanovi´ c and Y. Shoham, “Fab: content-based, collaborative rec- ommendation,” Communications of the ACM, vol. 40, no. 3, pp. 66–72, 1997 Sách, tạp chí
Tiêu đề: Fab: content-based, collaborative recommendation
Tác giả: M. Balabanović, Y. Shoham
Nhà XB: Communications of the ACM
Năm: 1997
[13] S. E. Middleton, N. R. Shadbolt, and D. C. De Roure, “Ontological user profiling in recommender systems,” ACM Transactions on Information Systems (TOIS), vol. 22, no. 1, pp. 54–88, 2004 Sách, tạp chí
Tiêu đề: Ontological user profiling in recommender systems
Tác giả: S. E. Middleton, N. R. Shadbolt, D. C. De Roure
Nhà XB: ACM Transactions on Information Systems (TOIS)
Năm: 2004
[14] H. L. T. Nhàn, “Nguyễn thái nghe. 2013,” Hệ thống dự đoán kết quả học tập và gợi ỳ lựa chọn môn học. Kỷ yếu hội thảo quốc gia lần thứ XVI:Một số vấn đề chọc lọc của CNTT&amp;TT (@ 2013), trang, pp. 110–118 Sách, tạp chí
Tiêu đề: Hệ thống dự đoán kết quả học tập và gợi ỳ lựa chọn môn học
Tác giả: H. L. T. Nhàn
Nhà XB: Kỷ yếu hội thảo quốc gia lần thứ XVI:Một số vấn đề chọc lọc của CNTT&TT
Năm: 2013
[15] A. Gunawardana and G. Shani, “A survey of accuracy evaluation met- rics of recommendation tasks.” Journal of Machine Learning Research, vol. 10, no. 12, 2009 Sách, tạp chí
Tiêu đề: A survey of accuracy evaluation met- rics of recommendation tasks
Tác giả: A. Gunawardana, G. Shani
Nhà XB: Journal of Machine Learning Research
Năm: 2009
[16] G. Shani and A. Gunawardana, “Evaluating recommendation systems,”in Recommender systems handbook. Springer, 2011, pp. 257–297 Sách, tạp chí
Tiêu đề: Recommender systems handbook
Tác giả: G. Shani, A. Gunawardana
Nhà XB: Springer
Năm: 2011
[17] S.-L. Vũ, Q.-H. Lê, and V.-V. Nguyễn, “Đánh giá hệ gợi ý: Khảo sát và thực nghiệm,” in Submitted to The 23rd National Symposium of Selected ICT Problems (@2020) Sách, tạp chí
Tiêu đề: Đánh giá hệ gợi ý: Khảo sát và thực nghiệm
Tác giả: S.-L. Vũ, Q.-H. Lê, V.-V. Nguyễn
Nhà XB: The 23rd National Symposium of Selected ICT Problems
Năm: 2020
[18] A. M. Rashid, I. Albert, D. Cosley, S. K. Lam, S. M. McNee, J. A. Kon- stan, and J. Riedl, “Getting to know you: learning new user preferences in recommender systems,” pp. 127–134, 2002 Sách, tạp chí
Tiêu đề: Getting to know you: learning new user preferences in recommender systems
Tác giả: A. M. Rashid, I. Albert, D. Cosley, S. K. Lam, S. M. McNee, J. A. Konstan, J. Riedl
Năm: 2002
[19] A. Schmidt, M. Beigl, and H.-W. Gellersen, “There is more to context than location,” Computers &amp; Graphics, vol. 23, no. 6, pp. 893–901, 1999 Sách, tạp chí
Tiêu đề: There is more to context than location

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w