1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu về hệ thống khuyến nghị và ứng dụng trong bài toán khuyến nghị bộ phim liên quan

40 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 40
Dung lượng 727,75 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hệ thống khuyến nghị có thể giúp chúng ta chỉ ra các thông tin phù hợp trong số thông tin khổng lồ chưa có trật tự đó, nó sử dụng các kỹ thuật lọc để chọn ra những loại thông tin đặc trư

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH

NGUYỄN VĂN NIỆM

LUẬN VĂN THẠC SỸ Chuyên ngành: CÔNG NGHỆ THÔNG TIN

NGHI N C U VỀ HỆ TH NG HU ẾN NGHỊ VÀ NG DỤNG TRONG BÀI TOÁN KHUYẾN NGHỊ BỘ PHIM LIÊN QUAN

Giáo viên hướng dẫn: TS TRẦN XUÂN SANG

Nghệ an, 7/2018

Trang 2

1

LỜI CẢM ƠN

Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới TS Trần Xuân Sang đã tận tình hướng dẫn em trong suốt suốt quá trình thực hiện đề tài

Em xin gửi lời cảm ơn sâu sắc tới quý Thầy Cô trong viện Kỹ thuật và Công nghệ trường Đại học Vinh đã truyền đạt kiến thức quý báu cho em trong 2 năm học vừa qua

Em xin gửi lời cảm ơn tới Ban Giám Hiệu, các thầy cô giáo đồng nghiệp trường THPT Con Cuông đã tạo điều kiện giúp đỡ em trong công việc để cho em được học tập và hoàn thành luận văn Thạc sĩ

Xin chân thành cảm ơn các anh chị và bạn bè, đặc biệt là các thành viên trong lớp K24 CNTT Đại Học Vinh đã ủng hộ, giúp đỡ và động viên tôi trong suốt thời gian học tập vừa qua

Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Em kính mong nhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và các bạn

Em xin chân thành cảm ơn!

Trang 3

2

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn này là do tự bản thân thực hiện và là sản phẩm của riêng tôi Các số liệu và tài liệu trong luận văn là trung thực, các tin thứ cấp

sử dụng trong luận văn là có nguồn gốc và đƣợc trích dẫn rõ ràng

Tôi hoàn toàn chịu trách nhiệm về tính xác thực và nguyên bản của luận văn

Học viên

Nguyễn Văn Niệm

Trang 4

3

MỤC LỤC

LỜI CẢM ƠN 1

MỤC LỤC 3

CHƯƠNG I 6

TỎNG QUAN VỀ ĐỀ TÀI 6

1.SỰ CẦN THIẾT CỦA VẤN ĐỀ NGHIÊN CỨU 6

2.MỤC TIÊU NGHIÊN CỨU 6

2.1 Mục tiêu tổng quát 6

2.2 Mục tiêu cụ thể 6

3.ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 7

3.1 Đối tượng nghiên cứu 7

3.2 Phạm vi nghiên cứu 7

4.NỘI DUNG NGHIÊN CỨU 7

CHƯƠNG II 8

HỆ THỐNG KHUYẾN NGHỊ TỰ ĐỘNG 8

2.1.HỆ THỐNG KHUYẾN NGHỊ 8

2.1.1 Khái niệm 8

2.1.2 Cách thức hoạt động của hệ thống khuyến nghị 10

2.1.3 Các chức năng của hệ thống khuyến nghị 13

2.1.4 Các phương pháp khai thác dữ liệu được sử dụng 14

2.1.5 Đánh giá các phương pháp 17

CHƯƠNG III 19

HỆ THỐNG TỰ ĐỘNG GỢI Ý BỘ PHIM LIÊN QUAN 19

3.1.MÔ TẢ BÀI TOÁN 19

3.2.LỌC CỘNG TÁC 20

3.2.1 Giới thiệu 20

3.2.2 Lọc cộng tác dựa trên bộ nhớ 22

Trang 5

4

3.2.3 Lọc cộng tác dựa trên mô hình 25

3.3.KẾT QUẢ THỰC NGHIỆM 33

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 38

1.NHỮNG KẾT QUẢ ĐẠT ĐƯỢC VÀ MẶT HẠN CHẾ 38

2.HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 38

TÀI LIỆU THAM KHẢO 39

Trang 6

5

DANH MỤC CÁC TỪ VIẾT TẮT

Trang 7

6

CHƯƠNG I TỎNG QUAN VỀ ĐỀ TÀI

1 Sự cần thiết của vấn đề nghiên cứu

Ngày nay chúng ta sống trong công nghệ số, với sự phát triển của internet

đã đưa con người vào thế giới với một lượng lớn các thông tin như âm nhạc, phim ảnh, sách vở, trang web,… với những đặc tính khác nhau Trước những thông tin khổng lồ đó, người dùng cảm thấy bối rối và không biết chọn cái nào là thích hợp với mình và nên chọn cái nào trước, cái nào sau

Hệ thống khuyến nghị có thể giúp chúng ta chỉ ra các thông tin phù hợp trong số thông tin khổng lồ chưa có trật tự đó, nó sử dụng các kỹ thuật lọc để chọn ra những loại thông tin đặc trưng nhằm hiển thị các phần tử phù hợp với sở thích của người dùng Theo cách này, hệ thống có tích hợp tính năng khuyến nghị sẽ thu hút được người dùng cả về sự hài lòng và tin cậy Các hệ thống khuyến nghị tiêu biểu như Amazon, Netflix, IMDb, Youtube, Last.fm, MovieLens… đã tăng được số lượng khách truy cập nhờ vào tính năng hỗ trợ quyết định này của hệ thống

2 Mục tiêu nghiên cứu

2.1 Mục tiêu tổng quát

Nghiên cứu, áp dụng về hệ thống khuyến nghị tự động và ứng dụng trong khuyến nghị phim

2.2 Mục tiêu cụ thể

Đề tài tập trung vào các mục tiêu cụ thể sau:

(i) Nghiên cứu tổng quan hệ thống khuyến nghị

(ii) Nghiên cứu về hệ khuyến nghị phim

Trang 8

7

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

(a) Nghiên cứu lý thuyết

- Nghiên cứu hệ thống khuyến nghị tự động

- Nghiên cứu áp dụng về hệ thống khuyến nghị tự động trong khuyến nghị phim

(b) Nghiên cứu thực nghiệm

- Nghiên cứu tài liệu về ngôn ngữ lập trình để cài đặt các thuật toán thử nghiệm

- Cài đặt và đánh giá hiệu quả của bài toán về hệ thống tự động khuyến nghị

và ứng dụng trong khuyến nghị phim

3.2 Phạm vi nghiên cứu

Trong luận văn này tôi nghiên cứu hệ thống khuyến nghị dựa trên nội dung (Content-Based Recommendation System) và Khuyến nghị lọc cộng tác để đánh giá tương quan (Collaborative Filtering Recomnendation System)

4 Nội dung nghiên cứu

- Nghiên cứu tổng quan lý thuyết về hệ thống khuyến nghị tự động và ứng dụng trong khuyến nghị phim

- Nghiên cứu ngôn ngữ lập trình để cài đặt thuật toán

- Viết báo cáo luận văn

Trang 9

để hỗ trợ cho các phương pháp truyến thống trên Hệ tư vấn (recommender system) là một giải pháp như vậy Hệ thống này đưa ra khuyến nghị dựa trên những gì người dùng đã làm trong quá khứ, hoặc dựa trên tổng hợp ý kiến của những người dùng khác Hệ tư vấn đã trở thành một ứng dụng quan trọng và thu hút được sự quan tâm lớn của các nhà nghiên cứu cũng như các doanh nghiệp

Một vài hệ tư vấn nổi tiếng:

Phim/ TV/ âm nhạc: MovieLens, EachMovie, Morse, Firefly, Flycasting,Ringo…

Tin tức/ báo chí: Tapestry, GroupLens, Lotus Notes, Anatagonomy…

Sách/ Tài liệu: Amazon.com, Foxtrot, InfoFinder…

Web: Phoaks, Gab, Fab, IfWeb, Let's Browse …

Nhà hàng: Adaptive Place Advisor, Polylens, Pocket restaurent finder…

Du lịch: Dietorecs, LifestyleFinder …

2.1.1 hái niệm

Hệ thống khuyến nghị là kỹ thuật cung cấp những khuyến nghị cho nhu cầu

về một sản phẩm, dịch vụ nào đó trên Internet cho người sử dụng Những khuyến

Trang 10

9

nghị được cung cấp là nhằm mục đích hỗ trợ người sử dụng trong quá trình ra quyết định lựa chọn sản phẩm, dịch vụ, chẳng hạn như những sách nào có thể người dùng muốn mua, những bài hát nào có thể người dùng thích nghe, hoặc tin tức nào người dùng muốn đọc Một vài ứng dụng nổi tiếng về hệ thống Khuyến nghị như: Khuyến nghị sản phầm của Amazon.com [paper của amazon], hệ tư vấn phim của NetFlix…[paper của về Netflix] Hệ thống khuyến nghị đã chứng minh được ý nghĩa to lớn: giúp cho người sử dụng trực tuyến đối phó với tình trạng quá tải thông tin Hệ khuyến nghị trở thành một trong những công cụ mạnh

mẽ và phổ biến trong thương mại điện tử

Theo Adomavicius và Tuzhilin, trong hầu hết các trường hợp, bài toán tư vấn được coi là bài toán ước lượng trước hạng (rating) của các sản phẩm chưa được người dùng xem xét Việc ước lượng này thường dựa trên những đánh giá

đã có của chính người dùng đó hoặc những người dùng khác Những sản phẩm

có hạng cao nhất sẽ được dùng để tư vấn

Một cách hình thức, bài toán tư vấn được mô tả như sau:

Gọi U là tập tất cả các người dùng; I là tập tất cả các sản phẩm có thể tư vấn Tập I có thể rất lớn, từ hàng trăm ngàn (sách, phim, đĩa CD…) đến hàng triệu (website…) Tập U cũng có thể lên tới hàng triệu

Trong hệ thống khuyến nghị, độ phù hợp của một sản phẩm thường được

đo bằng điểm, ví dụ người dùng A đánh giá bộ phim “Star war 3” được 7/10 điểm Tuy nhiên, độ phù hợp có thể là một hàm bất kỳ phụ thuộc vào ứng dụng

cụ thể Giá trị của hàm u có thể được xác định bởi người dùng hoặc tính toàn bằng một công thức nào đó

Mỗi người dùng trong không gian U được xác định bởi một hồ sơ (profile)

Hồ sơ này bao gồm nhiều loại thông tin: tuổi, giới tính, thu nhập… hoặc chỉ gồm

trường mã số người dùng (user id) Tương tự mỗi sản phẩm s trong không gian I

cũng được xác định bởi một tập đặc trưng Ví dụ trong hệ thống khuyến nghị phim, đặc trưng có thể là: tên phim, thể loại, đạo diễn, năm sản xuất, diễn viên chính…

Trang 11

10

Vấn đề chính của hệ thống khuyến nghị là hàm r không được xác định trên toàn không gian U×I mà chỉ xác định trên một miền nhỏ của không gian này Điều này dẫn tới hàm r phải được ngoại suy trong không gian U×I Thông

thường, độ phù hợp được thể hiện bằng điểm và chỉ xác định trên tập các sản phẩm đã từng được người dùng đánh giá từ trước (thường khá nhỏ) Như ví dụ trong bảng dưới là đánh giá của một số người dụng với các phim mà họ đã từng xem (thang điểm từ 0-10, Ø nghĩa là bộ phim chưa được người dùng cho điểm)

Từ những thông tin đó, hệ thống khuyến nghị phải dự đoán (ngoại suy) điểm cho các bộ phim chưa được người dùng đánh giá, từ đó đưa ra các khuyến nghị phù hợp nhất

Harry potter

Harry potter

Star trek Star trek

Xmen Xmen

Transformer Transform

Bảng 2.1.1: Đánh giá của người dùng về một số bộ phim đã xem

2.1.2 Cách thức hoạt động của hệ thống khuyến nghị

Nếu chúng ta thấy quá trình khuyến nghị như một hộp đen, như thể hiện trong hình 2.1.2, và xác định hai nguồn thông tin cần thiết: user profile – thông tin người dùng, item data – thông tin các sản phẩm như đầu vào cho quá trình khuyến nghị Các thông tin này có thể được lưu trữ theo các dữ liệu có cấu trúc, hoặc cũng có thể được rút ra từ các nguồn dữ liệu phi cấu trúc: website liên quan, hành vi mua sắm… Thông tin về các sản phẩm, dịch vụ dưới nhiều dạng khác nhau: siêu dữ liệu (metadata), hoặc thông tin về các đặc tính của sản phẩm, hoặc chính sản phẩm đó với trường hợp dữ liệu điện tử Trong trường hợp sản phẩm

âm thanh (audio), video, các thông tin mà hệ khuyến nghị cần lưu trữ và thực hiện có kích thước lớn, với nhiều chiều Kết quả đầu ra của hệ khuyến nghị được thể hiện trong hình dưới đây, là một tập các khuyến nghị cho người sử dụng Các

đề xuất này phụ thuộc vào phương pháp hệ khuyến nghị, nhưng cụ thể là một tập danh sách sản phẩm, các thông tin vắn tắt, hình chụp…

Trang 12

11

Quá trình hoạt động được thể hiện chi tiết hơn trong hình 2.1.2b, bao gồm các bước sau: tập hợp thông tin, lựa chọn, chuyển đổi, cấu trúc hóa thông tin, và biểu diễn thông tin Tất cả các bước được trình bày trong hình 2.1.2b dưới đây là

mô tả cụ thể các bước:

- Tập hợp thông tin (Information Recollection): các thông tin lưu trữ không

được thực hiện bởi hệ khuyến nghị, nhưng nó đóng một vai trò quang trọng Nó bao gồm các thông tin cá nhân người sử dụng, lịch sử các giao dịch, thông tin về

sự ưu tiên của người dùng (user preference), và thông tin về sản phẩm như metadata, đặc tính sản phẩm Bước này đóng một vai trò quan trọng, vì nó là cơ

sở cho toàn bộ quá trình hệ khuyến nghị thực hiện dự đoán và đưa ra khuyến nghị cho người dùng Nếu thông tin thu thập không đầy đủ, hay mâu thuẩn; hệ thống khuyến nghị sẽ không thể thực hiện chức năng dự đoán, đưa ra đề xuất Vì

lí do này, cần đặc biệt lưu ý quá trình thu thập thông tin vì nó phản ánh sở thích người dung, thông tin sản phẩm, dịch vụ

- Lựa chọn thông tin (Selection): Bước lựa chọn bao gồm việc xác định

những thông tin liên quan trực tiếp đến quá trình xử lí, dự đoán Cách lựa chọn tập thông tin phu thuộc chặt chẽ và phương pháp tiếp cận của hệ thống Từ tập thông tin lựa chọn, giúp chúng ta xác định được độ tương quan giữa hai sản phẩm bất kì, hoặc hai người dùng

- Chuyển đổi thông tin (Transformation): mục tiêu chính của bước chuyển

dổi là thực hiện các biến đổi thong tin, xây dựng các mô hình, các hàm từ dữ liệu

Trang 13

12

đã được xử lí trong hai bước đầu, biểu diễn thông tin dưới dạng quy định của hệ khuyến nghị, thực hiện các dự đoán

- Cấu trúc thông tin (Structuring): Cấu trúc thông tin có liên quan đến việc

cấu trúc, tổ chức thông tin mà người dùng duyệt qua các thông tin đề xuất đưa ra Bước này bao gồm các hoạt động như nhóm nhóm các sản phẩm, xếp hạng các sản phẩm, phân loại, liên kết các sản phẩm có quan hệ với nhau…

- Trình bày thông tin (Presentation): Bước cuối cùng trong quá trình gời ý là

đưa ra các thông tin khuyến nghị cho người dùng theo các tiêu chuẩn: bố trí, định dạng tài liệu, màu sắc, phông chữ…Đây là bước cuối cùng trong quá trình khuyến nghị, đưa thông tin đầu ra cho người dùng cụ thể

- Thông tin phản hồi: Thu nhận các thông tin phản hồi là một bước thêm

vào, tùy theo mỗi hệ thống khuyến nghị Mặc dù bước này là tùy chọn, nhưng nó giúp ích rất nhiều trong việc cải thiện hoạt động, nâng cao kết quả của hệ gợi Phản hồi của người dùng được hệ thống ghi nhận với hai dạng tiềm ẩn(implicit), hoặc rõ ràng (explicit) Với phản hồi rõ ràng (explicit feedback), người sử dụng cung cấp các thông tin thể hiện mức độ ưu tiên với các sản phẩm liên quan Các phản hồi tiềm ẩn (implicit feedback) có được bằng cách thu thập, phân tích các hành vi người dùng: lịch sử duyệt các sản phẩm, số lần viếng thăm, thời gian lưu lại…

Hình 2.1.2b: Đánh giá của người dùng về một số bộ phim đã xem

Trang 14

13

2.1.3 Các chức năng của hệ thống khuyến nghị

Hệ thống Khuyến nghị là công cụ phần mềm với các đề xuất cho người dùng những sản phầm, dịch vụ mà họ có thể muốn sử dụng Dưới đây là một số chức năng của hệ thống:

Tăng số lượng các mặt hàng bán ra cho các hệ thống thương mại điện tử: Đây có lẽ là chức năng quan trọng nhất của hệ thống Khuyến nghị Thay vì người dùng chỉ mua một sản phẩm mà họ cần, họ được Khuyến nghị mua những sản phẩm „có thể họ cũng quan tâm‟ mà bản thân họ không nhận ra Hệ thống Khuyến nghị tìm ra những „mối quan tâm ẩn‟ Bằng cách đó, hệ thống Khuyến nghị làm gia tăng nhu cầu của người dùng và gia tăng số lượng mặt hàng bán ra.Tương tự đối với các hệ thống phi thương mại (như các trang báo), hệ thống Khuyến nghị sẽ giúp người dùng tiếp cận với nhiều đối tượng hơn

Bán các mặt hàng đa dạng hơn trên các hệ thống thương mại điện tử: Đây là chức năng quan trọng thứ hai của hệ thống Khuyến nghị Hầu hết các hệ thống thương mại đều có các mặt hàng hết sức là đa dạng Khi nắm bắt được nhu cầu của người dùng, hệ thống Khuyến nghị dễ dàng mang đến sự đa dạng trong sự lụa chọn hàng hóa

Tăng sự hài lòng người dùng: Vai trò chủ đạo của hệ thống Khuyến nghị là hiểu nhu cầu của người dùng, khuyến nghị cho họ những thứ họ cần Chính vì vậy hệ thống Khuyến nghị tăng sự hài lòng của người dùng trên hệ thống

Tăng độ tin cậy, độ trung thực của người dùng: Một khi hệ thống khuyến nghị cho người dùng những lựa chọn và họ hài lòng vể những khuyến nghị đó thì lòng tin của họ đối với hệ thống (nơi mà giúp họ tìm ra những thứ họ thực sự quan tâm) được nâng lên một cách đáng kể Đây thật sự là một điều thích thú và thu hút người dùng Có một điểm quan trọng là hệ thống Khuyến nghị hoạt động dựa trên những xếp hạng thật từ chính bản thân người dùng trong quá khứ Do

đó, khi người dùng càng tin cậy vào hệ thống, đưa ra những đánh giá trung thực cho các sản phẩm, hệ thống sẽ mang lại cho người dùng nhiều khuyến nghị chính xác hơn, phù hợp với nhu cầu, sở thích của họ

Trang 15

14

2.1.4 Các phương pháp khai thác dữ liệu được sử dụng

Có rất nhiều cách để dự đoán, ước lượng hạng/ điểm cho các sản phẩm như

sử dụng học máy, lí thuyết xấp xỉ, các thuật toán dựa trên kinh nghiệm…Các hệ thống tư vấn thường được phân thành ba loại dựa trên cách nó dùng để ước lượng hạng của sản phẩm:

2.1.4.1 huyến nghị dựa trên nội dung

Khuyến nghị dựa trên nội dung được dựa trên sự sẵn có của mô tả về đối tượng Phương pháp tư vấn dựa trên nội dung, dựa trên độ phù hợp r (u, i) của sản phẩm i với người dùng u được đánh giá dựa trên độ phù hợp r (u, i‟), trong

đó i‟ ϵ I và tương tự như i Ví dụ, để khuyến nghị một bộ phim cho người dùng u,

hệ thống tư vấn sẽ tìm các đặc điểm của những bộ phim từng được u đánh giá cao (như diễn viên, đạo diễn…); sau đó chỉ những bộ phim tương đồng với sở thích của u mới được giới thiệu

Hướng tiếp cận dựa trên nội dung bắt nguồn từ những nghiên cứu về thu thập thông tin (IR-information retrieval) và lọc thông tin (IF - information filtering) Do đó, rất nhiều hệ thống dựa trên nội dung hiện nay tập trung vào tư vấn các đối tượng chứa dữ liệu text như văn bản, tin tức, website… Những tiến

bộ so với hướng tiếp cận cũ của IR là do việc sử dụng hồ sơ về người dùng (chứa thông tin về sở thích, nhu cầu…) Hồ sơ này được xây dựng dựa trên những thông tin được người dùng cung cấp trực tiếp (khi trả lời khảo sát) hoặc gián tiếp (do khai phá thông tin từ các giao dịch của người dùng)

Khuyến nghị dựa trên nội dung có những ưu điểm:

Đầu tiên, nó không yêu cầu số lượng người sử dụng lớn để đạt được độ chính xác đề nghị hợp lý

Ngoài ra, các mặt hàng mới có thể được Khuyến nghị ngay dựa trên thuộc tính có sẵn

Tuy nhiên, nhược điểm của Khuyến nghị dựa trên nội dung là khi thông tin

mô tả đối tượng có chất lượng kém và bị lỗi Trong một số trường hợp, những

Trang 16

15

mô tả về nội dung rất khó để so sánh và rút ra khuyến nghị, chẳng hạn so sánh nội dung của các file video, audio Việc phân tích nội dung của các đối tượng sản phẩm để đưa ra các sản phẩm tương tự nhau, từ đó đưa ra các Khuyến nghị cho người dùng vẫn chưa phản ánh đúng sở thích của người dùng đó với các sản phẩm

2.1.4.2 huyến nghị lọc cộng tác để đánh giá tương quan

Ý tưởng cơ bản của các hệ thống này là dựa vào các đánh giá của những người dùng quá khứ lên các sản phẩm, dịch vụ để dự đoán sự đánh giá của họ lên các sản phẩm, dịch vụ mà họ chưa đánh

Bài toán lọc cộng tác (hay đánh giá độ tương quan) dựa trên hành vi quá khứ của người dùng (trong việc đánh giá sản phẩm) để đưa ra dự đoán

Đầu vào của bài toán là ma trận thể hiện những hành vi quá khứ, gọi là ma trận Người dùng- Sản phẩm (m trận User x Item) Hàng là người dùng, cột là sản phẩm, giá trị mỗi ô là đánh giá của người dùng lên sản phẩm đó

Tùy theo hệ thống mà đánh giá của người dùng được quy ước những giá trị nào Trong ví dụ này, các đánh giá có giá trị từ 1 đến 5

Trang 17

16

Trong ví dụ này, hệ thống Khuyến nghị phải đưa ra dự toán, người dùng 1 đánh giá sản phẩm 2 là bao nhiêu Người dùng 3 đánh giá sản phẩm 1, 2, 3 là bao nhiêu

Hệ thống Khuyến nghị lọc cộng tác dự đoán độ phù hợp u (c,s) của một sản phẩm s với người dùng c dựa trên độ phù hợp u (c,s) giữa người dùng ci và c, trong đó ci là người có cùng sở thích với c Ví dụ, để khuyến nghị một bộ phim cho người dùng c, đầu tiên hệ thống cộng tác tìm những người dùng khác có cùng sở thích phim ảnh với c Sau đó, những bộ phim được họ đánh giá cao sẽ được dùng để tư vấn cho c Có nhiều hệ thống cộng tác đã được phát triển như: Youtube (video), Amazon.com (sách)… Các hệ thống này có thể chia thành hai loại: dựa trên kinh nghiệm (heuristic-based hay memory-based) và dựa trên mô hình (model-based)

2.1.4.3 ết hợp các phương pháp

Các cách tiếp cận khác nhau có những ưu điểm và nhược điểm riêng Do đó cần thiết kết hợp các kỹ thuật khác nhau để tận dụng ưu điểm và nhược điểm của các cách tiếp cận để có được hệ thống Khuyến nghị chính xác hơn

Có thể phân thành bốn cách kết hợp như sau:

Cài đặt hai phương pháp riêng rẽ rồi kết hợp dự đoán của chúng: Có hai

kịch bản cho trường hợp này Cách 1: Kết hợp kết quả của cả hai phương pháp thành một kết quả chung duy nhất, sử dụng cách kết hợp tuyến tính (linear combination) hoặc voting scheme Cách 2: Tại mỗi thời điểm, chỉ chọn phương pháp cho kết quả tốt hơn (dựa trên một số độ đo chất lượng tư vấn nào đó) Ví

dụ, hệ thống DailyLearner system chọn phương pháp nào đưa ra khuyến nghị với

độ chính xác (confidence) cao hơn

Tích hợp các đặc trưng của phương pháp dựa trên nội dung vào hệ thống cộng tác: Một số hệ thống lai dựa chủ yếu trên các kĩ thuật cộng tác nhưng vẫn

duy trì hồ sơ về người dùng (theo dạng của mô hình dựa trên nội dung) Hồ sơ này được dùng để tính độ tương đồng giữa hai người dùng, nhờ đó giải quyết được trường hợp có quá ít sản phẩm chung được đánh giá bởi cả hai người Một

Trang 18

17

lợi ích khác là các khuyến nghị sẽ không chỉ giới hạn trong các sản phẩm được đánh giá cao bởi những người cùng sở thích (gián tiếp), mà còn cả với những sản phẩm có độ tương đồng cao với sở thích của chính người dùng đó (trực tiếp)

Tích hợp các đặc trưng của phương pháp cộng tác vào hệ thống dựa trên đặc trưng: Hướng tiếp cận phổ biến nhất là dùng các kĩ thuật giảm số chiều trên

tập hồ sơ của phương pháp dựa trên nội dung Ví dụ, sử dụng phân tích ngữ nghĩa ẩn (latent semantic analysis) để tạo ra cách nhìn cộng tác (collaborative view) với tập hồ sơ người dùng (mỗi hồ sơ được biểu diễn bởi một vector từ khóa)

Xây dựng mô hình hợp nhất, bao gồm các đặc trưng của cả hai phương pháp: đề xuất kết hợp đặc trưng của cả hai phương pháp vào một bộ phân lớp

dựa trên luật (rule-based classifier) Popescul và cộng sự trong đưa ra phương pháp xác suất hợp nhất dựa trên phân tích xác suất ngữ nghĩa ẩn

2.1.5 Đánh giá các phương pháp

Các phương pháp học trong hệ khuyến nghị đều có điểm mạnh và điểm yếu Một số vấn đề cần giải quyết trong hệ khuyến nghị:

Người dùng mới: Vì hệ thống đưa ra khuyến nghị dựa trên kết quả so sánh

giữa người dùng yêu cầu và những người dùng khác trong hệ thống thông qua đánh giá của người dùng với sản phẩm, người dùng có ít đánh giá sẽ khó khăn hơn trong việc phân loại người dùng

Sản phẩm mới: sản phẩm có ít đánh giá sẽ khó khăn cho việc đưa ra

khuyến nghị Vấn để xét tới ở đây “early rater”, những người đầu tiên đánh giá một sản phẩm sẽ nhận được ít lợi ích từ việc đánh giá này

Để giải quyết các vấn đề này, cần có cơ chế để người dùng cung cấp các thông tin khởi tạo cần thiết (user profile) trước khi hệ thống có thể đưa các khuyến nghị

Mức độ thưa của dữ liệu (sparsity): trong các hệ khuyến nghị, số lượng đánh giá của người dùng được thu thập thường rất nhỏ so với số lượng người

Trang 20

19

CHƯƠNG III

HỆ TH NG TỰ ĐỘNG GỢI Ý BỘ PHIM LIÊN QUAN

3.1 Mô tả bài toán

Xây dựng hệ thống khuyến nghị phim Hệ thống có m người dùng, và n bộ phim Xác định danh sách các bộ phim mà người dùng u chưa xem và theo dự đoán người dùng u mức độ ưu tiên cao cho các bộ phim này

Phát biểu bài toán dạng công thức toán học:

Hệ khuyến nghị sẽ dự đoán đánh giá của người dùng u cho tập các bộ phim:

Dựa trên kết quả tính toán, đưa ra bộ phim với mà người dùng chưa xem, mà theo dự đoán mức độ ưu tiên của người dùng cho các bộ phim thuộc tập khuyến nghị là cao nhất

Dựa trên các dữ liệu thu thập là đánh giá của người dùng với các bộ phim trong hệ thống (explicit data), áp dụng các mô hình tính toán, dự đoán đánh giá của một người dùng xác định với các bộ phim mà họ chưa xem Dựa trên dữ liệu thu thập về đánh giá của cộng đồng về các bộ phim trong hệ thống, thông tin cá nhân, và các thuộc tính mỗi bộ phim, từ đó xếp hạng các bộ phim ứng theo mỗi người dùng cụ thể, và đưa ra khuyến nghị cho họ

Ngày đăng: 01/08/2021, 11:40

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w