1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Cải Tiến Giải Thuật Gợi Ý Trong Quá Trình Tìm Kiếm Tài Liệu Ở Trung Tâm Học Liệu Trường Đại Học Cần Thơ

43 195 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 43
Dung lượng 2,45 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trung tâm học liệu hiện có trên 150.000 nhan đề sách titles, cơ sở dữ liệu CSDL trực tuyến như ProQuest Central, Sage, Hinari… Độc giả có thể dùng hệ thống trực tuyến OPAC hiện có khoảng

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

❧​ ​•​ ​❧

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

NGÀNH KHOA HỌC MÁY TÍNH

Đề tài CẢI TIẾN GIẢI THUẬT GỢI Ý TRONG QUÁ TRÌNH TÌM KIẾM TÀI LIỆU Ở TRUNG TÂM HỌC LIỆU TRƯỜNG ĐẠI HỌC CẦN THƠ

Sinh viên thực hiện: Nguyễn Minh Toàn

Mã số: B1310466 Khóa: ​ ​K39

Trang 2

Cần Thơ, 19/05/2017

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

❧​ ​•​ ​❧

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

NGÀNH KHOA HỌC MÁY TÍNH

Đề tài CẢI TIẾN GIẢI THUẬT GỢI Ý TRONG QUÁ TRÌNH TÌM KIẾM TÀI LIỆU Ở TRUNG TÂM HỌC LIỆU TRƯỜNG ĐẠI HỌC CẦN THƠ

Trang 3

Giáo viên hướng dẫn Sinh viên thực hiện

Ts Trần Nguyễn Minh Thư Nguyễn Minh Toàn

MSSV: ​ ​B1310466

Khóa: ​ ​K39

Cần Thơ, 19/5/2017

Trang 4

​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​ ​​NHẬN XÉT CỦA GIẢNG VIÊN

Trang 5

LỜI CẢM ƠN

Luận văn là một công trình nghiên cứu, tìm tòi, học hỏi, thể hiện sự lao động nghiêm túc, độc lập, tự tìm tòi, suy nghĩ, sang tạo của người viết Kết quả của luận văn còn là công sức giúp đỡ và dìu dắt của các thầy, cô trong bộ môn Khoa Học Máy Tính nói riêng và Khoa Công nghệ Thông tin và Truyền thông Trường Đại Học Cần Thơ nói chung

Trước hết em xin bày tỏ long kính trọng và biết ơn sâu sắc đến cô Trần Nguyễn Minh Thư, người cô đã tận tình chỉ bảo và truyền đạt những kinh nghiệm quý báo để em hoàn thành luận văn tốt nghiệp này

Em xin chân thành cảm ơn cô cố vấn học tập là cô Phạm Xuân Hiền Cô đã giúp đỡ và định hướng cho em rất nhiều từ năm đầu nhập học Cám ơn cô đã quan tâm giúp đỡ em trong thời gian vừa qua, nhờ vậy em mới đủ khả năng để nhận đề tài luận văn này

Cuối cùng em xin gửi lời cảm ơn đến các anh chị đi trước người thân, bạn bè những người luôn bên cạnh động viên em trong suốt quá trinh học tập và đặc biệt là trong thời gian thực hiện đề tài luận văn này

Dù đã cố gắng rất nhiều bằng cả sự nổ lực của mình để hoàn thành luận văn này nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Rất mong được quý thầy

cô cùng các bạn cảm thông và đóng góp ý kiến để em rút kinh nghiệm làm tốt hơn những đề tài nghiên cứu khác trong tương lai

Em xin chân thành cảm ơn!

Cần Thơ, ngày 19 tháng 5 năm 2017

Người viết Nguyễn Minh Toàn

Trang 8

2 Đánh giá hiệu quả

Trang 9

DANH MỤC HÌNH

Hình 1: Ứng dụng gợi ý sách của lazada.vn 8 Hình 2: Gợi ý môn học tại website edx.org 8

Hình 4 Mô hình hệ thống hỗ trợ tìm kiếm tài liệu RecoLRC 23 Hình 5: Sơ đồ phương pháp hệ thống gợi ý 24 Hình 6: Sơ đồ giải thuật hệ thống gợi ý 25

Hình 8 Giao diện hiển thị dữ liệu tìm kiếm sách của hệ thống 27

Hình 14: Biểu đồ thể hiện độ chính xác của hệ thống gợi ý 31 Hình 15: Biểu đồ so sánh độ chính xác dựa trên phương pháp lọc cộng tác và độ chính xác dựa trên phương pháp tìm kiếm theo từ khóa 32

Trang 10

DANH MỤC BẢNG

Bảng 1 Ma trận mối quan hệ người dùng – mục dữ liệu cho phương pháp lọc cộng

Bảng 2 Độ tương quan cosine với người dùng độc giả 10 15

Trang 11

ABSTRACT

Can Tho University Learning Resource Center is the place to store rich materials (books, scientific journals, documents, audiovisual materials, databases, ) The Academic Center currently has over 150,000 titles, database online titlessuch as ProQuest Central, Sage, Hinari, etc There are currently about 150,000 bibliographic records (bibliographic records) for accessing information aboutprinted books and dissertation database of Can Tho University Along with the development of information technology, year by year, more and more document and stored, this will make it difficult for readers to find the document that suits their requirements

To assist readers, in this topic, collaborative filtering methods are applied to the search process of the reader Based on the reader's history, the system will take the first five books that match the searching needs of the user, and then we rely on one of the five books to find readers who have a similar reading interest, close to readers looking for books on the system From the readers with similar interests, the system proceeded to filter out 10 suggested titles and 3 titles of the same genre The Given – N algorithm is used to evaluate the accuracy of the system The information

of borrowing from 19490 readers is used to build collaborative filtering, and the infomation of borrowing from 6945 readers is used to evaluate the effect, the accuracy​ ​of​ ​the​ ​Given-1​ ​approach​ ​averaged​ ​24.2%

Trang 12

TÓM TẮT

Trung tâm học liệu Trường Đại học Cần Thơ là nơi lưu trữ kho tài liệu phong

phú (sách, tạp chí khoa học, tài liệu số, tài liệu nghe nhìn, cơ sở dữ liệu…) Trung

tâm học liệu hiện có trên 150.000 nhan đề sách (titles), cơ sở dữ liệu (CSDL) trực

tuyến như ProQuest Central, Sage, Hinari… Độc giả có thể dùng hệ thống trực tuyến (OPAC) hiện có khoảng 150.000 biểu ghi thư mục (bibliographic records) để

truy cập thông tin về sách in và CSDL luận văn của Trường Đại học Cần Thơ Cùng

với sự phát triển của công nghệ thông tin, qua các năm thì tài liệu được lưu trữ ngày

càng nhiều gây khó khăn cho độc giả trong quá trình tìm kiếm được tài liệu phù hợp

với yêu cầu của mình Để hỗ trợ độc giả, đề tài này ứng dụng phương pháp lọc cộng tác vào quá trình

tìm kiếm của độc giả Dựa vào lịch sử xem sách của độc giả, hệ thống sẽ lấy 5 đầu

sách đầu tiên phù hợp với nhu cầu tìm kiếm của người dùng, sau đó dựa vào 1 trong

5 đầu sách đó để tìm kiếm những độc giả có sở thích đọc gần giống với độc giả

đang tìm kiếm sách trên hệ thống Từ những độc giả có cùng sở thích thì hệ thống

tiến hành lọc ra 10 đầu sách gợi ý và thêm 3 đầu sách có cùng thể loại Giải thuật

Given – N được sử dụng để đánh giá độ chính xác của độc giả Với thông tin mượn

sách từ 19490 độc giả được sử dụng để xây dựng phương pháp lọc cộng tác, và

6945 độc giả được sử dụng để đánh giá hiệu quả thì độ chính xác của phương pháp Given – 1 đạt được trung bình 24.2%

Trang 13

PHẦN GIỚI THIỆU

1 Đặt vấn đề

Hệ thống gợi ý học từ khách hàng, người dùng và gợi ý các sản phẩm tốt nhất

trong số tất cả các sản phẩm phù hợp Hệ thống gợi ý (Recommender Systems RSs)

là một dạng hỗ trợ ra quyết định, cung cấp giải pháp cá nhân hóa mà không phải trải

qua quá trình tìm kiếm phức tạp Sự phát triển nhanh chóng của thương mại điện tử,

sự bùng nổ về lượng thông tin, khiến cho việc tìm kiếm sản phẩm thích hợp để mua

của khách hàng trở nên ngày một khó khăn hơn Hiện nay, việc áp dụng hệ thống

gợi ý vào website thương mại điện tử là điều tất yếu nhằm tiết kiệm thời gian, chi

phí và công sức cho khách hàng, giúp họ tìm ra sản phẩm ưng ý nhất với họ để mua

Hệ thống gợi ý sử dụng tri thức sản phẩm, các tri thức của chuyên gia có được bằng

cách học được từ những hành vi của khách hàng, người dùng để đưa ra sản phẩm

mà họ thích trong muôn ngàn sản phẩm có trong hệ thống 2 Lịch sử giải quyết vấn đề Các trang web thương mại điện tử: Amazon, Netflix, Vinabook và nhiều website phim, nhạc, báo…sử dụng hệ thống gợi ý để cung cấp các thông tin giúp

cho người dùng lựa chọn nên chọn sản phẩm nào Các sản phẩm được gợi ý có thể

dựa trên số lượng sản phẩm được bán, dựa trên thông tin cá nhân của người sử

dụng, dựa trên hành vi mua hàng trước đó của người dùng để đưa ra những phán

đoán về hành vi mua hàng trong tương lai của chính người dùng đó [1] Lazada.vn là trang web bán lẻ cung cấp các mặt hàng chất lượng quốc tế với

hơn 7.000 sản phẩm khác nhau từ các thiết bị điện tử điện thoại, máy ảnh, máy tính,

thiết bị âm thanh,…đến các sản phẩm gia dụng, sản phẩm cho trẻ em, sản phẩm

chăm sóc sắc đẹp và cơ thể,…lazada.vn sở hữu bộ sưu tập lớn nhất các thương hiệu

nổi tiếng trên thế giới từ Asus, Acer, Dell, Lenovo, Sangsung, Apple, HTC Nokia

cho đến Sony, Canon, Toshiba và hàng trăm triệu thương hiệu nổi tiếng khác Chúng ta lấy ví dụ người dùng mua quyển sách “Tấn Công Và Phòng Vệ” tại website:​ ​​http://www.lazada.vn​

Trang 14

Hình 1: Ứng dụng gợi ý sách của lazada.vn

Các sách tại mục “Sản phẩm được xem cùng” là sản phẩm của hệ thống gợi ý thông qua việc thu thập dữ liệu về người dùng bao gồm: thông tin cá nhân, lịch sử giao dịch, các thao tác trên sản phẩm…Tuy nhiên các sản phẩm gợi ý ở đây vẫn chưa thật sự tốt, vì các sản phẩm gợi ý chưa thật sự liên quan nhiều đến sản phẩm

mà người dùng đang chọn mua Xét ví dụ trong hình 1 trên thì người dùng đang xem quyển sách “Tấn Công Và Phòng Vệ” thuộc thể loại sác thế giới động vậtnhưng hệ thống gợi ý cho người dùng những quyển sách thuộc thể loại âm nhạc, mỹ thuật, tâm lý học, chỉ được 1 quyển sách liên quan đến động vật

Trong giáo dục, sau thành công của ứng dụng tin học vào giảng dạy, thì hệ thống gợi ý là một bước tiến có tầm ảnh hưởng rất lớn, được đầu tư nghiên cứu mạnh trong những năm gần đây Có thể tìm kiếm được một số các website dạy học trực tuyến kèm theo hệ thống gợi ý một cách dễ dàng Mà ở đó, học viên dễ dàng tìm được học phần phù hợp với nhu cầu bản thân Website www.edx.org là một điển hình, khi học viên đăng ký một số thông tin cần thiết (chuyên môn, trình độ hiện tại,…), thì hệ thống sẽ lọc các khóa học phù hợp và gợi ý cho học viên tham khảo [1] Cụ thể như người dùng đăng ký tài khoản tại hệ thống với tên là

“GaCold”, trình độ hiện tại bậc Đại học, chuyên môn là Công nghệ Thông tin thì hệ thống sẽ gợi ý ra một số khóa học cho người dùng tham khảo: “Software Development Fundamentals”, “​IELTS Academic Test Preparation​” và “DataScience​ ​Orientation”​ ​như​ ​hình​ ​2

Trang 15

Hình 2: Gợi ý môn học tại website edx.org

Ở nước ta hiện nay, phần lớn các thư viện trường Đại học, thư viện tỉnh, thành phố đều được tin học hóa việc quản lý, tổ chức, lưu trữ thông tin sách, tạp chí và các

ấn phẩm Điều này tạo điều kiện thuận lợi cho việc quản lý và sử dụng, giảm bớt những thủ tục phức tạp gây không ít bất tiện khi độc giả cần mược sách trong thư viện

Hiện tại dữ liệu trong trung tâm học liệu Đại học Cần Thơ được lưu trữ bởi 2 CSDL tách biệt là MySQL và Oracle, nhưng đã được thực hiện trong đề tài thạc sĩ:

“Hệ thống gợi ý tra cứu tài liệu” [2] dùng Mongodb để tích hợp thành một CSDL thống nhất để dễ dàng trong việc quản lý dữ liệu và xây dựng hệ thống gợi ý Đề tài thạc sĩ đã thực hiện tốt việc tích hợp hai cơ sở dữ liệu tách biệt thành một cơ sở dữ liệu thống nhất, nhưng chưa thực hiện tốt chức năng gợi ý cho người dùng

Trung tâm học liệu, Trường Đại học Cần Thơ là thư viện điện tử đầu tiên tại đồng bằng sông Cửu Long, cung cấp các bộ sưu tập phong phú về tài liệu (sách, tạp chí khoa học, tài liệu số, tài liệu nghe nhìn, cơ sở dữ liệu…) Trung tâm học liệu hiện có trên 150.000 nhan đề sách (titles), cơ sở dữ liệu (CSDL) trực tuyến như ProQuest Central, Sage, Hinari… Độc giả có thể dùng hệ thống trực tuyến (OPAC) hiện có khoảng 150.000 biểu ghi thư mục (bibliographic records) để truy cập thông tin về sách in và CSDL luận văn của Trường Đại học Cần Thơ [2] Trung tâm học liệu Trường Đại học Cần Thơ hiện tại chứa kho tài liệu rất lớn Vì vậy, việc tích hợp

hệ thống gợi ý sách để hỗ trợ tra cứu cho độc giả là một vấn đề đang được quan tâm

Qua một số ví dụ đã nêu, ta có thể thấy lợi ích mà hệ thống gợi ý mang lại phần lớn tập trung vào các yếu tố [1]:

Trang 16

- Khả năng đưa ra các dịch vụ cá nhân, hướng đến các đối tượng người dùng

cụ thể Giải quyết vấn đề quá tải thông tin

- Tăng mức tính nhiệm và thân thiện với người dùng, tạo ấn tượng tốt với người dùng

- Nắm được đặc trưng của người dùng, từ đó phân loại xây dựng giải pháp hữu ích cho hệ thống thông tin

3 Mục tiêu đề tài

Nghiên cứu, xây dựng và tích hợp phương pháp lọc cộng tác vào chức năng tìm kiếm tài liệu từ tập dữ liệu được tích hợp từ cơ sở dữ liệu luận văn và cở sở dữ liệu sách tại trung tâm học liệu trường Đại học Cần Thơ

Hệ thống gợi ý phải gợi ý các danh mục sách liên quan với sách độc giả tìm kiếm, và những sách gợi ý thật sự phù hợp với nhu cầu của độc giả, làm cho độc giả cảm thấy thích thú, hài lòng khi sử dụng hệ thống

4 Đối tượng và phạm vi nghiên cứu

- Nghiên cứu các phương pháp để xây dựng hệ thống gợi ý, chủ yếu tập trung vào kỹ thuật lọc cộng tác (lọc cộng tác dựa trên người dùng)

- Nghiên cứu công nghệ xây dựng website có khả năng tích hợp hệ thống gợi

ý

- Đối tượng gợi ý: các danh mục tài liệu có trong cơ sơ dữ liệu của trung tâm học liệu Trường Đại học Cần Thơ

Đối tượng được gợi ý :

- Người dùng trên hệ thống là những người dùng có tài khoản trên hệ thống

Là người dùng xác định và đã tương tác trên hệ thống

- Người dùng khách là người dùng không có tài khoản trên hệ thống, chỉ truy cập hệ thống trong thời gian nhất thời, có ít tương tác trên hệ thống

Nội dung gợi ý: danh sách tài liệu có khả năng người dùng hiện tại sẽ quan tâm

5 Phương pháp nghiên cứu

Về lý thuyết:

Trang 17

- Tìm hiểu lý thuyết liên quan đến hệ thống gợi ý (Recommender System - RS), chủ yếu dựa vào phương pháp lọc cộng tác (Colaborative Filtering – CF)

7 Bố cục luận văn

Phần giới thiệu

Giới thiệu tổng quát về đề tài

Phần nội dung

Chương ​ ​1​: Mô tả bài toán

Chương 2 ​: Thiết kế, cài đặt giải thuật, biễu diễn cơ sở dữ liệu, trình bày các bước xây dựng hệ thống bằng phương pháp lọc cộng tác

Chương ​ ​3​: Kiểm thử hệ thống và đánh giá độ chính xác, tốc độ của hệ thống Phần kết luận

Trình bày kết quả đạt được và hướng phát triển hệ thống

Trang 18

PHẦN NỘI DUNG

CHƯƠNG ​ ​1

MÔ TẢ BÀI TOÁN

1 Mô tả chi tiết bài toán

Hiện nay, hệ thống thư viện trong trung tâm học liệu vẫn là hai trang web

tách biệt: một là ​http://opac.lrc.ctu.edu.vn/opac/ ​chứa các tài liệu luận văn, luận án

tốt nghiệp, một trang là ​http://digital.lrc.ctu.edu.vn/digital/ chứa các mục tài liệu giáo trình, các nghiên cứu khoa học của sinh viên Vì vậy hệ thống vẫn còn một số

bất tiện khi người dùng tìm kiếm tài liệu tham khảo ​ Một số vấn đề đặt ra khi sử dụng hệ thống thư viện trung tâm học liệu

Trường Đại học Cần Thơ là hiệu quả của việc tương tác người dùng và hệ thống Cụ

thể là số đầu sách trong thư viện ngày càng phong phú, đa dạng và có nội dung

tương đối giống nhau, thời gian tra cứu tài liệu lâu, mất nhiều thời gian Nếu người

dùng có thể tìm kiếm được, thì với hàng chục đầu sách có nội dung tương tự nhau

người dùng khó có thể chọn được đâu là tài liệu thích hợp với mình Hiện nay, hệ thống thư viện có tích hợp chức năng tìm kiếm, nhưng chỉ dừng

lại ở mức độ tìm kiếm đúng tên sách người dùng yêu cầu, chưa đưa ra thêm gợi ý

liên quan cho người dùng Vậy nên hiệu quả tìm kiếm chưa được cao Bên cạnh cách tổ chức, thì các chức năng tra cứu tài liệu hiện tại của trung tâm hiện nay chưa

có tích hợp hệ thống gợi ý Dựa trên cơ sở dữ liệu thống nhất tích hợp từ hai cơ sở dữ liệu tách biệt được

thực hiện trong đề tài “Hệ thống gợi ý tra cứu tài liệu” [2], đề tài tập trung xây dựng

hệ thống gợi ý hỗ trợ tra cứu tài liệu – RecoLRC Hệ thống gợi ý cũng được áp

dụng vào chức năng tìm kiếm, khi người dùng tìm kiếm với từ khóa bất kỳ hệ thống

sẽ truy vấn vào bảng “ITEMS” trong cơ sở dữ liệu để tìm kiếm những danh mục

sách nào có “TITLE” có cụm từ trùng với từ khóa tìm kiếm của người dùng và sắp

xếp theo danh mục sách có “TITLE” phù hợp nhất sẽ được đưa lên đầu danh sách

tìm kiếm Sau đó hệ thống dựa vào 5 dữ liệu tìm kiếm được đầu tiên để tiến hành

gợi ý sách liên quan cho người dùng Nếu trong 5 đầu sách được tìm thấy đầu tiên

có trong lịch sử giao dịch của người dùng, thì hệ thống sẽ dựa vào lịch sử người

dùng để gợi ý, trong trường hợp trong 5 đầu sách đó chưa tồn tại trong lịch sử mượn

Trang 19

thì hệ thống tiến hành gợi ý những tài liệu liên quan dựa các sách thể loại để hỗ trợ

tốt nhất cho các độc giả trong quá trình tra cứu sách Hệ thống gợi ý đóng vai trò là người trung gian tư vấn cho độc giả phát hiện ra

các tài liệu phù hợp với nhu cầu tìm kiếm của độc giả, dựa trên quá trình thu thập,

xử lý và phân tích dữ liệu về hành vi tìm đọc của các độc giả [1] Việc khai thác

hiệu quả hành vi độc giả ảnh hưởng rất lớn đến hiệu quả của hệ thống gợi ý, đề tài

đặc biệt quan tâm đến các đặc trưng về hành vi như: một tài liệu có thể được đọc lại

nhiều lần sau một khoảng thời gian, độc giả tìm đọc tài liệu này sẽ tìm tiếp tài liệu

gì liên quan sau đó Tài liệu được gợi ý phải thỏa mãn nhu cầu tìm đọc của các độc

giả, phù hợp của những tài liệu gợi ý với những tài liệu độc giả đang tìm đọc 2 Hệ thống gợi ý Hệ thống gợi ý (Recommender Systems – RS) là một kỹ thuật có khả năng tự

động phân tích, phân loại, lựa chọn và cung cấp cho người dùng những thông tin,

hàng hóa hay dịch vụ mà họ quan tâm [2] Việc thực hiện tính toán, xây dựng hệ

thống gợi ý dựa trên một giải thuật máy học (Machine Learning), kết quả là danh

sách các dữ liệu tiềm năng mà người dùng có thể quan tâm, từ đó giúp khai thác tối

đa hiệu quả mong muốn của hệ thống, tùy vào phương thức tổ chức mà mỗi hệ

thống gợi ý có hiệu quả đánh giá khác nhau Trong lĩnh vực giáo dục, hiện nay có

nhiều nghiên cứu về gợi ý sách tại các thư viện Các hệ thống gợi ý có thể phân chia thành 2 loại chính: Hệ thống gợi ý dựa

trên nội dung và hệ thống gợi ý dựa trên phương pháp lọc cộng tác Hệ thống gợi ý

dựa trên nội dung được thực hiện dựa trên trên thông tin thuộc tính của sản phẩm Trong khi đó, phương pháp lọc cộng tác được xây dựng dựa trên lịch sử của các

người dùng tương tự hay các sản phẩm tương tự Trong đề tài này, phương pháp lọc

cộng tác được sử dụng để xây dựng chức năng tìm kiếm sách dựa trên lịch sử mượn

sách của độc giả Phương pháp lọc cộng tác được chia thành hai nhóm chính: phương pháp dựa trên người dùng (tìm kiếm những người dùng tương tự, nghĩa là người dùng có cùng sở

thích, cùng sự quan tâm), phương pháp dựa trên mục dữ liệu (tìm kiếm những mục

dữ liệu tương tự trong ma trận quan hệ) Tập hợp các thông tin mục dữ liệu và người dùng cho phép tính toán các chỉ số tương tự

Trang 20

2.1 Chỉ số tương tự

Để cung cấp cho người dùng những mục dữ liệu thích hợp, hệ thống gợi ý dựa trên các chỉ số tương tự giữa các mục dữ liệu hoặc người dùng Các chỉ số tương tự thường được sử dụng trong các hệ thống gợi ý sẽ được đề cặp trong phần này

Chỉ số tương tự cosine

Chỉ số tương tự cosine cho phép tính toán độ tương tự giữa 2 vectơ n chiều bằng cách xác định góc giữa 2 vectơ Ví dụ, cho 2 vectơ X = {X​ 1​, X​2, ​, X​n​} và Y = {Y​1,​​ ​Y​2,​ ​…,​ ​​Y​n​}, chỉ số tương tự cosine được tính theo công thức sau:

Giá trị của hệ số tương tự cosine bằng 1 khi góc giữa 2 vectơ bằng 0, điều đó có nghĩa là 2 vectơ này giống nhau

2.2 Lọc cộng tác dựa trên người dùng

Phương pháp lọc cộng tác dựa trên người dùng tập trung vào việc tìm kiếmngười dùng có cùng sở thích, hoạt động gần giống nhau nhất [3] Danh sách các gợi

ý được xây dựng từ các mục dữ liệu được đánh giá cao bởi người dùng “tương tự” Các dòng khác nhau của ma trận mối quan hệ R, tương ứng với những người dùng khác nhau, được so sánh để xác định người dùng có cùng sở thích, hoạt động gần giống nhau nhất Sau đó, giá trị dự đoán của người dùng “u” cho mục dữ liệu “i” được tạo ra trên đánh giá của người dùng gần giống với người dùng hiện tại “u” đối với mục dữ liệu “i” nhất [1] Giá trị dự đoán này được tính bởi công thức sau:

Pred​​(u,i)​​ ​=​ ​Với: r u​ ​​và​ ​r​p​ ​​lần lượt là trung bình đánh giá bởi người dùng u và p

nbUser là số lượng người dùng có những sở thích gần giống với người dùng u nhất

sim(u, p) được định nghĩa như là độ tương tự giữa người dùng u và người dùng​ ​p

Trang 21

Bảng 1 Ma trận mối quan hệ người dùng – mục dữ liệu cho phương pháp lọc cộng

tác dựa trên người dùng

Sim​cosine​(​Độc_giả_10, Độc_giả_1 )=

Sim​cosine​(​Độc_giả_10, Độc_giả_9 )=

Bảng 2 Độ tương quan cosine với người dùng độc giả 10

Hệ thống xác định người dùng tương tự bằng giá trị phân ngưỡng 0.25, dựa vào giá trị phân ngưỡng hệ thống lọc được 2 người dùng có chỉ số tương tự cosine >

Ngày đăng: 10/04/2018, 22:38

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w