Trung tâm học liệu hiện có trên 150.000 nhan đề sách titles, cơ sở dữ liệu CSDL trực tuyến như ProQuest Central, Sage, Hinari… Độc giả có thể dùng hệ thống trực tuyến OPAC hiện có khoảng
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
❧ • ❧
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
NGÀNH KHOA HỌC MÁY TÍNH
Đề tài CẢI TIẾN GIẢI THUẬT GỢI Ý TRONG QUÁ TRÌNH TÌM KIẾM TÀI LIỆU Ở TRUNG TÂM HỌC LIỆU TRƯỜNG ĐẠI HỌC CẦN THƠ
Sinh viên thực hiện: Nguyễn Minh Toàn
Mã số: B1310466 Khóa: K39
Trang 2Cần Thơ, 19/05/2017
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
❧ • ❧
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
NGÀNH KHOA HỌC MÁY TÍNH
Đề tài CẢI TIẾN GIẢI THUẬT GỢI Ý TRONG QUÁ TRÌNH TÌM KIẾM TÀI LIỆU Ở TRUNG TÂM HỌC LIỆU TRƯỜNG ĐẠI HỌC CẦN THƠ
Trang 3Giáo viên hướng dẫn Sinh viên thực hiện
Ts Trần Nguyễn Minh Thư Nguyễn Minh Toàn
MSSV: B1310466
Khóa: K39
Cần Thơ, 19/5/2017
Trang 4 NHẬN XÉT CỦA GIẢNG VIÊN
Trang 5LỜI CẢM ƠN
Luận văn là một công trình nghiên cứu, tìm tòi, học hỏi, thể hiện sự lao động nghiêm túc, độc lập, tự tìm tòi, suy nghĩ, sang tạo của người viết Kết quả của luận văn còn là công sức giúp đỡ và dìu dắt của các thầy, cô trong bộ môn Khoa Học Máy Tính nói riêng và Khoa Công nghệ Thông tin và Truyền thông Trường Đại Học Cần Thơ nói chung
Trước hết em xin bày tỏ long kính trọng và biết ơn sâu sắc đến cô Trần Nguyễn Minh Thư, người cô đã tận tình chỉ bảo và truyền đạt những kinh nghiệm quý báo để em hoàn thành luận văn tốt nghiệp này
Em xin chân thành cảm ơn cô cố vấn học tập là cô Phạm Xuân Hiền Cô đã giúp đỡ và định hướng cho em rất nhiều từ năm đầu nhập học Cám ơn cô đã quan tâm giúp đỡ em trong thời gian vừa qua, nhờ vậy em mới đủ khả năng để nhận đề tài luận văn này
Cuối cùng em xin gửi lời cảm ơn đến các anh chị đi trước người thân, bạn bè những người luôn bên cạnh động viên em trong suốt quá trinh học tập và đặc biệt là trong thời gian thực hiện đề tài luận văn này
Dù đã cố gắng rất nhiều bằng cả sự nổ lực của mình để hoàn thành luận văn này nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Rất mong được quý thầy
cô cùng các bạn cảm thông và đóng góp ý kiến để em rút kinh nghiệm làm tốt hơn những đề tài nghiên cứu khác trong tương lai
Em xin chân thành cảm ơn!
Cần Thơ, ngày 19 tháng 5 năm 2017
Người viết Nguyễn Minh Toàn
Trang 82 Đánh giá hiệu quả
Trang 9DANH MỤC HÌNH
Hình 1: Ứng dụng gợi ý sách của lazada.vn 8 Hình 2: Gợi ý môn học tại website edx.org 8
Hình 4 Mô hình hệ thống hỗ trợ tìm kiếm tài liệu RecoLRC 23 Hình 5: Sơ đồ phương pháp hệ thống gợi ý 24 Hình 6: Sơ đồ giải thuật hệ thống gợi ý 25
Hình 8 Giao diện hiển thị dữ liệu tìm kiếm sách của hệ thống 27
Hình 14: Biểu đồ thể hiện độ chính xác của hệ thống gợi ý 31 Hình 15: Biểu đồ so sánh độ chính xác dựa trên phương pháp lọc cộng tác và độ chính xác dựa trên phương pháp tìm kiếm theo từ khóa 32
Trang 10DANH MỤC BẢNG
Bảng 1 Ma trận mối quan hệ người dùng – mục dữ liệu cho phương pháp lọc cộng
Bảng 2 Độ tương quan cosine với người dùng độc giả 10 15
Trang 11ABSTRACT
Can Tho University Learning Resource Center is the place to store rich materials (books, scientific journals, documents, audiovisual materials, databases, ) The Academic Center currently has over 150,000 titles, database online titlessuch as ProQuest Central, Sage, Hinari, etc There are currently about 150,000 bibliographic records (bibliographic records) for accessing information aboutprinted books and dissertation database of Can Tho University Along with the development of information technology, year by year, more and more document and stored, this will make it difficult for readers to find the document that suits their requirements
To assist readers, in this topic, collaborative filtering methods are applied to the search process of the reader Based on the reader's history, the system will take the first five books that match the searching needs of the user, and then we rely on one of the five books to find readers who have a similar reading interest, close to readers looking for books on the system From the readers with similar interests, the system proceeded to filter out 10 suggested titles and 3 titles of the same genre The Given – N algorithm is used to evaluate the accuracy of the system The information
of borrowing from 19490 readers is used to build collaborative filtering, and the infomation of borrowing from 6945 readers is used to evaluate the effect, the accuracy of the Given-1 approach averaged 24.2%
Trang 12TÓM TẮT
Trung tâm học liệu Trường Đại học Cần Thơ là nơi lưu trữ kho tài liệu phong
phú (sách, tạp chí khoa học, tài liệu số, tài liệu nghe nhìn, cơ sở dữ liệu…) Trung
tâm học liệu hiện có trên 150.000 nhan đề sách (titles), cơ sở dữ liệu (CSDL) trực
tuyến như ProQuest Central, Sage, Hinari… Độc giả có thể dùng hệ thống trực tuyến (OPAC) hiện có khoảng 150.000 biểu ghi thư mục (bibliographic records) để
truy cập thông tin về sách in và CSDL luận văn của Trường Đại học Cần Thơ Cùng
với sự phát triển của công nghệ thông tin, qua các năm thì tài liệu được lưu trữ ngày
càng nhiều gây khó khăn cho độc giả trong quá trình tìm kiếm được tài liệu phù hợp
với yêu cầu của mình Để hỗ trợ độc giả, đề tài này ứng dụng phương pháp lọc cộng tác vào quá trình
tìm kiếm của độc giả Dựa vào lịch sử xem sách của độc giả, hệ thống sẽ lấy 5 đầu
sách đầu tiên phù hợp với nhu cầu tìm kiếm của người dùng, sau đó dựa vào 1 trong
5 đầu sách đó để tìm kiếm những độc giả có sở thích đọc gần giống với độc giả
đang tìm kiếm sách trên hệ thống Từ những độc giả có cùng sở thích thì hệ thống
tiến hành lọc ra 10 đầu sách gợi ý và thêm 3 đầu sách có cùng thể loại Giải thuật
Given – N được sử dụng để đánh giá độ chính xác của độc giả Với thông tin mượn
sách từ 19490 độc giả được sử dụng để xây dựng phương pháp lọc cộng tác, và
6945 độc giả được sử dụng để đánh giá hiệu quả thì độ chính xác của phương pháp Given – 1 đạt được trung bình 24.2%
Trang 13PHẦN GIỚI THIỆU
1 Đặt vấn đề
Hệ thống gợi ý học từ khách hàng, người dùng và gợi ý các sản phẩm tốt nhất
trong số tất cả các sản phẩm phù hợp Hệ thống gợi ý (Recommender Systems RSs)
là một dạng hỗ trợ ra quyết định, cung cấp giải pháp cá nhân hóa mà không phải trải
qua quá trình tìm kiếm phức tạp Sự phát triển nhanh chóng của thương mại điện tử,
sự bùng nổ về lượng thông tin, khiến cho việc tìm kiếm sản phẩm thích hợp để mua
của khách hàng trở nên ngày một khó khăn hơn Hiện nay, việc áp dụng hệ thống
gợi ý vào website thương mại điện tử là điều tất yếu nhằm tiết kiệm thời gian, chi
phí và công sức cho khách hàng, giúp họ tìm ra sản phẩm ưng ý nhất với họ để mua
Hệ thống gợi ý sử dụng tri thức sản phẩm, các tri thức của chuyên gia có được bằng
cách học được từ những hành vi của khách hàng, người dùng để đưa ra sản phẩm
mà họ thích trong muôn ngàn sản phẩm có trong hệ thống 2 Lịch sử giải quyết vấn đề Các trang web thương mại điện tử: Amazon, Netflix, Vinabook và nhiều website phim, nhạc, báo…sử dụng hệ thống gợi ý để cung cấp các thông tin giúp
cho người dùng lựa chọn nên chọn sản phẩm nào Các sản phẩm được gợi ý có thể
dựa trên số lượng sản phẩm được bán, dựa trên thông tin cá nhân của người sử
dụng, dựa trên hành vi mua hàng trước đó của người dùng để đưa ra những phán
đoán về hành vi mua hàng trong tương lai của chính người dùng đó [1] Lazada.vn là trang web bán lẻ cung cấp các mặt hàng chất lượng quốc tế với
hơn 7.000 sản phẩm khác nhau từ các thiết bị điện tử điện thoại, máy ảnh, máy tính,
thiết bị âm thanh,…đến các sản phẩm gia dụng, sản phẩm cho trẻ em, sản phẩm
chăm sóc sắc đẹp và cơ thể,…lazada.vn sở hữu bộ sưu tập lớn nhất các thương hiệu
nổi tiếng trên thế giới từ Asus, Acer, Dell, Lenovo, Sangsung, Apple, HTC Nokia
cho đến Sony, Canon, Toshiba và hàng trăm triệu thương hiệu nổi tiếng khác Chúng ta lấy ví dụ người dùng mua quyển sách “Tấn Công Và Phòng Vệ” tại website: http://www.lazada.vn
Trang 14Hình 1: Ứng dụng gợi ý sách của lazada.vn
Các sách tại mục “Sản phẩm được xem cùng” là sản phẩm của hệ thống gợi ý thông qua việc thu thập dữ liệu về người dùng bao gồm: thông tin cá nhân, lịch sử giao dịch, các thao tác trên sản phẩm…Tuy nhiên các sản phẩm gợi ý ở đây vẫn chưa thật sự tốt, vì các sản phẩm gợi ý chưa thật sự liên quan nhiều đến sản phẩm
mà người dùng đang chọn mua Xét ví dụ trong hình 1 trên thì người dùng đang xem quyển sách “Tấn Công Và Phòng Vệ” thuộc thể loại sác thế giới động vậtnhưng hệ thống gợi ý cho người dùng những quyển sách thuộc thể loại âm nhạc, mỹ thuật, tâm lý học, chỉ được 1 quyển sách liên quan đến động vật
Trong giáo dục, sau thành công của ứng dụng tin học vào giảng dạy, thì hệ thống gợi ý là một bước tiến có tầm ảnh hưởng rất lớn, được đầu tư nghiên cứu mạnh trong những năm gần đây Có thể tìm kiếm được một số các website dạy học trực tuyến kèm theo hệ thống gợi ý một cách dễ dàng Mà ở đó, học viên dễ dàng tìm được học phần phù hợp với nhu cầu bản thân Website www.edx.org là một điển hình, khi học viên đăng ký một số thông tin cần thiết (chuyên môn, trình độ hiện tại,…), thì hệ thống sẽ lọc các khóa học phù hợp và gợi ý cho học viên tham khảo [1] Cụ thể như người dùng đăng ký tài khoản tại hệ thống với tên là
“GaCold”, trình độ hiện tại bậc Đại học, chuyên môn là Công nghệ Thông tin thì hệ thống sẽ gợi ý ra một số khóa học cho người dùng tham khảo: “Software Development Fundamentals”, “IELTS Academic Test Preparation” và “DataScience Orientation” như hình 2
Trang 15Hình 2: Gợi ý môn học tại website edx.org
Ở nước ta hiện nay, phần lớn các thư viện trường Đại học, thư viện tỉnh, thành phố đều được tin học hóa việc quản lý, tổ chức, lưu trữ thông tin sách, tạp chí và các
ấn phẩm Điều này tạo điều kiện thuận lợi cho việc quản lý và sử dụng, giảm bớt những thủ tục phức tạp gây không ít bất tiện khi độc giả cần mược sách trong thư viện
Hiện tại dữ liệu trong trung tâm học liệu Đại học Cần Thơ được lưu trữ bởi 2 CSDL tách biệt là MySQL và Oracle, nhưng đã được thực hiện trong đề tài thạc sĩ:
“Hệ thống gợi ý tra cứu tài liệu” [2] dùng Mongodb để tích hợp thành một CSDL thống nhất để dễ dàng trong việc quản lý dữ liệu và xây dựng hệ thống gợi ý Đề tài thạc sĩ đã thực hiện tốt việc tích hợp hai cơ sở dữ liệu tách biệt thành một cơ sở dữ liệu thống nhất, nhưng chưa thực hiện tốt chức năng gợi ý cho người dùng
Trung tâm học liệu, Trường Đại học Cần Thơ là thư viện điện tử đầu tiên tại đồng bằng sông Cửu Long, cung cấp các bộ sưu tập phong phú về tài liệu (sách, tạp chí khoa học, tài liệu số, tài liệu nghe nhìn, cơ sở dữ liệu…) Trung tâm học liệu hiện có trên 150.000 nhan đề sách (titles), cơ sở dữ liệu (CSDL) trực tuyến như ProQuest Central, Sage, Hinari… Độc giả có thể dùng hệ thống trực tuyến (OPAC) hiện có khoảng 150.000 biểu ghi thư mục (bibliographic records) để truy cập thông tin về sách in và CSDL luận văn của Trường Đại học Cần Thơ [2] Trung tâm học liệu Trường Đại học Cần Thơ hiện tại chứa kho tài liệu rất lớn Vì vậy, việc tích hợp
hệ thống gợi ý sách để hỗ trợ tra cứu cho độc giả là một vấn đề đang được quan tâm
Qua một số ví dụ đã nêu, ta có thể thấy lợi ích mà hệ thống gợi ý mang lại phần lớn tập trung vào các yếu tố [1]:
Trang 16- Khả năng đưa ra các dịch vụ cá nhân, hướng đến các đối tượng người dùng
cụ thể Giải quyết vấn đề quá tải thông tin
- Tăng mức tính nhiệm và thân thiện với người dùng, tạo ấn tượng tốt với người dùng
- Nắm được đặc trưng của người dùng, từ đó phân loại xây dựng giải pháp hữu ích cho hệ thống thông tin
3 Mục tiêu đề tài
Nghiên cứu, xây dựng và tích hợp phương pháp lọc cộng tác vào chức năng tìm kiếm tài liệu từ tập dữ liệu được tích hợp từ cơ sở dữ liệu luận văn và cở sở dữ liệu sách tại trung tâm học liệu trường Đại học Cần Thơ
Hệ thống gợi ý phải gợi ý các danh mục sách liên quan với sách độc giả tìm kiếm, và những sách gợi ý thật sự phù hợp với nhu cầu của độc giả, làm cho độc giả cảm thấy thích thú, hài lòng khi sử dụng hệ thống
4 Đối tượng và phạm vi nghiên cứu
- Nghiên cứu các phương pháp để xây dựng hệ thống gợi ý, chủ yếu tập trung vào kỹ thuật lọc cộng tác (lọc cộng tác dựa trên người dùng)
- Nghiên cứu công nghệ xây dựng website có khả năng tích hợp hệ thống gợi
ý
- Đối tượng gợi ý: các danh mục tài liệu có trong cơ sơ dữ liệu của trung tâm học liệu Trường Đại học Cần Thơ
Đối tượng được gợi ý :
- Người dùng trên hệ thống là những người dùng có tài khoản trên hệ thống
Là người dùng xác định và đã tương tác trên hệ thống
- Người dùng khách là người dùng không có tài khoản trên hệ thống, chỉ truy cập hệ thống trong thời gian nhất thời, có ít tương tác trên hệ thống
Nội dung gợi ý: danh sách tài liệu có khả năng người dùng hiện tại sẽ quan tâm
5 Phương pháp nghiên cứu
Về lý thuyết:
Trang 17- Tìm hiểu lý thuyết liên quan đến hệ thống gợi ý (Recommender System - RS), chủ yếu dựa vào phương pháp lọc cộng tác (Colaborative Filtering – CF)
7 Bố cục luận văn
Phần giới thiệu
Giới thiệu tổng quát về đề tài
Phần nội dung
Chương 1: Mô tả bài toán
Chương 2 : Thiết kế, cài đặt giải thuật, biễu diễn cơ sở dữ liệu, trình bày các bước xây dựng hệ thống bằng phương pháp lọc cộng tác
Chương 3: Kiểm thử hệ thống và đánh giá độ chính xác, tốc độ của hệ thống Phần kết luận
Trình bày kết quả đạt được và hướng phát triển hệ thống
Trang 18PHẦN NỘI DUNG
CHƯƠNG 1
MÔ TẢ BÀI TOÁN
1 Mô tả chi tiết bài toán
Hiện nay, hệ thống thư viện trong trung tâm học liệu vẫn là hai trang web
tách biệt: một là http://opac.lrc.ctu.edu.vn/opac/ chứa các tài liệu luận văn, luận án
tốt nghiệp, một trang là http://digital.lrc.ctu.edu.vn/digital/ chứa các mục tài liệu giáo trình, các nghiên cứu khoa học của sinh viên Vì vậy hệ thống vẫn còn một số
bất tiện khi người dùng tìm kiếm tài liệu tham khảo Một số vấn đề đặt ra khi sử dụng hệ thống thư viện trung tâm học liệu
Trường Đại học Cần Thơ là hiệu quả của việc tương tác người dùng và hệ thống Cụ
thể là số đầu sách trong thư viện ngày càng phong phú, đa dạng và có nội dung
tương đối giống nhau, thời gian tra cứu tài liệu lâu, mất nhiều thời gian Nếu người
dùng có thể tìm kiếm được, thì với hàng chục đầu sách có nội dung tương tự nhau
người dùng khó có thể chọn được đâu là tài liệu thích hợp với mình Hiện nay, hệ thống thư viện có tích hợp chức năng tìm kiếm, nhưng chỉ dừng
lại ở mức độ tìm kiếm đúng tên sách người dùng yêu cầu, chưa đưa ra thêm gợi ý
liên quan cho người dùng Vậy nên hiệu quả tìm kiếm chưa được cao Bên cạnh cách tổ chức, thì các chức năng tra cứu tài liệu hiện tại của trung tâm hiện nay chưa
có tích hợp hệ thống gợi ý Dựa trên cơ sở dữ liệu thống nhất tích hợp từ hai cơ sở dữ liệu tách biệt được
thực hiện trong đề tài “Hệ thống gợi ý tra cứu tài liệu” [2], đề tài tập trung xây dựng
hệ thống gợi ý hỗ trợ tra cứu tài liệu – RecoLRC Hệ thống gợi ý cũng được áp
dụng vào chức năng tìm kiếm, khi người dùng tìm kiếm với từ khóa bất kỳ hệ thống
sẽ truy vấn vào bảng “ITEMS” trong cơ sở dữ liệu để tìm kiếm những danh mục
sách nào có “TITLE” có cụm từ trùng với từ khóa tìm kiếm của người dùng và sắp
xếp theo danh mục sách có “TITLE” phù hợp nhất sẽ được đưa lên đầu danh sách
tìm kiếm Sau đó hệ thống dựa vào 5 dữ liệu tìm kiếm được đầu tiên để tiến hành
gợi ý sách liên quan cho người dùng Nếu trong 5 đầu sách được tìm thấy đầu tiên
có trong lịch sử giao dịch của người dùng, thì hệ thống sẽ dựa vào lịch sử người
dùng để gợi ý, trong trường hợp trong 5 đầu sách đó chưa tồn tại trong lịch sử mượn
Trang 19thì hệ thống tiến hành gợi ý những tài liệu liên quan dựa các sách thể loại để hỗ trợ
tốt nhất cho các độc giả trong quá trình tra cứu sách Hệ thống gợi ý đóng vai trò là người trung gian tư vấn cho độc giả phát hiện ra
các tài liệu phù hợp với nhu cầu tìm kiếm của độc giả, dựa trên quá trình thu thập,
xử lý và phân tích dữ liệu về hành vi tìm đọc của các độc giả [1] Việc khai thác
hiệu quả hành vi độc giả ảnh hưởng rất lớn đến hiệu quả của hệ thống gợi ý, đề tài
đặc biệt quan tâm đến các đặc trưng về hành vi như: một tài liệu có thể được đọc lại
nhiều lần sau một khoảng thời gian, độc giả tìm đọc tài liệu này sẽ tìm tiếp tài liệu
gì liên quan sau đó Tài liệu được gợi ý phải thỏa mãn nhu cầu tìm đọc của các độc
giả, phù hợp của những tài liệu gợi ý với những tài liệu độc giả đang tìm đọc 2 Hệ thống gợi ý Hệ thống gợi ý (Recommender Systems – RS) là một kỹ thuật có khả năng tự
động phân tích, phân loại, lựa chọn và cung cấp cho người dùng những thông tin,
hàng hóa hay dịch vụ mà họ quan tâm [2] Việc thực hiện tính toán, xây dựng hệ
thống gợi ý dựa trên một giải thuật máy học (Machine Learning), kết quả là danh
sách các dữ liệu tiềm năng mà người dùng có thể quan tâm, từ đó giúp khai thác tối
đa hiệu quả mong muốn của hệ thống, tùy vào phương thức tổ chức mà mỗi hệ
thống gợi ý có hiệu quả đánh giá khác nhau Trong lĩnh vực giáo dục, hiện nay có
nhiều nghiên cứu về gợi ý sách tại các thư viện Các hệ thống gợi ý có thể phân chia thành 2 loại chính: Hệ thống gợi ý dựa
trên nội dung và hệ thống gợi ý dựa trên phương pháp lọc cộng tác Hệ thống gợi ý
dựa trên nội dung được thực hiện dựa trên trên thông tin thuộc tính của sản phẩm Trong khi đó, phương pháp lọc cộng tác được xây dựng dựa trên lịch sử của các
người dùng tương tự hay các sản phẩm tương tự Trong đề tài này, phương pháp lọc
cộng tác được sử dụng để xây dựng chức năng tìm kiếm sách dựa trên lịch sử mượn
sách của độc giả Phương pháp lọc cộng tác được chia thành hai nhóm chính: phương pháp dựa trên người dùng (tìm kiếm những người dùng tương tự, nghĩa là người dùng có cùng sở
thích, cùng sự quan tâm), phương pháp dựa trên mục dữ liệu (tìm kiếm những mục
dữ liệu tương tự trong ma trận quan hệ) Tập hợp các thông tin mục dữ liệu và người dùng cho phép tính toán các chỉ số tương tự
Trang 202.1 Chỉ số tương tự
Để cung cấp cho người dùng những mục dữ liệu thích hợp, hệ thống gợi ý dựa trên các chỉ số tương tự giữa các mục dữ liệu hoặc người dùng Các chỉ số tương tự thường được sử dụng trong các hệ thống gợi ý sẽ được đề cặp trong phần này
Chỉ số tương tự cosine
Chỉ số tương tự cosine cho phép tính toán độ tương tự giữa 2 vectơ n chiều bằng cách xác định góc giữa 2 vectơ Ví dụ, cho 2 vectơ X = {X 1, X2, , Xn} và Y = {Y1, Y2, …, Yn}, chỉ số tương tự cosine được tính theo công thức sau:
Giá trị của hệ số tương tự cosine bằng 1 khi góc giữa 2 vectơ bằng 0, điều đó có nghĩa là 2 vectơ này giống nhau
2.2 Lọc cộng tác dựa trên người dùng
Phương pháp lọc cộng tác dựa trên người dùng tập trung vào việc tìm kiếmngười dùng có cùng sở thích, hoạt động gần giống nhau nhất [3] Danh sách các gợi
ý được xây dựng từ các mục dữ liệu được đánh giá cao bởi người dùng “tương tự” Các dòng khác nhau của ma trận mối quan hệ R, tương ứng với những người dùng khác nhau, được so sánh để xác định người dùng có cùng sở thích, hoạt động gần giống nhau nhất Sau đó, giá trị dự đoán của người dùng “u” cho mục dữ liệu “i” được tạo ra trên đánh giá của người dùng gần giống với người dùng hiện tại “u” đối với mục dữ liệu “i” nhất [1] Giá trị dự đoán này được tính bởi công thức sau:
Pred(u,i) = Với: r u và rp lần lượt là trung bình đánh giá bởi người dùng u và p
nbUser là số lượng người dùng có những sở thích gần giống với người dùng u nhất
sim(u, p) được định nghĩa như là độ tương tự giữa người dùng u và người dùng p
Trang 21Bảng 1 Ma trận mối quan hệ người dùng – mục dữ liệu cho phương pháp lọc cộng
tác dựa trên người dùng
Simcosine(Độc_giả_10, Độc_giả_1 )=
Simcosine(Độc_giả_10, Độc_giả_9 )=
Bảng 2 Độ tương quan cosine với người dùng độc giả 10
Hệ thống xác định người dùng tương tự bằng giá trị phân ngưỡng 0.25, dựa vào giá trị phân ngưỡng hệ thống lọc được 2 người dùng có chỉ số tương tự cosine >