Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn (LV thạc sĩ)
Trang 1Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ THANH HUYỀN
PHƯƠNG PHÁP LỌC CỘNG TÁC VÀ ỨNG DỤNG
TRONG HỆ THÔNG TIN TƯ VẤN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2015
Trang 2Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ THANH HUYỀN
PHƯƠNG PHÁP LỌC CỘNG TÁC VÀ ỨNG DỤNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: PGS.TS ĐOÀN QUANG BAN
THÁI NGUYÊN - 2015
Trang 3Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này c a t n th n tôi t m hi u, nghi n c u
Trang 4Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LỜI CẢM ƠN
Tôi xin y t l i c m n ch n thành t i tập th c c Th y cô Viện ông nghệ thông tin - Viện Hàn L m Khoa h c và công nghệ Việt Nam c c Th y cô
gi o Đ i h c ông nghệ thông tin và truy n thông - Đ i h c Th i Nguy n đ y
ch ng tôi trong su t qu tr nh h c tập ch ng tr nh cao h c t i tr ng
Đ c iệt tôi xin ày t l ng i t n s u sắc t i Th y gi o PGS TS Đoàn Văn an đ quan t m đ nh h ng và đ a ra nh ng g p g i
ch nh s a qu u cho tôi trong qu tr nh làm luận văn t t nghiệp ng
nh n đ ng nghiệp gia đ nh và ng i th n đ quan t m gi p đ chia
s v i tôi trong su t qu tr nh làm luận văn t t nghiệp
đ c gắng nh ng chắc chắn s không tr nh kh i nh ng thi u s t v vậy r t mong nhận đ c s đ ng g p ki n c a c c Th y ô và c c n đ luận văn đ c hoàn thiện h n
Tôi xin ch n thành c m n
Th i Ngu n th ng n m 5
L Th nh Hu ền
Trang 5Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
MỤC LỤC
Trang
LỜI AM ĐOAN i
LỜI M N ii
MỤC LỤC iii
DANH MỤC CÁC CHỮ VIẾT TẮT vi
DANH MỤC CÁC B NG vii
DANH MỤC CÁC HÌNH viii
MỞ ĐẦU 1
Chương 1: PHƯƠNG PHÁP LỌC TIN 4
1 1 c ph ng ph p l c thông tin 4
1 1 1 Ph ng ph p l c tin theo nội dung 4
1.1.1.1 Bài toán l c theo nội dung 4
1 1 1 2 c ph ng ph p ph p l c theo nội dung 5
1 1 2 Ph ng ph p l c tin theo cộng tác 6
1.1.2.1 Bài toán l c cộng tác 6
1 1 2 2 c ph ng ph p l c cộng tác 7
1 1 3 Ph ng pháp l c tin k t h p 11
1.1.3.1 Bài toán l c k t h p 11
1 1 3 2 c ph ng ph p l c k t h p 12
1.1.4 Ứng dụng c a c c ph ng ph p l c tin 13
1.2 Hệ th ng thông tin t v n 13
1.2.1 Ki n trúc tổng quan c a hệ th ng l c thông tin 13
1.2.2 L c thông tin và các hệ t v n 15
Chương 2: MỘT SỐ PHƯƠNG PHÁP LỌC CỘNG TÁC 17
2.1 L c cộng tác d a trên s n phẩm 17
2.1.1.Thuật to n t nh độ t ng t 19
Trang 6Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2 1 1 1 Độ t ng t Cosine 19
2 1 1 2 Độ t ng t t ng quan 20
2 1 1 3 Độ t ng t osine đi u ch nh 21
2.1.2.Tính toán d đo n và t v n 23
2.1.2.1 Công th c d đo n a tr n trung nh đ nh gi s n phẩm lân cận 23
2.1.2.2 Công th c d đo n a trên tổng tr ng s 24
2.1.2.3 Công th c d đo n a trên tổng tr ng s v i đ nh gi trung nh c a ng i dùng 25
2.1.2.4 Công th c d đo n a trên tổng tr ng s v i trung nh đ nh gi lên s n phẩm 26
2.1.3 Thuật toán l c cộng tác d a trên s n phẩm 27
2 1 3 1 Độ t ng t Cosine 28
2.1.3.2 Độ t ng t osine đi u ch nh 28
2.1.3.3 D đo n a tr n trung nh đ nh gi s n phẩm lân cận 29
2.1.3.4 D đo n a trên tổng tr ng s 29
2.1.3.5 D đo n a trên tổng tr ng s v i trung nh đ nh gi l n ng i dùng 30 2 1 4 Đ nh gi c c y u t nh h ởng đ n độ chính xác k t qu t v n 31
2 1 4 1 Đ nh gi ch t l ng c a hệ th ng t v n 31
2.1.4.2 Các y u t nh h ởng đ n độ ch nh x c t v n 31
2.2 L c cộng tác d a tr n mô h nh đ th 32
2 2 1 Ph ng ph p i u diễn đ th 32
2 2 2 Ph ng pháp d đo n tr n đ th ng i dùng - s n phẩm 34
2 2 2 1 T ch đ th Ng i dùng-S n phẩm thành c c đ th con 35
2 2 2 2 Ph ng ph p đo n tr n đ th có tr ng s ng G+ 37
2 2 2 3 Ph ng ph p đo n tr n đ th các c nh có tr ng s âm G 39
2 2 2 4 Ph ng ph p đo n theo t t c đ nh gi 41
2.3 L c cộng tác d a vào l c đ ng hu n luyện 43
Trang 7Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2.3.1 Mô t thuật to n đ ng hu n luyện 44
2.3.2 Thuật toán l c cộng tác bằng ph ng ph p đ ng hu n luyện theo ng i dùng 44
2.3.3 L c cộng tác bằng ph ng ph p đ ng hu n luyện theo s n phẩm 46
Chương 3: XÂY DỰNG HỆ THÔNG TIN TƯ VẤN SẢN PHẨM SỮA DÀNH CHO NGƯỜI TIÊU DÙNG 51
3.1 Phát bi u bài toán 51
3.2 Phân tích thi t k hệ th ng t v n s n phẩm s a 51
3.2.1 Phân tích các yêu c u 51
3.2.2 Thi t k hệ th ng t v n s n phẩm s a 53
3.3 Xây d ng ch ng tr nh ng dụng 54
3.4 K t luận 56
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 57
TÀI LIỆU THAM KHẢO 57
Trang 8Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH MỤC CÁC CHỮ VIẾT TẮT
IF Information Filtering (L c thông tin)
IR Information Retrieval (Truy v n thông tin)
RS Recommender System (Hệ th ng t v n)
Trang 9Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH MỤC CÁC BẢNG
Trang
B ng 1.1.Ví dụ v ma trận đ nh gi c a l c cộng tác 7
B ng 2.1 B ng đ nh gi ng i dùng v i các s n phẩm 18
B ng 2.2 B ng t nh độ t ng t theo công th c Cosine 20
B ng 2.3 B ng t nh độ t ng t theo công th c t ng quan 21
B ng 2.4 B ng t nh độ t ng t theo công th c osine đi u ch nh 22
B ng 2.5 B ng d đo n và t v n theo ph ng ph p t nh trung nh đo n 24 B ng 2.6 B ng d đo n và t v n theo ph ng pháp Weigth Sum 25
B ng 2.7 B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh giá trung bình c a ng i dùng và s dụng độ t ng t Ajusted Cosine 26
B ng 2.8 B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh giá trung bình s n phẩm và s dụng độ t ng t Ajusted Cosine 27
B ng 2.9 Ma trận đ nh gi R 33
B ng 2.10 Ma trận X bi u diễn đ nh đ th Ng i dùng- S n phẩm 33
B ng 2.12 Ma trận X+ bi u diễn c c đ nh gi th ch h p 36
B ng 2.12 Ma trận X- bi u diễn c c đ nh gi không th ch h p 36
B ng 2.13: Ng i dùng và s n phẩm 48
B ng 2.14: B ng giá tr đ nh gi theo ng i dùng 48
B ng 2.15: B ng giá tr đ nh gi theo s n phẩm 49
Trang 10Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH MỤC CÁC HÌNH
Trang
Hình 1.1 Ki n trúc tổng quát c a hệ th ng l c thông tin 14
Hình 2.1 Mô hình hệ th ng l c cộng tác d a trên s n phẩm 31
Hình 2.2 Đ th ng i dùng - s n phẩm 34
Hình 2.3 Đ th G bi u diễn c ch đ nh gi th ch h p 36
Hình 2.4 Đ th G bi u diễn c ch đ nh gi không th ch h p 37
Hình 3.3: Giao diện ch ng tr nh đo n s n phẩm s a 55
Hình 3.4: Ng i ng đăng nhập vào hệ th ng 55
Hình 3.5: Hệ th ng l c cộng tác d a vào bộ nh 55
Hình 3.6: Hệ th ng l c cộng tác d a vào đ th 56
Trang 11
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
MỞ ĐẦU
Xã hội loài ng i ch ng ki n s ph t tri n m nh m và sôi động c a thông tin trong m i l nh v c đ c biệt là s gia tăng không ngừng l ng thông tin khổng l đ n từ hàng trăm k nh truy n hình, hàng triệu ăng h nh s ch báo, t p chí, tài liệu thông qua các hệ th ng giao d ch điện t Vì vậy ng i dùng s g p kh khăn trong việc l a ch n thông tin h u ch Nhi u nhà khoa
h c m y t nh tr n th gi i nhiệt t nh h ởng ng và quan t m nghi n c u
ph ng ph p h n ch nh h ởng c a v n đ quá t i thông tin đ i v i ng i
ng th c đẩy một l nh v c nghiên c u m i đ là l c thông tin
L c thông tin (Infomation Filtering) [1] là l nh v c nghiên c u quá
trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p
đ n v i m i ng i dùng L c thông tin đ c xem là một ph ng ph p hiệu
qu h n ch tình tr ng quá t i thông tin đ c quan tâm nhi u nh t hiện nay
Hệ t v n (Recommender System) [1,2] là hệ th ng có kh năng t
động phân tích, phân lo i, l a ch n và cung c p cho ng i dùng nh ng thông tin, hàng hóa hay d ch vụ mà h quan tâm Hệ t v n đ c xem nh một bi n
th đi n hình có vai trò quan tr ng trong l c thông tin Nhi u hệ t v n đ
đ c th ng m i hóa và tri n khai thành công, tiêu bi u là hệ t v n c a các hãng Amazon.com, Netflix.com, Procter & Gamble
Hệ t v n đ c xây d ng d a trên hai kỹ thuật l c thông tin chính: L c
theo nội dung (Content-Based Filtering) và l c cộng tác (Collaborative Filtering) [1] L c theo nội dung khai thác nh ng khía c nh li n quan đ n nội
dung thông tin s n phẩm ho c ng i ng đ từng s dụng hay truy nhập trong quá kh đ t o n n t v n Trái l i, l c cộng tác khai thác nh ng khía
c nh li n quan đ n thói quen sở thích c a ng i s dụng s n phẩm c a cộng
đ ng ng i dùng có cùng sở th ch đ t o nên t v n
Trang 12Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
So v i l c theo nội dung, l c cộng tác không ph i phân tích, bóc tách,
hi u đ nh ch mục cho c c đ c tr ng nội dung s n phẩm, l c cộng tác có th
l c hiệu qu trên nhi u d ng s n phẩm kh c nhau nh hàng h a s a, nh, tài
liệu Chính vì vậy tác gi đ l a ch n đ tài “Phương ph p lọc cộng tác và ứng dụng trong hệ thông tin tư vấn” đ th c hiện trong khuôn khổ luận văn
th c s chuy n ngành khoa h c máy tính
Đối tượng và phạm vi nghiên cứu
- Nghiên c u ph ng ph p l c cộng tác d a trên bộ nh ph ng pháp
l c cộng tác d a trên mô hình và ph ng ph p l c cộng tác k t h p bộ nh và
mô hình
- Nghiên c u l c cộng tác d a trên s n phẩm v i thuật to n t nh độ t ng
t , l c cộng tác d a tr n mô h nh đ th v i thuật toán d a tr n mô h nh đ th
ng i dùng - s n phẩm nhằm c i thiện độ chính xác c a l c thông tin cho hệ
t v n và thuật toán l c bằng ph ng ph p đ ng hu n luyện theo s n phẩm và
ng i dùng Đ c biệt xây d ng ng dụng hệ thông tin t v n s n phẩm s a ành cho ng i tiêu dùng
Hướng nghiên cứu củ đề tài
Tập trung nghiên c u hai v n đ chính
1 Trình bày c c ph ng ph p l c thông tin, ng dụng c a c c ph ng pháp l c thông tin, hệ th ng thông tin t v n v i ki n trúc tổng quan c a hệ
th ng l c thông tin, l c thông tin và các hệ t v n
2 Nghiên c u l c cộng tác d a trên s n phẩm v i thuật to n t nh độ
t ng t , l c cộng tác d a tr n mô h nh đ th v i thuật toán d a trên mô hình
đ th ng i dùng - s n phẩm nhằm c i thiện độ chính xác c a l c thông tin cho hệ t v n và thuật toán l c bằng ph ng ph p đ ng hu n luyện theo s n phẩm và ng i dùng
Phương pháp nghi n cứu
Trang 13Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- Nghiên c u lý thuy t: Nghiên c u các khái niệm v l c thông tin, trong đ đi s u vào nghi n c u l c cộng tác Nghiên c u thuật toán tính
Trình bày thuật toán l c cộng tác d a trên s n phẩm, thuật toán d a
tr n mô h nh đ th ng i dùng - s n phẩm và thuật to n đ ng hu n luyện
h ng 3: h ng tr nh ng dụng
Xây d ng ch ng tr nh ng dụng s n phẩm s a ành cho ng i tiêu dùng
Trang 14Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 1 PHƯƠNG PHÁP LỌC TIN 1.1 Các phương pháp lọc thông tin
L c thông tin (Information Filtering) [1] là l nh v c nghiên c u quá
trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p
đ n v i m i ng i dùng L c thông tin đ c xem là một ph ng ph p hiệu
qu h n ch tình tr ng quá t i thông tin đ c quan tâm nhi u nh t hiện nay
3 ph ng ph p l c thông tin
1.1.1 Phương pháp lọc tin theo nội dung
L c theo nội ung là ph ng ph p th c hiện d a trên việc so sánh nội dung thông tin hay mô t hàng hóa, nhằm tìm ra nh ng s n phẩm t ng t v i
nh ng gì mà ng i ng đ từng quan tâm đ gi i thiệu cho h nh ng s n phẩm này [3] Các ph ng ph p ti p cận cho l c theo nội dung có ngu n g c
từ l nh v c truy v n thông tin trong đ m i s n phẩm đ c bi u diễn bằng một h s s n phẩm, m i ng i dùng đ c bi u diễn bằng một h s ng i
ng Ph ng ph p đo n nội dung nguyên b n c a s n phẩm th c hiện
d a vào việc xem xét các h s s n phẩm có m c độ phù h p cao v i h s
ng i dùng
1.1.1.1 Bài toán lọc theo nội dung
Bài toán l c theo nội ung đ c phát bi u nh sau ho P = {p1, p2, ,
pN} là tập g m N s n phẩm Nội dung s n phẩm p∈ P đ c ký hiệu là
Content(p) đ c bi u diễn thông qua tập K đ c tr ng nội dung c a P Tập các
đ c tr ng s n phẩm p đ c xây d ng bằng các kỹ thuật truy v n thông tin đ
th c hiện mục đ ch đo n nh ng s n phẩm kh c t ng t v i p
Cho U = { u1, u2, , uM} là tập g m M ng i dùng V i m i ng i
dùng u∈ U, g i ContentBasedProfile(u) là h s ng i dùng u H s c a
ng i dùng u th c ch t là l ch s truy cập ho c đ nh gi c a ng i đ đ i v i
Trang 15Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
các s n phẩm ContentBasedProfile(u) đ c xây d ng bằng cách phân tích
nội dung các s n phẩm mà ng i dùng u đ từng truy nhập ho c đ nh gi a trên các kỹ thuật truy v n thông tin
Bài toán l c theo nội dung khi đ là đo n nh ng s n phẩm m i có
nội dung thích h p v i ng i dùng d a trên tập h s s n phẩm Content(p) và
h s ng i dùng ContendBasedProfile(u)
1.1.1.2 C c phương ph p ph p lọc theo nội dung
L c theo nội ung đ c ti p cận theo hai xu h ng: L c d a trên bộ
nh và l c d a trên mô hình
Lọc nội dung dựa vào bộ nhớ
L c nội dung d a vào bộ nh là ph ng ph p s dụng toàn bộ tập h
s s n phẩm và tập h s ng i ng đ th c hiện hu n luyện và d đo n Trong ph ng ph p này c c s n phẩm m i đ c tính toán và so sánh v i t t
c h s ng i dùng Nh ng s n phẩm m i có m c độ t ng t cao nh t v i
h s ng i dùng s đ c dùng đ t v n cho ng i dùng này
Lọc nội dung dựa vào mô hình
L c nội dung d a tr n mô h nh là ph ng ph p s dụng tập h s s n phẩm và tập h s ng i dùng đ xây d ng nên mô hình hu n luyện Mô hình
d đo n sau đ s s dụng k t qu c a mô hình hu n luyện đ sinh ra t v n cho ng i dùng Trong cách ti p cận này, l c nội dung có th s dụng các kỹ thuật h c m y nh m ng Bayes, phân cụm, cây quy t đ nh, m ng n ron nh n
Trang 16Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Panzanni và Billsus gi thi t c c đ c tr ng nội dung xu t hiện độc lập nhau, vì vậy xác su t ở tr n t ng ng v i:
P( Ci) ∏ P(kxj| Ci) (1.2) x: là ng i dùng ch y từ 1 n
Vì P(kxj| Ci) và P(Ci) có th c l ng d a vào tập d liệu hu n luyện Do vậy, s n phẩm pj đ c xem là thuộc l p Ci n u xác su t P( Ci| k1j&k2 j & &kn
j ) có giá tr cao nh t thuộc l p này
Solombo[5] đ xu t mô hình l c thích nghi, trong đ ch tr ng đ n việc quan sát m c phù h p c a t t c các s n phẩm
1.1.2 Phương pháp lọc tin theo cộng tác
Không gi ng nh l c theo nội dung, l c cộng tác khai thác nh ng khía
c nh li n quan đ n thói quen sở thích c a ng i s dụng s n phẩm đ đ a ra
d đo n c c s n phẩm m i cho ng i dùng này So v i l c theo nội dung, l c cộng tác không ph i phân tích, bóc tách, hi u, đ nh ch mục cho c c đ c
tr ng nội dung s n phẩm Chính vì vậy, l c cộng tác có th l c hiệu qu trên nhi u d ng s n phẩm kh c nhau nh hàng hóa, s a, nh, tài liệu [4] Cùng trên một hệ t v n ng i dùng s đ c t v n nhi u lo i m t hàng khác nhau cho dù các m t hàng này có th bi u diễn tr n không gian c c đ c tr ng nội dung khác nhau
1.1.2.1 Bài toán lọc cộng tác
Ký hiệu U= {u1, u2 … uN} là tập g m N ng i dùng, P= {p1, p2, ,
pM} là tập g m M s n phẩm mà ng i dùng có th l a ch n M i s n phẩm
pi∈ P có th là hàng hóa, s a, nh, t p chí, tài liệu, sách, báo, d ch vụ ho c b t
kỳ d ng thông tin nào mà ng i dùng c n đ n
Ti p theo, ký hiệu R={rij}, i = 1 N, j = 1 M là ma trận đ nh gi trong
đ m i ng i dùng ui∈ U đ a ra đ nh gi c a mình cho một s s n phẩm pj∈
P bằng một tr ng s rij Giá tr rij ph n ánh m c độ a th ch c a ng i dùng ui
Trang 17Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đ i v i s n phẩm pj Giá tr rij có th đ c thu thập tr c ti p bằng cách h i ý
ki n ng i dùng ho c thu thập gián ti p thông qua c ch ph n h i c a ng i dùng Giá tr rij = Ø trong tr ng h p ng i dùng ui ch a đ nh gi ho c ch a bao gi bi t đ n s n phẩm pj
1.1.2.2 C c phương ph p lọc cộng tác
Trang 18Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ng gi ng nh l c theo nội dung, l c cộng tác ti p cận theo hai xu
h ng chính: L c cộng tác d a trên bộ nh và l c cộng tác d a trên mô hình
M i ph ng ph p ti p cận có nh ng u đi m và h n ch riêng, khai thác các
m i liên hệ trên ma trận đ nh gi ng i dùng Cách ti p cận cụ th m i
ph ng ph p đ c th c hiện nh sau
Lọc cộng tác dựa trên bộ nhớ
c ph ng ph p l c d a trên bộ nh s dụng toàn bộ ma trận đ nh gi
đ sinh ra d đo n c c s n phẩm cho ng i dùng hiện th i V th c ch t đ y
là ph ng ph p h c l i hay h c d a trên ví dụ đ c s dụng trong h c máy
Ph ng ph p đ c th c hiện theo hai c: Tính toán m c độ t ng t và
c t o nên d đo n
• T nh to n m c độ t ng t sim(x, y): Mô t kho ng cách, s liên quan, hay
tr ng s gi a hai ng i dùng x và y (ho c gi a hai s n phẩm x và y)
• đo n: Đ a ra đo n cho ng i dùng c n đ c t v n bằng cách xác
ng i dùng cùng đ nh gi c hai s n phẩm Sau đ s dụng một độ đo cụ th
đ xác đ nh m c độ t ng t gi a hai ng i dùng ho c s n phẩm
Chú ý rằng c hai ph ng ph p l c theo nội dung và l c cộng tác đ u
s dụng độ đo cosin gi ng nhau trên tập các s n phẩm Tuy nhiên, l c theo nội dung s dụng độ t ng t cosin cho các véc t c a tr ng s đ c tính theo độ đo t n su t và t n su t xu t hiện ng c, l c cộng tác s dụng cosin
gi a hai véc t i u diễn đ nh gi c a ng i dùng
Lọc cộng tác dựa vào mô hình
Trang 19Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Khác v i ph ng ph p a trên bộ nh ph ng ph p l c d a trên mô hình [2] s dụng tập đ nh giá đ xây d ng mô hình hu n luyện K t qu c a
mô hình hu n luyện đ c s dụng đ sinh ra d đo n quan đi m c a ng i dùng v các s n phẩm ch a đ c h đ nh gi Ưu đi m c a c a ph ng ph p này là mô hình hu n luyện c k ch th c nh h n r t nhi u so v i ma trận
đ nh gi và th c hiện d đo n nhanh Mô h nh ch c n cập nhật l i khi có
nh ng thay đổi l n và ch th c hiện l i ph n xây d ng mô hình
up i r p P r
i
0
' , '
Billsus và Pazzani [9] chuy n đổi d liệu có nhi u m c đ nh giá thành d liệu
nh ph n Khi đ ma trận đ nh gi đ c chuy n đổi thành ma trận bao g m
đ c tr ng nh phân Việc chuy n đổi này làm cho việc s dụng mô hình m ng
r trở nên thuận tiện h n Tuy nhi n k t qu phân lo i theo c c đ c tr ng nh phân không ph n nh đ ng c c ộ d liệu th c
Mô hình phân cụm
Một cụm là tập các đ i t ng d liệu có các ph n t trong cụm gi ng nhau nhi u nh t, và khác nhau nhi u nh t đ i v i các ph n t thuộc các cụm khác c ph ng ph p ph n cụm cho l c cộng t c đ c s dụng đ phân
Trang 20Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
chia tập ng i dùng (ho c tập s n phẩm) thành các cụm ng i dùng (ho c s n phẩm) có sở th ch t ng t nhau Khi đ ng i dùng (ho c s n phẩm) thuộc cụm nào s đ c d đo n và t v n các s n phẩm đ c đ nh gi cao trong cụm đ [7] Độ đo ng đ c l ng m c độ gi ng nhau gi a c c đ i t ng
d liệu th ng đ c s dụng là kho ng cách Minkowski và độ t ng quan Pearson
Cho hai đ i t ng d liệu X = (x1, x2, ,xn), Y = (y1, y2, ,yn) Khi
đ kho ng c ch Minkowski đ c đ nh ngh a theo công th c
d(X,Y) = q
n
i
q i
i y x
Trong đ n là s chi u c a X và Y; xi, yi là giá tr thành ph n th i c a
X và Y; q là một s nguyên ng N u q =1, thì d(X,Y) là kho ng cách Minkowski N u q =2, thì d(X,Y)là kho ng cách Euclid
Sarwar và Herlocker [7] cùng các cộng s s dụng các kỹ thuật phân cụm chia tập ng i dùng thành các cụm Ph ng ph p đo n s dụng các thuật toán d a trên bộ nh nh độ t ng quan Pearson đ th c hiện trên m i cụm d liệu
Si và Jin [8] đ xu t mô hình phân cụm bằng mô hình pha trộn linh
ho t (Flexible Mixture Mo el) Ph ng ph p ph n cụm đ ng th i cho c
ng i dùng và s n phẩm và cho phép m i ng i dùng ho c s n phẩm có th thuộc nhi u cụm khác nhau, sau đ mô h nh h a c c cụm ng i dùng và các cụm s n phẩm độc lập nhau đ th c hiện d đo n K t qu th nghiệm đ
Trang 21Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Si và Jin [8] đ xu t mô h nh đa th c (Multinomial Model) phân lo i
tập ng i dùng v i gi thi t ch có một ki u ng i dùng duy nh t Marlin [5]
đ xu t mô hình pha trộn đa th c (Multinomial Mixture Model), k t h p v i
mô hình đ nh h ng đ t o nên mô hình h s đ nh gi ng i dùng(User Rating Profile) v i gi thi t có nhi u ki u ng i ng và c c đ nh giá m i
ng i dùng độc lập nhau Marlin khẳng đ nh, h s đ nh gi ng i dùng
th c hiện t t h n so v i mô h nh đ nh h ng và mô hình pha trộn đa th c
Mô hình phân lo i và h i qui: Cho tập g m N véct M chi u {xi} Mục tiêu
c a phân lo i hay h i qui là d đo n ch nh x c gi tr đ u ra t ng ng {ci} Trong tr ng h p phân lo i, ci nhận một giá tr từ một tập h u h n g i là tập các nhãn Trong tr ng h p h i qui, ci có th nhận một giá tr th c Đ áp dụng mô hình phân lo i cho l c cộng tác, m i s n phẩm (ho c ng i dùng)
đ c xây d ng một bộ phân lo i riêng Bộ phân lo i cho s n phẩm y phân
Trang 22Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
uU là một ng i dùng thì ta có th xem xét c c đ c tr ng ci: "tuổi", " giới tính", "nghề nghiệp" và c c đ c tr ng kh c ph n nh thông tin ng i dùng
Bài toán c a l c k t h p là d đo n cho ng i dùng hiện th i ua nh ng
Kết hợp tuyến tính [3] là ph ng ph p x y ng hai l c đ l c nội dung và
l c cộng t c độc lập nhau K t qu d đo n c a toàn bộ mô hình có th đ c
l a ch n từ ph ng ph p cho k t qu t t h n Ưu đi m c a ph ng ph p này
là k thừa đ c ph ng ph p i u diễn và tính toán v n có c a c c ph ng
ph p Nh c đi m l n nh t c a mô hình này là cho k t qu không cao v ch a
có s k t h p hiệu qu gi a nội ung và đ nh gi ng i dùng
K t h p đ c tính c a l c nội dung và l c cộng t c là ph ng ph p a trên các kỹ thuật l c cộng tác thu n t y nh ng v n duy trì h s ng i dùng
ContentBasedProfile(u) nh một tham bi n tham kh o khi tính toán s t ng
t gi a các c p ng i ng Ph ng ph p c th phát hiện ra nh ng s n phẩm
t ng t v i h s ng i dùng ho c không t ng t v i h s ng i dùng Trong tr ng h p d liệu th a ho c ng i dùng m i, m c độ t ng t gi a
h s ng i dùng và s n phẩm s đ c xem xét đ n đ t o nên d đo n
Kết hợp đặc tính cuả lọc cộng tác và lọc nội dung là ph ng ph p xem xét
c c đ nh gi ng i dùng c a l c cộng t c nh một thành ph n trong m i h
s ng i ng Ph ng ph p đo n th c hiện theo l c nội dung thu n túy
và so sánh v i k t qu d a trên bi u diễn h s ng i dùng mở rộng Ph ng pháp phổ bi n nh t th hiện theo mô hình này là s dụng các kỹ thuật gi m s chi u cho h s ng i ng tr c khi k t h p v i đ nh gi ng i dùng
Trang 23Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1.1.4 Ứng dụng của các phương pháp lọc tin
L c thông tin (IF) là l nh v c nghiên c u các quá trình cung c p thông tin thích h p ngăn ngừa và g b thông tin không thích h p cho m i ng i dùng Thông tin đ c cung c p (c n đ c g i là s n phẩm) có th là văn n, trang web, phim, nh, d ch vụ ho c b t kỳ d ng thông tin nào đ c s n sinh ra
từ c c ph ng tiện truy n thông Ph m vi ng dụng c a l c thông tin tr i rộng trong nhi u ng dụng th c t khác nhau c a khoa h c máy tính Ứng dụng tiêu bi u nh t c a l c thông tin đ c k đ n là l c k t qu tìm ki m trong các máy tìm ki m (Search Engine), l c e-mail d a trên nội ung th và
h s ng i dùng, l c thông tin văn n trên các máy ch đ cung c p thông tin cho tập th ho c cá nhân thích h p, lo i b nh ng trang thông tin có nh
h ởng không t t đ i v i ng i dùng Đ c biệt, l c thông tin có vai trò quan
tr ng cho các hệ th ng t v n (RS) ng dụng trong th ng m i điện t
1.2 Hệ thống thông tin tƣ vấn
Hệ th ng l c thông tin t v n cung c p cho ng i dùng nh ng thông tin
c n thi t nh t, lo i b nh ng thông tin không có giá tr ho c không thích h p
đ i v i ng i dùng Nguyên lý phổ bi n đ c dùng trong l c thông tin là nguyên lý d a vào d liệu (Data-Based) và nguyên lý d a vào tri th c (Knowledge-Based) Các ph ng ph p l c có th đ c th c hiện d a vào nội dung thông tin s n phẩm ho c l c d a trên thói quen sở thích ng i dùng Các
kỹ thuật l c đ c phát tri n d a trên n n t ng từ l nh v c truy v n thông tin (Information Retrieval), tách thông tin (Information Extraction), phân lo i thông tin (Information Classification) Ph m vi ng dụng c a các hệ th ng l c
đ c áp dụng cho t t c c c mô h nh th ng m i điện t th c t : Khách hàng
- Khách hàng (Customer to Customer), Nhà cung c p - Khách hàng (Business
to Customer), Nhà cung c p - Nhà cung c p (Business to Business) [6]
1.2.1 Kiến trúc tổng quan của hệ thống lọc thông tin
Một hệ th ng l c thông tin tổng quát bao g m b n thành ph n c n [6]: Thành ph n phân tích d liệu (Data Analyser Component), thành ph n
Trang 24Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
mô hình ng i dùng (User Model Component), thành ph n h c (Learning Component) và thành ph n l c (Filtering Component)
Hình 1.1 Ki n trúc tổng quát c a hệ th ng l c thông tin
• Thành phần phân tích dữ liệu có nhiệm vụ thu thập d liệu v s n phẩm từ
các nhà cung c p thông tin (ví dụ tài liệu th điện t , sách, báo, t p chí, s a, nh ) D liệu v s n phẩm đ c phân tích và bi u diễn theo một khuôn d ng thích h p sau đ chuy n đ n bộ phận l c nh Hình 1.1
• Thành phần mô hình người dùng có th “hiện” ho c “ẩn” ng đ l y thông
tin v ng i dùng, nh gi i tính, tuổi n i sinh s ng và thông tin ng i dùng
đ truy v n tr c đ đ t o nên h s ng i dùng H s ng i dùng sau khi
t o ra đ c chuy n đ n thành ph n h c đ th c hiện nhiệm vụ hu n luyện
• Thành phần học th c hiện hu n luyện trên tập h s và ph n h i c a ng i
dùng theo một thuật toán h c máy cụ th Thuật toán h c l y d liệu từ thành
ph n mô t ng i dùng; l y d liệu v s n phẩm đ đ c bi u diễn từ thành
ph n l c k t h p v i thông tin ph n h i ng i ng đ th c hiện nhiệm vụ
hu n luyện K t qu quá trình h c đ c chuy n l i cho bộ phận l c đ th c hiện nhiệm vụ ti p theo
Ng i dùng Ng i cung c p thông tin
Bi u diễn thông tin s n phẩm
Bi u diễn thông tin s n phẩm
Trang 25Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đ a ra quy t đ nh phân bổ s n phẩm N u d liệu s n phẩm phù h p v i h s
ng i dùng, s n phẩm s đ c cung c p cho ng i ng đ Trong tr ng h p
ng c l i, hệ th ng lo i b s n phẩm kh i danh sách nh ng s n phẩm phân bổ cho ng i ng Ng i dùng nhận đ c nh ng s n phẩm thích h p, xem xét,
đ nh gi ph n h i l i cho thành ph n h c đ phục vụ quá trình l c ti p theo
1.2.2 Lọc thông tin và các hệ tư vấn
Hệ tƣ vấn (RS) là tr ng h p riêng c a các hệ th ng l c thông tin D a
trên thông tin đ c v ng i dùng, hệ t v n xem xét trong s l ng r t l n hàng hóa hay thông tin và t v n cho ng i dùng một danh sách ngắn g n
nh ng đ y đ nh ng hàng h a mà ng i dùng có kh năng quan tâm
S dụng hệ t v n trong các ng dụng th ng m i điện t s h tr khách hàng không c n th c hiện các thao tác tìm ki m s n phẩm, mà ch c n
l a ch n hàng hóa ho c d ch vụ a th ch o hệ th ng cung c p Đi u này s làm gia tăng năng l c mua, bán c a toàn bộ hệ th ng Chính vì lý do này, hàng lo t c c công ty đa qu c gia (Amazon.com, Netflix.com, CDNOW, J.C Penney, Procter & Gam le ) đ đ u t và phát tri n thành công công nghệ t
v n đ gia tăng hệ th ng khách hàng và bán hàng qua m ng [6]
o là tr ng h p riêng c a hệ th ng l c tin, hệ t v n có nhi u đ c
đi m c a hệ l c tin tiêu bi u Tuy nhi n o đ c đi m c a d liệu ng i dùng
và nội dung, hệ t v n c ng nh các kỹ thuật đ c s dụng có một s khác biệt nh t đ nh T y vào ph ng ph p l c tin, các hệ t v n đ c phân lo i thành ba lo i:
• Phương ph p tư vấn dựa vào lọc nội dung: Hệ th ng t v n cho ng i dùng
nh ng s n phẩm m i có nội ung t ng t v i một s s n phẩm h đ từng mua ho c từng truy nhập trong quá kh
• Phương ph p tư vấn dựa vào lọc cộng tác: Ng i dùng s đ c t v n
một s s n phẩm c a nh ng ng i có sở thích gi ng h đ từng a th ch trong quá kh
Trang 26Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
• Phương ph p tư vấn dựa vào lọc kết hợp: Hệ th ng t v n cho ng i dùng
nh ng s n phẩm t ng t v i một s s n phẩm h đ từng mua ho c từng truy nhập trong quá kh và s n phẩm c a nh ng ng i có sở thích gi ng h đ từng a th ch trong qu kh
M i ph ng pháp l c áp dụng cho các hệ t v n đ c phân thành hai h ng
ti p cận: l c d a vào bộ nh (Memory-Based Filtering) và l c d a vào mô hình (Model-Based Filtering)
• C c phương ph p lọc dựa vào bộ nhớ: Đ y là ph ng ph p l u l i toàn bộ
các ví dụ hu n luyện Khi c n d đo n hệ th ng tìm các ví dụ hu n luyện
gi ng tr ng h p c n d đo n nh t và đ a ra t v n d a trên các ví dụ này
Tr ng h p tiêu bi u c a l c d a vào bộ nh là thuật toán K ng i láng gi ng
g n nh t Ưu đi m chính c a ph ng ph p ti p cận này là đ n gi n, dễ cài
đ t Tuy nhi n ph ng ph p này c th i gian l c chậm do việc d đo n đ i
h i so sánh và tìm ki m trên toàn bộ l ng ng i dùng và s n phẩm
• Phương ph p lọc dựa trên mô hình: Trong ph ng ph p này liệu đ c
s dụng đ xây d ng mô hình rút g n, ví dụ mô hình xác su t hay cây quy t
đ nh Mô h nh này sau đ đ c s dụng đ đ a ra c c t v n Ph ng ph p này cho phép th c hiện việc d đo n nhanh o qu tr nh đo n th c hiện
tr n mô h nh đ h c tr c đ
1.3 Kết luận
Trong ch ng này luận văn đ tr nh ày kh i niệm và các ki n th c c sở
v c c ph ng ph p l c thông tin và hệ thông tin t v n h ng 2 tác gi s đi sâu nghiên c u c c ph ng ph p l c cộng t c v ph ng ph p này có th l c hiệu qu trên nhi u d ng s n phẩm kh c nhau nh hàng h a s a, nh, tài liệu
Trang 27Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 2 MỘT SỐ PHƯƠNG PHÁP LỌC CỘNG TÁC 2.1 Lọc cộng tác dựa trên sản phẩm
Gi i thuật t v n d a trên s n phẩm nhằm đ a ra c c đo n cho ng i dùng bởi đ i t ng đ c xét ở đ y là s n phẩm Qu tr nh t v n bằng ph ng pháp l c cộng tác d a trên s n phẩm s t nh to n độ t ng t các s n phẩm, sau
đ l a ch n k s n phẩm t ng t {i1, i2 …ik} Khi nh ng s n phẩm c độ t ng
t nh t đ c tìm h t, d đo n đ c tính toán d a trên trung bình c a đ nh gi
ng i dùng trên nh ng s n phẩm t ng t Đa s c c đ xu t mô t hai khía
c nh này, cụ th là việc t nh to n độ t ng t và các d đo n s n phẩm
Ví dụ minh h a th c t v một hệ th ng l c cộng tác d a trên s n phẩm: Gi s s n phẩm ở đ y là s a và ng i dùng là các kh ch hàng đăng nhập vào 1 hệ th ng We stie đ mua s a M i ng i dùng đ c l u tr trên
Trang 28Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
c c trong quá trình t v n theo ph ng ph p l c cộng tác d a trên s n phẩm:
Bước 1: Tiền xử lý dữ liệu: D liệu đ c thu thập là nh ng đ nh gi
s n phẩm c a ng i dùng D liệu này th ng r t l n tuy nhiên một s đ nh giá có th không c ch trong qu tr nh t v n theo ph ng ph p l c cộng tác
Đ xu t đ c đ a ra đ t i u liệu đ u vào, một s s n phẩm ho c ng i dùng s đ c lo i b n u ng i ng đ đ nh gi qu t s n phẩm, ho c s n phẩm đ c qu t đ nh gi
Trang 29Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2.1.1.Thuật toán tính độ tương tự
Đ d đo n 1 s n phẩm cho 1 ng i dùng s dụng ph ng ph p l c cộng tác c n xem xét đ nh gi c a ng i dùng lên nh ng s n phẩm t ng t
v i s n phẩm đ độ t ng t đ c x c đ nh d a vào đ nh gi c a c c ng i
ng kh c đ đ nh gi c 2 s n phẩm Độ t ng t 2 s n phẩm là 1 xác su t
th hiện 2 s n phẩm đ c t ng đ ng nhau trên khía c nh đ nh gi c a ng i
ng hay không? Độ t ng t ở đ y đ c hi u là n u 2 s n phẩm t ng t nhau th 1 ng i dùng thích s n phẩm này s thích s n phẩm kia và ng c l i
c quan tr ng trong gi i thuật l c cộng tác d a trên s n phẩm là tính
i
j i
U u u U
u u
Uij u
u u
r r
r r
Trang 30Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
M i một s n phẩm đ c đ nh gi ởi n ng i ng và đ c x c đ nh nh là 1 véc-t n chi u trong công th c này, ở đ y nh ng ng i ng đ c ch n là
nh ng ng i đ đ nh gi c 2 s n phẩm i và j Nh vậy theo công th c ở trên,
k t qu là Cosine c a góc h p gi a 2 véc-t đ Và v c c đ nh gi là ng nên, Cosine c a 2 véc-t ằng 1 th hiện 2 s n phẩm t ng t nhau hoàn toàn
v i nh ng đ nh gi c a ng i dùng, cosine c a 2 véc-t bằng 0, th hiện 2
s n phẩm này không t ng t nhau
D a vào công th c 2.1 tính độ t ng t và b ng 2.1 đ nh giá ng i dùng v i các s n phẩm, ta có:
Bảng 2.2 B ng t nh độ t ng t theo công th c Cosine
2.1.1.2 Độ tương tự tương quan
Độ t ng t c a 2 s n phẩm i, j đ c cho bởi công th c sau:
2
) (
) (
) )(
i
j i
U u
j u U
u
i u
j u Uij
u
i u
r r r
r
r r r r
(2.2)
Trang 31Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Trong đ :
Uij = {u ∈ U| rui ≠ Ø ruj ≠ Ø}| là tập t t c ng i ng c ng đ nh gi s n phẩm i và s n phẩm j
B ng 2.3 th hiện độ t ng t c a 2 s n phẩm i, j theo công th c tính
độ t ng t t ng quan Kho ng giá tr nằm trong đo n [-1,1] th hiện m c
độ t ng t theo m c tăng n Giá tr độ t ng t càng l n th hiện s t ng
đ ng v m t đ nh gi c a 2 s n phẩm i, j S tham gia c a giá tr đ nh gi trung nh làm tăng t nh kh ch quan đ i v i c c đ nh gi l n s n phẩm
2.1.1.3 Độ tương tự Cosine điều chỉnh
Tính toán độ t ng t s dụng độ đo osine trong tr ng h p d a trên
s n phẩm có một s trở ng i quan tr ng: nh ng s khác nhau trong thang
đ nh gi gi a c c ng i ng kh c nhau không đ c đ a vào tài kho n Độ
t ng t Cosine đi u ch nh khắc phục nh c đi m này bằng cách trừ trung
Trang 32Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
) (
) )(
i
j ij
i
P p
u u U
p
u u
u u U
u
u u
r r r
r
r r r r
B ng 2.4 th hiện độ t ng t c a 2 s n phẩm i, j theo công th c tính
độ t ng t cosine đi u ch nh Kho ng giá tr nằm trong đo n [-1, 1] th hiện
m c độ t ng t theo m c tăng n Giá tr độ t ng t càng l n th hiện s
Trang 33Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
t ng đ ng v m t đ nh gi c a 2 s n phẩm i, j S thay đổi c a công th c
t nh độ t ng t này so v i công th c t nh độ t ng t Cosine là s tham gia
c a giá tr đ nh gi trung nh r u, r uđ nh gi trung nh c a c c ng i dùng
đ i v i các s n phẩm mà ng i dùng u đ đ nh gi Xem xét giá tr r u này,
gi s 1 ng i s dụng u đ nh gi 1 s n phẩm v i giá tr đ nh giá [1, 5] , v i
ng i u này cho đ nh gi 1 v i các s n phẩm h không thích và 3 v i cách
s n phẩm h r t thích, một ng i ng u’ đ nh gi c c s n phẩm h không
thích là 3 và nh ng s n phẩm h thích là 5, giá tr r us trở thành giá tr phân
biệt gi a thích và không thích, t o ra s c n đ i h n v i các giá tr r tham gia
đ nh giá trong công th c t nh độ t ng t
2.1.2.Tính toán dự đoán và tư vấn
2.1.2.1 Công thức dự đoán dựa trên trung bình đ nh gi sản phẩm lân cận
D a vào công th c đ n gi n nh t đ d đo n c a 1 ng i dùng u lên 1 s n phẩm i là d a vào nh ng ng i dùng lân cận c a u mà đ đ nh giá s n phẩm i
a r
'
N: là tổng các s n phẩm lân cận c a i đ đ c a đ nh gi
Ti: là tập h p các s n phẩm i’ l n cận v i i mà u đ đ nh gi
Trang 34Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
V n đ là ch n ra các s n phẩm i' v i c c ti u ch nh th nào, trong bài toán này, k t qu phụ thuộc vào tiêu chí ch n ra các lận cận c a s n phẩm i
Ví dụ: Gi s v i ví dụ đ c cho ở b ng 2.1 Xét v i các i’ là nh ng
s n phẩm mà u đ đ nh gi và i' là lân cận v i i n u Sim(i, i') 0
Tr ng h p Sim(i, j) đ c tính theo công th c tính độ t ng t Adjusted Cosine Áp dụng công th c ta có th d đo n nh sau cho ng i dùng u1 v i
2.1.2.2 Công thức dự đo n dựa trên tổng trọng số
D đo n đ nh gi c a ng i dùng a v i s n phẩm i đ c cho bởi công
i a
j
T S j
T S j
a
j i Sim
r j i Sim
) , (
) , (