Đặt vẫn dễ Một người sử dụng truy cập một hệ thống thông tin với mục dich tìm kiểm một thông tia cần thiết, có thể phải thực hiện lại truy vấn vải lần và chọn lọc thông qua nhiều kết
Trang 1
_BQ GIAO DUC VA DAO TAO |
TRUONG DAI HOC BACH KHOA HA NOL
Hoàng T'hị Minh Tâm
'TÊN Đ TÀI LUẬN VĂN
CÁ NHÂN HÓA TRUY VẤN DỰA TRÊN SỞ THÍCH NGƯỜI DÙNG
Chuyên ngành : Công nghệ thông tin
LUẬN VĂN THẠC SĨ KĨ THUẬT
Công nghệ thông tin
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS Vũ Tuyết Trinh
là Nội Năm 2014
Trang 2CHUONG IL CAC KY THƯẬT XỬ LÝ TRUY VAN DUA TREN 6
2.6 Xứ lý truy vẫn dựa trên sở thích người dùng <c _-
CHƯƠNG II ỦNG DỤNG TRUY VẤN THƯ VIÊN SÁCH TRUYỆN 33
3.1 Yêu cầu ứng đụng, nnniherreeeerrie 133
Trang 3DANH MỤC CÁC HÌNH VẼ
Hình L Vi dụ về hề sơ người đừng,
Ifinh 2 Vi dn vé a4 thi ca nhân hoa
Ifinh 3 Mét phan 44 thi eA nhan cta lon
Itinh 4 Một cân truy vấn trên đâu trang của một đỏ thị cá nhân
Error! Bookmark not defined,
Bookmark nat defined
Error! Bookmark uel de
Trang 4
T GIỚI THIỆU
1.1 Đặt vẫn dễ
Một người sử dụng truy cập một hệ thống thông tin với mục dich tìm kiểm một
thông tia cần thiết, có thể phải thực hiện lại truy vấn vải lần và chọn lọc thông qua
nhiều kết quả cho đến khi đạt yêu cẩu To sự phong phú thông lin vả người dùng, không đồng nhất trong trang web Những người sử dụng khác nhau có thé mong doi câu trả lời khác nhau cho cùng một truy vấn vì sở thích hay mục tiên không giống nhau,v.v Nhung hau hết các hệ thống tìm kiếm hiện lại chưa đập ứng đuợc yêu cầu
nay
Sẻ thích có mặt ở mọi nơi trong cuộc sảng hang ngày của chúng ta Và gắn đây, chúng dược chú ý nhiều đến trong việc phát triển phản mém, điền hình trong các ứng
dung tim kiếm thông tin Sẻ thích trong thê giới thực được thể hiện trong nhiều dạng,
khác nhau như là mợi người cỏ thông tĩn về một đối tượng nào đó Chúng ta làm một cuộc kiểm tra về những biểu lộ tự nhiên của con người khi ước muốn về một van dé gi
đỏ Cuộc sông hàng ngày với sự phong phú của sở thích đến từ sự cảm nhận hoặc ảnh
Hưởng khác Trong thế giới thực nảy, nỏ trã lại một cách nhanh chống những mong
muốn thường xuyên xảy ra, như lá “tôi thích A hơn К”, Loại ưa thích nảy lả phổ biến
và trực quan cho mọi người Nghĩ đến sở thích có nghĩa là mang muốn “tốt hơn”, điểu
này cũng có chút liên quan đến toán học: Toản học có thé anh xạ chúng vào thành một: thứ tự bộ phận chặt Con người thường xuyên đề cắp đến vẫn để sự tra thích, thông thường với nó là kháng điễn tâ trong phạm vi con số cụ thế Sở thích là một trình bày
76 rang cụ thể dựa trên một tập các thuộc tính định danh với một miền quan hệ của giá
tri, theo cách nói ấn đụ là “thuộc về ướe muốn” Cụ thé hen, sở thích có thể được thé
Tiện qua giá trị ũa các thuộc tính, và qua mỗi quan hệ giữa các thự thể Những giá trị
Trang 5của các sở thích hoàn toàn có liên quan Mỗi quan hệ giữa cáo sở thích chỉ ra mức dộ nao, néu có, các yêu tề liên quan phụ thuộc lẫn nhau (bởi sẻ thích đặc biệt của nhan)
Nhưng cũng có một phần khác của thể giới thục luôn hướng tải là tiết kiệm chỉ
¿ đuợc
phí hoặc công nghệ đưa ra phải tối ưu Một cách dé hiểu hơn là xép hang of |
được xem như một phần ctia sé thich Do đó mô bình sở thích như là một ràng buộc không trọn vẹn, điều này đã từng được chứng tê trong nhiễu ngành khoa học khác
nhau, đặc biết là trong Khoa loc may tính và các môn học Và việc hmu sở thích người
dùng có ý nghĩa rất lớn:
(1) Ngữ nghĩa trực quan: Sở thich déng vai trỏ quan trọng trong xử lý mô hình Diéu
xây đôi hồi một cách lực quan và giỗi thích rổ ràng của hệ thông tìm kiếm Mô hình số
thich người dùng nên bao gém biểu diễn ph ¡ số như là phuong pháp phan hang
(2) Nén tang toản học ngắn gọn: điều nảy là tất yếu, nhưng nên tăng toán học phải
được căn đổi với ngữ nghĩa trục quan
3) Xây dựng và mở rộng mô hình sở thích: Sỏ thích đây đã được xây đựng quy nạp từ
các vận đề đơu giản
(4) Các xung đột của các sở thích phi không là nguyên nhân làm cho hệ thẳng bị lỗi
kết cấu động của sở thích phức tạp phải được hỗ trợ ngay cá trong sự có mặt của sự
xung đột Mê hình sở thích thực hiện có thể tổn tại cùng với sự xung đột, không ngăn
chặn chủng hoặc gây ra lỗi nêu chúng xảy ra
(5) Xây dụng truy vấn sở thích Sự phù hợp trong thế giới thực lầm cầu nối giữa những mong muén và sự tin cậy Sự thể hiện này là cần thiết cho một mô hình truy vẫn mới
khác phủ hợp với mô hình của ngôn ngữ truy vấn cơ sỡ đữ liêu đã có trước đây
Vi vay, néu la lưu trữ sở thích của người dùng, hệ thông sẽ có cơ hội trả vẻ kết quả tập
trung hơn, phạm vi tìm thấy là nhỏ bơn, và làm hải lòng người dùng hơn.
Trang 6Với những l¡ do trên đây, luận văn nảy nhằm mục dich tim hiểu về “Cá nhân hóa truy vẫn dựa trên số thích người đùng” và xây đựng ứng dụng “Tìm kiểm thư
®_ Tìm hiểu về sở thích người đảng và ảnh hướng đến quả trình đánh giá truy vấn
«Tim hiểu các kỹ thuật cả nhân hóa truy vẫn
«_ Xây dựng ứng dụng minh họa
1.3 Bồ cục luận văn
Đề tài “Cá nhân hóa truy vẫn đựa trên sở thích người đùng” và tng dung demo
“Tim kidm thư viên sách truyện” dược chia làm 3 chương rữư sau:
Chương 2: Kỹ thuật truy vẫn dựa trên sở thích người dùng,
Tìm hiểu về mô hình hóa sở thích và các kỹ thuật xử lý truy vấn dựa trên sở thích:
người dùng,
Chương 3: Ứng dụng truy vẫn thư viện sách truyện
Xây dụng ứng dựng thư viện sách truyện áp dụng kỹ thuật truy vẫn dựa trên sở thích 1ugưòi dùng để tìm kiếm
Kết luận: Tổng kết lại vẫn để nghiền cứu và một số hưởng nghiên cứu lrong Lương lai
CHUGNG IL CAC KY THUAT XU LY TRUY VAN DUA TREN
SỞ THICH NGUOT DUNG
Chúng ta tập trung vào các sở thích trong các hỗ sơ người đủng va các thuật
toan cá nhân hoá truy vẫn Sở thích là mội khái niệm cơ ban trong loán học ứng dung
[7], triết học [#], Al [20], và cơ sở dữ liệu [15] Việc xác định sở thich [13] cần được
xây đựng cụ thể, đo đó không xem xét cáo khả năng hạn chế tủy ¥ trong hé so người
Trang 7dùng, Bên cạnh đó, cả nhân hỏa lả một lĩnh vực nghiên cứu rất rộng, và có cách tiếp cận khác nhau từ lọc thông tin tới đổi tượng của bài toán [19, 11], các tác nhân [2] về
bểi cảnh truy vấn, chẳng hạn như vị trỉ người sử dụng, thời gian, thiết bị , phương,
pháp tiếp cận cả nhân hoá truy vẫn [18,4] của Georgia Koutrika, Yannis loannidis [16]
và cơ sở đữ liệu [14] là nên tảng cho dé tai nay
Trước hết, cá nhân truy vấn là quá trình thực thả một truy vẫn liên quan đến sở thích được lưu trữ ương một hồ so người dùng với mục đích cúng cấp câu trễ lời cá nhân Các truy vấn tập trung vảo người dùng tao ra một sự thay đổi hướng tỏi “cả nhân", mợi tính toán đều đựa trên những: đặc điểm của mỗi người [18]
Gáo thành phần cần thiết cũa cá nhân hóa truy vẫn gồm nội mô hình để lưu trữ các sở thích, một phạm vi xác dịnh loại câu trã lời cả nhân tạo ra cho một truy van va
hổ sơ người sử đụng, và các thuật toán cá nhân hỏa truy vẫn Một câu trà lời cá nhân được xây đựng bôi việc xác định K số các sở thích ưu liên hàng đầu Lừ các hỗ sơ người
sử dụng, và số L (L < K) những tiêu chỉ mả it nhất làm hài lòng người đừng Tham số
Một hệ thẳng cân năm bắt mức độ khác nhau của sự quan tâm [1], và truy vẫn trã về các bộ dứ liệu phù hợp nhất đi kèm các bộ đữ liệu so sánh khác Trong chương nảy, tôi tìm hiểu đẩy đủ các vấn đề liên quan đến các biến thẻ của sở thích, liên kết giữa các sở thích, kết quả truy vân được xếp hang đụa vao mức độ quan tâm Từ đó
giải quyết bài toồn cả nhân hỏa truy vẫn và xây dựng ng dụng mình hợa.
Trang 83.1 Biểu diễn sử thích
Để cả nhân hoá, chúng ta xây dựng cho mỗi người dùng một hỗ sơ cả nhân cỏ
cầu trúc liên quan đến mô hình truy vẫn Không mắt tính tổng quát, chíng ta tập trưng,
vào các truy vẫn lrên cơ sở dữ liệu quan hệ Hỗ sơ số thích người dùng thể hiện một đồ thị ở mức độ cao hơn so với các lược để cơ sở đữ Hệu, là sự kết hợp sở thích với cơ sở
dữ liêu Đây lả một sự trừn tượng hóa bằng cách sử đựng một hỗ sơ cá nhân trên nhiều
cơ sở dữ liệu với thông tím tương tự nhưng có thể khác nhau ở các lược đỏ, và lái cầu
trúc lược đề
Dổi với một thuộc tính RA của một bắng quan hệ H, cho DA là miễn giá trị
Chúng ta lập trung vào cá nhân hỏa truy vẫn, lưu tít các sở thích ở mie độ truy vẫn
con, do dỏ được gọi là thành phân sở thích Các giả trị sở thích được lưu ưữ như là
dei (q), dược định nghĩa như sau
doi(q) = < dT(u), dF(u) >
với V u€ DA đáp ứng điều kiện q, đT(0), dF(u) € [-1,1] va dT(u)*dF(u) <0
Với định nghĩa này, ta phân biệt 3 yêu tổ có liên quan tới các sở thich: Hóa trị, mức độ
quan tâm, độ đàn hài
“Hóa trị (Ealence) Sở thích xất đa dạng, nó có thé là tích cực (thẻ hiện sự ưa thích), tiêu
cực (thế hiện không thích) hoặc không quan tâm Chúng được biểu điễn tháng qua hai giá tri dT () và đE(u) đối với mỗi n€ DA Trong đó đT (nụ thế hiện sự ưa thích của sở
8
Trang 9thích tích cực, cho thấy mức độ quan tảm tới u (mức độ 1 lả rất thích) Va dk (u) biểu
điển mức độ không quan tâm tới n, mức độ khảng thích ngày cảng tăng khi dF cang
giảm (mức độ -1 là giá trị khó chịu nhật) Mức dệ về 0 cho thấy sự không quan tâm tới 1u, Sở thích với đi (u) = dÈ (u) =0, không được lưu trữ trong hỗ sơ
Mức độ quan tâm (Concern) Sở thích cò thê là sự hiện điện (liên quan đến sự có mặt của các giả trị) hoặc không có (liên quan đến sự vắng mặt của giá trị) Một mới quan
<dT (u), đF (nỳ> Theo định nghữa, đT (u)
tâm gủa người sử dụng được thể hiện bởi
thể hiện một mỗi quan tâm của người dùng cho sự cỏ mặt của giá trị u của thuộc tính
RA đFúp) thể điển một mối quan lâm của người cùng cho sự vắng mặt của cùng một giá trị dang xét Sự quan tâm mạnh mẽ tới sự có mặt của u cỏ thê được kết hợp với sự không quan tâm đến các giá trị khác u hoặc quan tâm nhiều hơn tới các giá trị đó (vắng,
xnặt 0)
Tính đàn hội (Flasuicuy) Số thích có thể là chính xác hoặc đàn hội phụ thuộc vào các mién DA là giá trị tuyệt đối hoặc bằng sẻ
Nếu miễn DA là giả trị tuyệt di thì với sự dộc lập lấn nhau của các giả đỏ, các
sở thích được coi là chính xác hoặc đàn hỏi hoặc không ở tắt cả
Với sở thích biếu diễn bởi các giá trị số liên tục Hiên miễn DA và có thể đáp ứng, dược yêu cầu người dùng, trong trường hợp đó, nó dược coi là dân hồi Độ dân hồi xác định bởi hàm dĩ (u), vá dị (u) Có rất nhiêu hàm có thể biểu diễn các sở thích đản hồi
Bé đơn giản, chúng ta sử đụng e (đ) đế biểu điển một hàm đản hỏi để phân biệt với doi(q) (sở thích chính xác) e(đ) cũng cỏ miễn giả trị từ -] đến 1
Từ 3 yếu tế trên ta có thể phản loại được số túch: Sô thích tích cực, số thích
tiêu cưc; Sở thich có mặt, sở thích vắng mặt, Sở thích đàn hỏi
Vi dy: Hãy xem xét một cơ sở dữ liệu phim được mô tả bởi lược đổ dưới đây, khóa
chính được gạch phân
Trang 10THEATRE(tid, name, phone, region, ticket),
PLAY (tid, mid, date), GENK E(mid, genre)
MOVI(mid, title, year, duration)
CAST (nud, aid, award, role) ACTOR(aid, name}
DIRECTED\mid, did), DIRECTOR(did, name)
Một bộ phim chiếu rạp cỏ các thông tm liên quan như tên phim, nãm sản xuất, thời lượng, nhà hát chiều bộ phim đỏ (tên, điện thoại, địa điểm, vé), lịch chiếu phim, thể
loại phim, điễn viên chính, đạo điển Jơn muốn lựa chọn một bộ phảm để đặt vé, chứng
ta quan tâm đẻn sở thích của ông ây Sở thích của ion được phát biểu như sau:
(pl) Ong rất thích giảm đốc W Allen
(p2) Ông ấy không thịch bộ phim phat hảnh trước năm 1980,
(3) Ông ấy thích một vẻ giá khoảng 6 Euro
(p4) Ông ấy thích bộ phim có thời lượng dao động khoảng 2h
(p5) Ông ấy thật la hạnh phúc nếu bộ phim không phái là một vở nhạc kịch
(p6) Ong sẽ không di dén nhà hát không ở trung tàm thành phó
Theo dé, ta phân biệt được các loại sé thích cúa Jon như sau:
và
là một thể hiện của một sở thích tiêu cực (không thích)
a trị, pl, p3 là một thể hiện của một sở thích tích cực (sy wa thich), va p2, p5, p6
Vẻ mẻi quan tâm, người ta có thế quan tâm đến sư hiện điện (có mặt) của mêt giá trị,
heặc không quan tâm đổi với trường lợp ngược lại Ví dụ: Jon có mỗi sự quan tâm tích cực đổi với bộ phim của đạo diễn W Allen (sở thích có rnặt), nhưng ông không quan
tam néu W Allen không phải là đạo diễn bộ phim đó Mặt khác, ông thích nha hat
trung tâm thành phó và ông không thích dến một nhà lát không ở trung tâm Vậy p1 là
10
Trang 11sở thích có mặt, p2, p5, p6 lả sở thích vắng mặt Trong dỏ, p6 lả sở thích kết hợp sự có mặt tích cực và vắng mặt trêu cực như là một, đó là một sở thích phức tạp
i pl, p2, p5 và p6 là trường hợp của các sở thích chính xác.Tuy nhiên, ưu
tiên ofa Ton cho các bộ phùa với thời gian khoảng 2 giờ có (hẻ co giãn, như phim diễn
ra khoảng 122 hoặc L15 phút có rnức quan tâm tương tự đổi với ông ta, Vì vậy, p4 là
mét s6 thich dan hồi p3 cững tương tự p4
3.1.2 Số thích tham gia
Thành phản tham gia là biếu điễn cho mỗi quan hệ giữa các sở thích chọn lọc
Một sở thích tham gia q được thé hiện bằng mức độ quan tâm dén q, doi(q), quy định
Thư sau:
doi (q) = <d>, d € [0, 1]
Giá trị bằng 0 thể hiện sự không quan tâm đến các điều kiện tham gia, trong khi mức 1
cho biết sự quan tâm tối đa (phải có) Ngoài ra, các thành phân tham gia sở thích được
xác đình bởi chỉ số mức độ khác nhau nằm trong đoạn [0,1]
Vi dụ, xét cơ sở dữ liệu phim và hỗ sơ số thích của Tơn được bộ sung thém nhur sau:
(p7) Ong rat quan Lâm đến đạơ điển của một bỗ phim
(p8) Ông quan tâm rất nhiều về thể loại phim
(P9) Ong quan tam it hon về các nhà hát chiếu một bộ phẩm
{p10) Ông quan lâm rải nhiều về những bộ phím của một nhà hát
Ö đầy, phím và nhà hát có liên quan nhưng Ten nghĩ rằng nhà hát phụ thuộc vào phim (p10) nhiều hơn sơ với thuộc tính khác thể hiện trong (p9) Vi vậy, một thành phân tham gia sở thích thể hiện sự phụ thuộc của phần bên trái đổi với phân bên phải
liên kết Nói cách khác, phản bén wai cho thấy mối quan hệ dã dược bao gồm trong một truy vẫn và quyển tương ứng với các mối quan hệ có thể ánh hưởng đến kết quả
"
Trang 12cuỗi củng, nếu thành phần tham gia dược xem xét Hình 2 cho thấy hỗ sơ của lon cò
thể như sau:
Z Sẽ thích chọn lạc
< DIRECTOR name=W" Allen’, 0.8, 0>
(Jon thích bộ phim do W Allen lam dao dién véi mic 46 quan tém aT = 0.8 và ông
không phát biểu gì đổi với những bộ phim eda dao dién khac dF 0)
< MOUTF.vear< ï 980,
(Ông ay thích những bộ phim cô năm sản xuất ›z1980 đT — -0.7 và không phát biểu đối
voi gid tri khac dl = 0)
< THIATNH tieket='6Huros", e(0.5), Ø >
(Ông ấy thích những bộ phim có giá đao dộng khoảng 6Huro với mức độ quan tâm đT= 0.5 và không phát biến đối với giá trị khác dF = 0)
« MOVIE duration= 2h", e(0.7), e(-0
(Ông ảy thích những bộ phim có thời lượng dao động khoảng 2h với mức độ quan tâm
aT 07 và cũng quan lâm đến bộ phim có thời lượng khác với mức độ đF -0.5)
< GENRE genre='musical’, -0.9, 0.7 >
(Ông ấy không thich thé loai ‘musical? dT -0.9 mã thích thể loại khác với mức độ
quan tâm đF= 0.7 )
< 1HIHTINH region— 'downtewn" 0.7, -0.5 >
(Ông ây thích nhà hát ở trung tâm thành phố với mức độ quan tâm đÏ'=0.7 và với nhả
hát không ở đó thi mức đô quan tâm đF= -0.5)
Z Sẽ thích tham gia
< MOVIF.mid=DIRECTED mid, 1 >
Trang 13<DIRECIED.did DIRECTOR did, 0.9 >
Một sở thích của người đùng đôi với các nội đưng của một co sé dit liu od thé
được biêu điễn bằng một để thị cá nhằn|14| Đây là mệt đồ thị có hướng G(V,E) CV tập các nút, H; tập cáo cạnh) và nó lả một phần mở rộng, của lược dỏ cơ sở dữ liệu,
Vẻ kỷ hiệu, <q, đfáu), dF(u)> để biểu thị một thành phần chọn lọc sở thích p,
và <q, đ> biểu thị một thành phân tham gia sở thích
Khi đó, ánh xạ từ hỗ sơ cá nhân của Jon ta cẻ đồ thị cả nhân tương ứng như sau:
Trang 14Các nút trong tập V phân biệt thánh những loại như sau:
(a) Cac mit mdi quan hệ, mỗi nút là một quan hệ trong lược dé
(b) Các nút thuộc tính, một nút cho mỗi thuộc tính của mỗi quan hệ trong lược đỏ
(e) Các nút giá trị, một nút cho mỗi giá trí của mức dộ thích từ một người đủng cụ thể, Xét hình 2, cac mit méi quan hé: THEATRE, GENRE, PLAY, MOVIE;
Cac mut thuge tinh: 72D, MAME, PHONE, TICKET,RHGION, MID, GENRE,
Cac mut gia tri: 6 euros, downtown, musical, 1980
Tương tự như vậy, các cạnh trong tap E eting plan Joai như sau:
(a) Canh lựa chọn biểu diễn cho thành phân chọn lọc sở thích, nhãn của cạnh lả giá trí
dT, đE của thành phân chọn lọc
(b) Canh tham gia biểu diễn cho thành phần tham gia sở thích, nhãn của cạnh là giả trị
d của thành phần tham gia
3.2 Sử thích Ân
Bằng cách xét thành phần sở thích trong đồ tì cá nhân (composable), người ta có thể xây dựng các sở thích ân (Implieit preferenees), tức là, sở thích thể hiện thông, qua các
mi quan hệ Sở thích Ấn có thẻ hình thành khi được ánh xa cho:
I Một đường dẫn trong đồ thị cá nhân từ một mút thu tính tới một nút giá trị Khi đó,
tỏ bao gồm các canh tham gia và nút giá trị
+ Một dường dẫn nói
tham gia và một cạnh lựa chọn kết nối các thuộc tỉnh và giả trị tương ủng
giữa dường giữa hai nứt thuộc tính Khi đó, nó bao gồm cạnh
Một truy vẫn ngâm là kết hợp của những thành phân sở thích ân cầu thành Múc
độ quan tâm trong mét sở thích vắng mặt là một hàm cña mức độ quan tim trong thành phan tham gia sở thích Về nguyên tắc, ta có thể xây dựng một số hàm thoả mãn diều
14
Trang 15kiên lả mức đô quan tâm tuyệt đối trong một sở thích ân giảm khi chiều dai đường dân
Hình 3 Một phần đồ thị cá nhân của Jon
Trong hình 3, đường dân nỗi nút giá trị “W.Allen' với nút thuộc tính °MOVTE.MID' là
cạnh lựa chọn có nhãn (0.8, 0) với cạnh tham gia [a] và cạnh tham gia [b] Sở thích của
Jon về các bộ phim của đạo điễn W Allen được bao gồm sở thích ân biểu diễn thông
Trang 16Luu y ring bat ky con đường trực tiếp nào trong, dỏ thị cả nhân cỏ thẻ lập bản đỏ
sở thích ngẫm Tuy nhiên, ná còn căn cử vào trực giác của con người và bằng chứng
nhận thức|6|
2.3 Kết hợp các sở thích
Sự bài lòng (SatisfaetionJ của một thành phần chọn lọc sở thích hoặc sở thích ấn
<q, dT, dE> la tương dương với sự thỏa mãn của q nếu dĩ > 0 hay không quan tam dén
q nếu đF > O Như vậy, doi trong sự hài lòng của sở thích kí hiệu là đ* (0) và mức độ
không quan lâm đến kí hiệu là đ (u) với
đỶ (0) = max (dT (0), dÈ (0) (néu dT > 0)
d- (u) — min (dT (u), dF (u)) (néu dF > 0)
Vi dy Hãy xem xét những lựa chọn ưu tiên eda Jon,
«<DIRECTOR.name ‘W Allen’, 0.8,0> (1)
<GENRE genre ‘musical’, -0.9,0.7> (2)
Các bộ dữ liệu thỏa mãn nếu đáp dng dược cả hai điều kiện: (1), các bộ phu phải là của đạo điển W Allen (đ[=0:8; dI'=0) và (2) là bộ phim không thuộc thể loại nhạc kịch (đT -0.9; dF 07)
Tổng thể của mức độ quan tâm là kết quả của việc kết hợp các sở thích được tính toán
sử dụng một hảm xép hạng Trên cơ sở phản biệt các trường hợp sau đây:
(a) Tat
€ sở thích là tích cục (kết hợp lich cuc) (b) Không trường hợp nào trong số các sở thích dược chấp nhận (kết hợp tiêu cực)
(6) Một số sở thích là tích cực và những trường hợp khác là không (hỗn hợp)
Kết hợp các sở thích tích cực Hãy xơm xếi một lập hợp P, của Ñ, sở thích và
thiết lập các D, tương ứng với sự hải lòng (khỏng âm) (để dơn gián ta bö qua tì):
Trang 17D, { di! di!: doi trong pie P,,i 1 N,}
Mức độ quan tâm đến một sự kết hợp tích cực phãi là một giá trị của di! Một tham số
quan (rong trong van dễ nảy là giá trị lớn nhất (D,) Xung quanh nó, người lá có thể thấy được ba vẫn để khác nhau
Lam phat (Inflationary) Muc dé quan tâm dến các sở thích hài lòng tầng với số lượng cúa các sở thích, tức lả, ?†(D„) > max (D,), thể hiện một triết lý "cảng tốt hơn”, Các hàm để xuất
Riêng biệt (Reserved) Mức độ quan tâm đến nhiều sỡ thích hài lòng giữa mức
cao nhất và mức thấp nhát của sự quan tim trong số các sở thích ban dầu, tức lả
min (D,) <r! (D,)<max (D,) Nguyêu tắc vo bản là mức độ quan tâm đáp img nhicu
sở thích chú yếu phụ thuộc vảo tắm quan trọng của chúng
Cac ham sau đây thuộc thể loại nảy:
xở =1- ]JTA-dj/N
im
Su phù hợp của một hàm xếp hạng chỉ được đánh giá theo cách tiếp cận đối với
cả nhân và, quan trọng hon, bang cách nỏ phan anh chặt chế hảnh vi của con người
Sự kết hợp các sở thích tiêu cực Một yên đề tương tự phát sinh liên quan đến mức dộ
quan tâm dén các sở thích tiên cực, tức là, xử lý với nhiều mức độ không tích cực trong,
Trang 18một bộ D_, Trường hợp này là ngược lại với phân trước đỏ Các tham số quan trọng là min (D ) và người ta có thể xác định lạm phát, tu thể, vả riêng biệt các hàm xếp hạng
Các đối số của r1! và r2'ỡ trên, là như nhau, chỉ thay đổi *L! và !2
Hén kết hợp Mức độ quan tâm của sự kết hợp giữa độ tích cực (D,) và độ tiêu cực (D_} 1a một hàm của mức độ quan tâm đáp ứng điều kiện sau:
2.4 Thứ tự ưu tiên, xếp hạng
Các khái niệm về múc độ tới hạn được đưa ra đề xếp hạng sở thích và hưa chọn top K của chúng Như vậy, sở thích được quan lâm nhất và ngược lại lương ứng với d! cao nhất „ và d— thấp nhất
Trang 19Cn ct vao muc dé tdi han, sé thich dược sắp xếp theo thử tự như sau:
Vi dụ 4 Những sở thích từ hỗ sơ cả nhân của lon
pl: < DIRECTOR name="W Allen’, 0.8, 0>
pé: < MOVIE duration~‘2h’, (0.7), e(-0.5)>
pS: < GENRE genre musical’, -0.9, 0.7 >
dược sắp xếp theo thử tự giảm mức dộ tới hạn như sau:
pd (C5 = 1,6), P4 (o4 = 1.2), pl (cl = 0,8)
Hãy xem xét một sở thích ngẫm với mức độ tới hạn cạ Đối với bắt kỳ thành phần dan
gia sở thích với một múc dộ tới hạn c;, rằng buộc sau đây có dược bằng cảch áp dựng
toán học đơn giản:
ce < 2¥cy (8)
2.5 Lựa chụn sở thích sử dụng cho truy vẫn
lước đầu tiên của truy cập cả nhân hoả truy vấn là việc khai thác các sở thích
top K (quan trọng nhất) liên quan đến mệt truy vẫn Sở thích có thế ở mức sú pháp
thoặc ngữ nghĩa Số thỉch mức cú pháp, nêu nó ánh xạ đến một đường thuộc đồ thị truy vấn Dây là một đỏ thị top K của lược để cả nhân, nó bao gồm tắt cã các rrút tương ứng, với các mỗi quan hệ liên quan đền các truy vẫn, tất cả các cạnh lưa chọn và cạnh tham gia tương ứng với các diễu kiện của các truy van gọi dén Vi dụ, truy vấn trong hình 4
select title
from MOVIE M, PLAY P
where M.mid P.mid and P.dale ‘28/07/2008
được mỏ tà bằng màu xám trên đỗ thị cả nhân lương ứng với hỗ sơ cả nhân của Jor,
Trang 20
Hình 4 Một câu truy vấn trên đầu trang của một đỏ thị cả nhân
Một sở thích ẫn liên quan đền truy vẫn nảy là:
MOVIE mid=GBNRE mid and GENRE.genre='eomedy` bởi Jon không thích thể loại
‘musical’, *eomedy°# 'musical”
Tham số K được quy định cụ thẻ với việc sử dụng một số tiêu chí Ví dụ, một tiêu chuẩn dựa trên mức độ tới hạn sở thích, cỏ thẻ chỉ định top Š sở thỉch hoặc sở thích với
một mức độ tới hạn trên một ngưỡng cọ, hoặc lựa chọn một tiêu chỉ dựa vào mức độ
quan tâm mong muôn ở kết quả, có thê chỉ định kết quả với mức độ> 0,8
Ý tưởng xây dựng Với đỗ thị tương ứng với một người sử dụng G với hỗ sơ cả nhân và
đồ thị truy vẫn trên của biểu đỏ nảy đại điện cho một truy vân Q Hãy xem xét Py, tap
hợp của tất cả pi đường dẫn G cỏ liên quan đến Q theo thứ tự giảm dần của mức độ tới
hạn ¢;, nghĩa lả
Ðy={pilie I1, N], €¡¡ > c¡ }
Các thiết lập sở thích có thể ảnh hưởng đến các truy vẫn, dựa trên một số tiêu chuẩn độ
tới hạn C(), là tập hợp con đã ra lệnh P¿ = {pi |¡ € [1, K, c¡_¡> c¡} của Pụ mã:
Trang 21k=max ({ t[ te [L X]: CŒ,) holds })
Một thuật toán lựa chợn sở thích được xây dựng rên cơ sở gắn liên với truy ván phụ trên đỏ thị cá nhân Ở theo hướng giảm dần cúa mức độ tới hạn Xem xét đỏ thị cả nhân được mê tả trong hình 5 Để đơm giản, thuộc tính và giá trị liên quan đến thành phần
tham gia và thành phan chọn lọc sở thích được bỏ qua Mỗi cạnh dược đán nhãn với mite 46 161 han của sở thích
Hình 5 Vi du dé thi véi mite d6 161 han
Ta thay tính gắn bỏ mạnh bị mắt đi đối với các mức độ tới hạn của sở thích ấn To đó, một cây tốt nhất đầu tiên của đồ thị không dâm bảo sở thích ân được tạo ra theo thứ tư
dùng, Thật vậy, AläDs1 không quan trọng hơn AliI's2
Một sở thích lựa chợn ấn có thể lá đầu ra kết quá truy vẫn chỉ khi nó quan trọng, hen sở thích lựa chọn quan trọng nhất không nhìn thấy (meau) Dựa trên công thức (8), sau đỏ xét đến thành phần tham gia ẩn quan trọng nhất, tiếp theo là một thành phần
chọn lọc với mức độ tới hạn bằng 2 De đẻ, một sở thích lựa chọn Ấn có thể được coi là
đầu ra chỉ khi nó có môi mức độ tới bạn tối thiểu bằng mức độ tới lựn tham gia nhân hai Nếu không, các thuật toán nên mở rộng cạnh tham gia và kiểm tra đường din con lại xuất phát tử nó
Giả sử rằng thành phan tham gia ấn quan trọng nhất được theo san bôi một thành phần chọn lọc với một mức dỏ tới hạn bằng 2, dự tỉnh trường hợp xâu nhất mcst
-_ Mục dich: Lựa chọn sở thích dễ xác dịnh dường đi cỏ chỉ phí rẻ hơn
Trang 22-_ Đầu vào của thuật toàn sẽ là nức độ tới hạn của hầu hết các thành phần chon lec 36 thích sau đó đến thành phân tham gia sở thích
-_ Đầu ra Kết quả là một cây dâu tiền tốt nhất của dỗ thị cá nhân G dựa trên kết quả c
*fo At cử khi nào một sở thích lửa chọn được xây dựng, nó lá đầu ra ngay lập tức
-_ Xử lý: Thuật toán FakeCrit
Môi lựa chợn lên íL cú phí có mức độ tới hạn tạm thời Íe, quy định: Đổi với mỗi cạnh lựa chon, fe được thiết lập là 1 Dối với mỗi cạnh tham gia, fc được thiết lập tối
đã mức độ tới hạn của tái cả cáo cạnh sau này Nếu một trong chúng là tham gia, mic
độ tới hạn dược nhân với 2
Thuật toán FaleeCrit dùng để lựa chọn sở thích có đường đi với một mức đệ tới Tem e và mức độ lới hạn tạm thời le, như thể nó là một số thích lựa chọn dn với mức độ
tới hạn bằng c*fc (thay vi củ
Mục đích là tạo ra P„ của top K sở thích dựa trên một số tiêu chuẩn C(.) Một
hàng đợi Q; sở thích được lưu giữ theo thứ tự giãm của e * fe Ban đầu, nó bao gồm
thành phần sở thích liên quan đến truy vận Trong mỗi vòng lập, thuật toán chọn Lừ Ớa phan lử đầu p Nếu p là một sở thích đáp ứng tiêu chuẩn Ở (P„ U {p}), thì nó là đầu ra Nếu p là một số thích tham gia đắp ứng tiêu chuẩn Ở (Py U {p}), thi sau dé, nó được
mỡ rộng vào các đường dân dài hơn bằng cách thêm vào Ợp Một đường di mdi p A
AG được tạo ra cho mỗi 4€; thành phần sở thích với p Những thành phần số thích
được coi là trong thứ tự giảm dan e * fo Một đường đi mới được đặt vào Ợø: (a) nếu
nó phát triển một quan hệ thành p hoặc Q, bởi một chủ ký được tạo ra, (b) néu két qua của mức độ tới hạn cũa nó và múc độ tới hạn tạm thời (Gpạ * Í{€pA) <cạ, tiêu chuẩn C
xác dịnh rằng sở thích top K phai có một mức dé tei han lon hơn cạ>› 0
Thuật toàn dừng khi tắt cả các sở thích top K được hình thánh
Trang 233.6 Xử lý truy vấn dựa trên sử thích người dùng,
Việc sỡ thích top K được tích hợp vảo các truy vẫn người dùng vả trá về một cảu trá lời
cá nhân Diễu này sẽ tương đương với:
(a) Gợi sự quan iâm cho người sử đụng, tứa là nỏ phải đáp ứng (it nhất) tiêu chí L từ sở
thích tep K
(bì Xếp hạng đựa trên mức độ quan tâm
(9) Tự giải túeh Đôi với mỗi bà dữ liêu trả về, các sở thích hải lòng và / hoặc không
cần được cung cấp đẻ giải thích cho lựa chọn vả xếp hạng của nó
Sau đây mô tả hai cách tiếp cận cho việc phát sinh các câu trả lời cả nhân Sở
thích đàn hồi được chuyến thành điểu kiện phạm vi thích hợp bằng cách sử dụng mệt
bộ quy lắo truớc khi chúng có thể được chến vào mội truy vẫn
3.6.1 Phương nhản SPA
Câu trả lời cá nhân hoá đơn giản (Simply Personalized Answers-SPA)
Phương pháp SPA là cách tích hợp sở thích top K vào truy van ban đầu vả xây dụng, một truy vân mới Trên cơ sẻ xây đựng các truy vẫn cá nhân là sự kết hợp của một tập hợp các truy vấn con, mỗi truy vấn là ảnh xạ một một hoặc nhiều các sở thích K dã chọn Mỗi truy vẫn con được xây đụng bằng cách mở rộng các truy vẫn ban đầu từ một điều kiện phù hợp liên quan đến các thành phân tham gia sở thích Truy vẫn con này cũng trá về mức độ quan tâm tich cực của các sở thích tương ứng Nễu nó có chứa một
sở thích đản hồi, thì hàm đản hồi tương ứng cung cấp mức độ quan tâm trong mỗi bộ
dữ liệu [14], để né có thế xử lý các sở thích đàn hồi và sở thích vắng mặt Ví dụ: Giả sử Jon gửi một truy vấn đơn gián
-_ #Xẩu vào: Câu truy vẫn ban đầu vả sở thích top K
-_ Đầu ra: Kết quả cả nhận hóa đụna trêu sở thích nguời đụng: đã cung cấp
- Meh