Mục đích của luận án nhằm nghiên cứu các thuật toán khai phá tập phổ biến, tập phổ biến có trọng số và tập lợi ích cao. Xây dựng mô hình, điều kiện, cấu trúc dữ liệu nhằm giảm không gian tìm kiếm và dựa trên cơ sở đó để xây dựng các thuật toán khai phá tập phổ biến có trọng số và tập lợi ích cao.
Trang 1M Đ U Ở Ầ
Khai phá lu t k t h p là m t trong nh ng k thu t quan ậ ế ợ ộ ữ ỹ ậ
tr ng nh t trong khai phá d li u. M c đích chính c a khai ọ ấ ữ ệ ụ ủ phá lu t k t h p là tìm ra m i quan h gi a các ph n t khác ậ ế ợ ố ệ ữ ầ ử nhau trong c s d li u. Bài toán khai phá t p lu t k t h p ơ ở ữ ệ ậ ậ ế ợ
g m hai bài toán con đó là khai phá t p ph bi n và sinh lu t ồ ậ ổ ế ậ
k t h p. Trong đó, bài toán khai phá t p ph bi n đã thu hút ế ợ ậ ổ ế
đ ượ c nhi u nhà nghiên c u trong n ề ứ ướ c và th gi i quan tâm ế ớ
Nh ng khai phá t p ph bi n ư ậ ổ ế truy n th ng ề ố trong th c t v n ự ế ẫ còn nhi u ề h n ch , không đáp ng đ ạ ế ứ ượ c nhu c u c a ng ầ ủ ườ i
s d ng ử ụ nh đánh giá s quan tr ng c a t ng ph n t trong ư ự ọ ủ ừ ầ ử
t ng giao d ch hay trong c s d li u ừ ị ơ ở ữ ệ Đ kh c ph c nh ng ể ắ ụ ữ
h n ch c a ạ ế ủ khai phá t p ph bi n ậ ổ ế truy n th ng ề ố , nhi u nhà ề nghiên c u đã đ xu t mô hình m r ng ứ ề ấ ở ộ trong đó có tính đ n ế
m c đ quan tr ng khác nhau c a các ph n t trong c s d ứ ộ ọ ủ ầ ử ơ ở ữ
li u nh : khai phá t p ph bi n có tr ng s ệ ư ậ ổ ế ọ ố WFI; khai phá
t p ậ l i ích cao ợ HUI.
M t trong nh ng thách th c trong khai phá t p ph bi n có ộ ữ ứ ậ ổ ế
tr ng s và t p l i ích cao đó là t p ph bi n có tr ng s , t p ọ ố ậ ợ ậ ổ ế ọ ố ậ
l i ích cao không có tính ch t đóng tính ch t làm gi m s ợ ấ ấ ả ố
l ượ ng ng viên đ ứ ượ c sinh ra và không gian tìm ki m. H u ế ầ
h t các thu t toán khai phá t p l i ích cao đ u s d ng tính ế ậ ậ ợ ề ử ụ
ch t đóng c a l i ích tr ng s giao d ch – TWU do Liu và ấ ủ ợ ọ ố ị
c ng s công b năm 2005. Tuy nhiên, ng ộ ự ố ưỡ ng TWU v n còn ẫ khá cao so v i l i ích th c t c a các t p ph n t , do đó v n ớ ợ ự ế ủ ậ ầ ử ẫ còn phát sinh m t s l ộ ố ượ ng l n các ng viên không c n thi t, ớ ứ ầ ế
do đó tiêu t n th i gian và không gian tìm ki m ố ờ ế
Trang 2Trên c s ơ ở nh ng nghiên c u, nh n xét và đánh giá trên ữ ứ ậ ở , nghiên c u sinh ứ đã ch n đ tài “ ọ ề Nghiên c u phát tri n mô ứ ể hình, thu t toán khai phá t p ậ ậ ph n t ầ ử có tr ng s và l i ọ ố ợ ích cao” làm đ tài nghiên c u cho lu n án ti n sĩ c a mình. ề ứ ậ ế ủ
M c tiêu nghiên c u ụ ứ
Nghiên c u các thu t toán khai phá t p ph bi n, ứ ậ ậ ổ ế
t p ph bi n có tr ng s và t p l i ích cao. ậ ổ ế ọ ố ậ ợ
Xây d ng mô hình, đi u ki n, c u trúc d li u nh m ự ề ệ ấ ữ ệ ằ
gi m không gian tìm ki m và d a trên c s đó đ xây ả ế ự ơ ở ể
d ng các thu t toán khai phá t p ph bi n có tr ng s và ự ậ ậ ổ ế ọ ố
t p l i ích cao ậ ợ
Trang 3Ch ươ ng 1. T NG QUAN V KHAI PHÁ T P PH BI N Ổ Ề Ậ Ổ Ế
1.1. Gi i thi u chung ớ ệ
Khai phá t p ph bi n là tìm ra các t p ph n t có s l n ậ ổ ế ậ ầ ử ố ầ
xu t hi n l n h n m t ng ấ ệ ớ ơ ộ ưỡ ng h tr t i thi u (minsupp) ỗ ợ ố ể Tuy nhiên, khai phá t p ph bi n có nh ng h n ch Th ậ ổ ế ữ ạ ế ứ
nh t, nó x lý t t c các ph n t có t m quan tr ng nh ấ ử ấ ả ầ ử ầ ọ ư nhau. Th hai, trong m t giao d ch m i ph n t ch có tr ng ứ ộ ị ỗ ầ ử ỉ ạ thái xu t hi n ho c không xu t hi n. Rõ ràng nh ng h n ch ấ ệ ặ ấ ệ ữ ạ ế này làm cho bài toán khai phá t p ph bi n truy n th ng ậ ổ ế ề ố không phù h p v i các c s d li u th c t , ví d nh trong ợ ớ ơ ở ữ ệ ự ế ụ ư
c s d li u c a siêu th , m i m t hàng có t m quan tr ng ơ ở ữ ệ ủ ị ỗ ặ ầ ọ hay giá c khác nhau, s l ả ố ượ ng mua các m t hàng trong m i ặ ỗ giao d ch cũng khác nhau,… Vì v y, mô hình khai phá t p ph ị ậ ậ ổ
bi n ch ph n ánh m i t ế ỉ ả ố ươ ng quan gi a các ph n t xu t ữ ầ ử ấ
hi n trong c s d li u, nh ng không ph n ánh ý nghĩa c a ệ ơ ở ữ ệ ư ả ủ
t ng ph n t d li u. Đ kh c ph c nh ng nh ừ ầ ử ữ ệ ể ắ ụ ữ ượ c đi m trên ể
có hai mô hình đ ượ c đ a ra: T p ph bi n có tr ng s WFI ư ậ ổ ế ọ ố
và T p l i ích cao HUI ậ ợ
1.2. T p ph bi n ậ ổ ế
Khai phá t p ph bi n là quá trình tìm ki m t p các ph n ậ ổ ế ế ậ ầ
t có s l n xu t hi n cùng nhau l n h n m t ng ử ố ầ ấ ệ ớ ơ ộ ưỡ ng cho
tr ướ c trong c s d li u l n đ ơ ở ữ ệ ớ ượ c R. Agrawal, T. Imielinski
và A. Swami đ xu t năm 1993, xu t phát t nhu c u bài toán ề ấ ấ ừ ầ phân tích d li u trong c s d li u giao d ch, đ phát hi n ữ ệ ơ ở ữ ệ ị ể ệ các m i quan h gi a các t p hàng hóa đã bán t i siêu th ố ệ ữ ậ ạ ị
Trang 4Vi c xác đ nh này không phân bi t s khác nhau gi a các ệ ị ệ ự ữ hàng hóa mà ch d a vào s xu t hi n c a chúng. ỉ ự ự ấ ệ ủ
M t s ph ộ ố ươ ng pháp khai phá t p ph bi n: ậ ổ ế
WFI). Trong đó, m i ph n t có m t tr ng s khác nhau nh : ỗ ầ ử ộ ọ ố ư
l i ích, giá c , đ quan tr ng hay s l ợ ả ộ ọ ố ượ ng,…M t t p các ộ ậ
ph n t là ph bi n có tr ng s khi giá tr có tr ng s c a ầ ử ổ ế ọ ố ị ọ ố ủ chúng l n h n m t ng ớ ơ ộ ưỡ ng cho tr ướ c. D a trên mô hình này ự
đã có nhi u thu t toán khai phá t p ph bi n có tr ng s ề ậ ậ ổ ế ọ ố
đ ượ c công b ố
M t s ph ộ ố ươ ng pháp khai phá t p ậ ph bi n ổ ế có tr ng s ọ ố:
Thu t toán d a trên kho ng tr ng s ậ ự ả ọ ố
Thu t toán s d ng b ng băm ậ ử ụ ả
Thu t toán d a trên tr ng s ph bi n x p x ậ ự ọ ố ổ ế ấ ỉ
Thu t toán d a trên cây WIT ậ ự
1.4. Đ xu t thu t toán khai phá m u ph bi n ề ấ ậ ẫ ổ ế có tr ng ọ
số theo chi u d c ề ọ
Trang 5D a trên nh ng u đi m c a thu t toán VMDG khai phá ự ữ ư ể ủ ậ
t p ph bi n, đ xu t thu t toán khai phá t p ph bi n có ậ ổ ế ề ấ ậ ậ ổ ế
tr ng s v i tên g i VMWFP (Vertical Mining of Weighted ọ ố ớ ọ Frequent Patterns Using Diffset Groups) s d ng c u trúc. T ử ụ ấ ừ thu t toán VMWFP xây d ng thu t toán song song PVMWFP ậ ự ậ trên mô hình chia s b nh ẻ ộ ớ K t qu th nghi m trên các c ế ả ử ệ ơ
s d li u v i 52 ph n t và 3984 giao d ch sinh ng u nhiên ở ữ ệ ớ ầ ử ị ẫ
đ ti n hành so sánh thu t toán song song PVMWFP v i thu t ể ế ậ ớ ậ toán tu n t VMWFP đ ầ ự ượ c k t qu nh ế ả ư Hình 1.1.
Hình 1 K t qu so sánh PVMWFP và VMWFP ế ả
1.5. T p l i ích cao ậ ợ
Năm 2003 Chan và c ng s đã đ a ra mô hình khai phá t p ộ ự ư ậ
l i ích cao ( ợ High Utility Itemsets – HUI), đ kh c ph c nh ng ể ắ ụ ữ
h n ch c a mô hình khai phá t p ph bi n và t p ph bi n ạ ế ủ ậ ổ ế ậ ổ ế
có tr ng s Trong mô hình này cho phép ng ọ ố ườ ử ụ i s d ng đánh giá đ ượ ầ c t m quan tr ng c a t ng ph n t qua hai tr ng s ọ ủ ừ ầ ử ọ ố khác nhau g i là l i ích trong và l i ích ngoài. ọ ợ ợ
Năm 2005, Ying Liu và c ng s đ a ra khái ni m l i ích ộ ự ư ệ ợ giao d ch có tr ng s c a m t t p ph n t X, ký hi u là ị ọ ố ủ ộ ậ ầ ử ệ TWU(X) đ ượ c tính b ng t ng l i ích c a các giao d ch có ằ ổ ợ ủ ị
ch a t p ph n t X. Đây là giá tr có tính ch t đóng, tính ch t ứ ậ ầ ử ị ấ ấ này đ m b o r ng TWU(X) nh h n ng ả ả ằ ỏ ơ ưỡ ng l i ích t i thi u ợ ố ể thì t p X không có kh năng sinh ra t p l i ích cao ch a t p ậ ả ậ ợ ứ ậ
X.
M t trong nh ng thách th c c a khai phá t p l i ích cao: ộ ữ ứ ủ ậ ợ
Trang 6 T p l i ích không có tính ch t đóng, tính ch t này đ m ậ ợ ấ ấ ả
b o m t t p là t p l i ích cao thì các t p con c a nó cũng là ả ộ ậ ậ ợ ậ ủ
t p l i ích cao. ậ ợ
Đa s các thu t toán khai phá t p l i ích cao đ u s ố ậ ậ ợ ề ử
d ng ng ụ ưỡ ng TWU đ c t t a t p ng viên. Đây là ng ể ắ ỉ ậ ứ ưỡ ng cao h n r t nhi u so v i giá tr l i ích th c t c a m t t p ơ ấ ề ớ ị ợ ự ế ủ ộ ậ
ph n t ầ ử
Do v y, s l ậ ố ượ ng các ng c viên đ ứ ử ượ c sinh ra r t l n d n ấ ớ ẫ
đ n không gian tìm ki m và th i gian ki m tra các ng viên ế ế ờ ể ứ
có chi phí cao.
M t s ph ộ ố ươ ng pháp khai phá t p l i ích cao hi u qu g n ậ ợ ệ ả ầ đây nh : s d ng danh sách l i ích (utilitylist) c a Liu ư ử ụ ợ ủ (2012); b ng ch s k t h p b ng ng viên c a Guo (2013); ả ỉ ố ế ợ ả ứ ủ
c tính l i ích các c p ph n t cùng xu t hi n c a Philippe
(2014); s d ng d ng l i ích cây con (utility subtree) và và l i ử ụ ụ ợ ợ ích c c b (local utility) c a Zida (2016) ụ ộ ủ
Trang 7Ch ươ ng 2. THU T TOÁN KHAI PHÁ T P L I ÍCH Ậ Ậ Ợ
ch a {aX}. V y, TWU({X}) là t ng l i ích c a các giao d ch ứ ậ ổ ợ ủ ị
ch a {X} s l n h n ho c b ng TWU({aX}) là t ng l i ích ứ ẽ ớ ơ ặ ằ ổ ợ
c a các giao d ch ch a {aX}. ủ ị ứ
Trong các thu t toán khai phá t p l i ích cao theo chi u ậ ậ ợ ề sâu. Gi s , {aX} là t t c các t p có ti n t là ph n t a, ả ử ấ ả ậ ề ố ầ ử {bX} là t t c các t p có ti n t là ph n t b. Khi khai phá ấ ả ậ ề ố ầ ử các t p trong {bX} s không còn ch a ph n t a. Nh ng khi ậ ẽ ứ ầ ử ư tính TWU({bX}) có th v n g m giá tr l i ích c a ph n t a ể ẫ ồ ị ợ ủ ầ ử
Đi u này làm TWU({bX}) là c n trên c a AU({bX}) l n h n ề ậ ủ ớ ơ
m c c n thi t và khi dùng TWU({bX}) đ t a các t p ng ứ ầ ế ể ỉ ậ ứ viên s không hi u qu ẽ ệ ả
T nh ng phân tích trên, lu n án đ xu t mô hình CWU ừ ữ ở ậ ề ấ (Candidate Weight Utility) và thu t toán HP khai phá t p l i ậ ậ ợ
Trang 8ích cao d a trên mô hình này nh m gi m s l ự ằ ả ố ượ ng t p ng ậ ứ viên [II].
Đ xu t mô hình CWU ề ấ
T nh ng nh n xét trên, lu n án đ xu t mô hình CWU đ ừ ữ ậ ậ ề ấ ể
kh c ph c nh ắ ụ ượ c đi m c a mô hình TWU. ể ủ
Đ nh nghĩa 2.1. ị [II] T p ti n t c a m t ph n t It là t p ậ ề ố ủ ộ ầ ử ậ các ph n t trong t p I mà đ ng tr ầ ử ậ ứ ướ c ph n t It: ầ ử SetPrefix(It) = {j I | j It}.
Đ nh nghĩa 2.2 ị [II] Ti n t c a m t t p ph n t có th t ề ố ủ ộ ậ ầ ử ứ ự
Y là t p các ph n t trong I đ ng tr ậ ầ ử ứ ướ c ph n t đ u tiên y ầ ử ầ 1
c a t p Y, kí hi u là SetPrefix(Y) và ủ ậ ệ
SetPrefix(Y) = {j I | j y1} (2.1)
Đ nh nghĩa 2.3. ị [II] L i ích ng viên có tr ng s (CWU – ợ ứ ọ ố Candidate Weighted Utility) c a t p ph n t Y, ký hi u là ủ ậ ầ ử ệ CWU(Y) đ ượ c xác đ nh nh sau:Đ t X = SetPrefix(Y), thì ị ư ặ
N u X = ế thì .
Đ nh nghĩa 2.4. ị [II] Khi CWU(Y) α v i ớ α là ng ưỡ ng t i ố thi u l i ích ng viên cho tr ể ợ ứ ướ c, ta g i Y là t p l i ích ng ọ ậ ợ ứ viên có tr ng s cao (HCWU High Candidate Weighted ọ ố Utility). Ng ượ ạ c l i, Y đ ượ c g i là t p l i ích ng viên có ọ ậ ợ ứ
tr ng s th p (LCWU – Low Candidate Weighted Utility) ọ ố ấ
Trang 9Tính ch t 2.1 ấ [II] Cho 3 t p ph n t có th t I, Y ậ ầ ử ứ ự k1,Yk
th a mãn Y ỏ k1 I, Yk I và Yk1 là ti n t c a Y ề ố ủ k. C th : Y ụ ể k1
= {y1, y2,…, yk1 | yi yi+1 v i i=1 k2} là ti n t c a t p Y ớ ề ố ủ ậ k = {y1, y2,…, yk1, yk | yi yi+1 v i i=1 k1} thì SetPrefix(Y ớ k1) = SetPrefix(Yk).
ng ưỡ ng l i ích t i thi u cho tr ợ ố ể ướ c. Khi đó HUs HCWUs.
Đ kh ng đ nh mô hình CWU có s ng viên ít h n mô ể ẳ ị ố ứ ơ hình TWU, lu n án đ a ra hai b đ sau. ậ ư ổ ề
M nh đ 2.1 ệ ề [II] Cho t p b t k Y, ta luôn có CWU(Y) ≤ ậ ấ ỳ TWU(Y).
Trong ph n này, lu n án trình bày thu t toán HP đ ầ ậ ậ ượ c c i ả
ti n t thu t toán PB ế ừ ậ c a Gou (2013) ủ v i m t s c i ti n sau: ớ ộ ố ả ế
S d ng k t h p hai mô hình TWU và CWU; ử ụ ế ợ
Trang 10 S p các ph n t trong t ng giao d ch gi m d n theo AU ế ầ ử ừ ị ả ầ sau khi đã lo i các ph n t nh h n ng ạ ầ ử ỏ ơ ưỡ ng l i ích t i thi u. ợ ố ể
a. M t s c u trúc ộ ố ấ đ ượ s d ng trong thu t toán: c ử ụ ậ
B ng ng viên TC ả ứ k g m: các t p kph n t , l i ích ng ồ ậ ầ ử ợ ứ viên có tr ng s CWU và l i ích th c t c a t p ng viên ọ ố ợ ự ế ủ ậ ứ
AU.
B ng ch s IT ả ỉ ố X c a t p X g m: các giao d ch T ủ ậ ồ ị j ch a t p ứ ậ
X, v trí p c a ph n t cu i cùng c a t p X xu t hi n trong giao ị ủ ầ ử ố ủ ậ ấ ệ
d ch T ị j và U(X,Tj). T b ng ch s IT ừ ả ỉ ố X g m kph n t có th ồ ầ ử ể tính nhanh các t p ng viên g m (k+1)ph n t v i ti n t là ậ ứ ồ ầ ử ớ ề ố
t p ph n t X. ậ ầ ử
B ng giao d ch l i ích UT ả ị ợ i ch a giá tr l i ích c a ph n ứ ị ợ ủ ầ
t i trong t ng giao d ch g m: giao d ch T ử ừ ị ồ ị j ch a i và U(i, T ứ j). Sau khi tìm t t c t p l i ích cao v i ti n t là ph n t i thì ấ ả ậ ợ ớ ề ố ầ ử
d a vào b ng UT ự ả i s tính đ ẽ ượ c CWU(Y) v i ph n t i = ớ ầ ử ListItemPrefix(Y).
K t qu th c nghi m ế ả ự ệ
K t qu th nghi m, so sánh gi a thu t toán HP v i các ế ả ử ệ ữ ậ ớ thu t toán Two Phase, PB trên b d li u T30I4D100K và ậ ộ ữ ệ Mushroom.
Trang 11Hình 2 S l ố ượ ng ng viên đ ứ ượ c sinh
ra trên T30I4D100K
Hình 2 Th i gian th c hi n trên ờ ự ệ
T30I4D100K
Hình 2 S l ố ượ ng ng viên đ ứ ượ c sinh
ra trên Mushroom Hình 2 Th i gian th c hi n trên
ờ ự ệ Mushroom
2.3. Thu t toán song song PPB khai phá t p l i ích cao d a trên ch sậ ậ ợ ự ỉ ố hình chi u và danh sách l i íchế ợ
Thu t toán song song PPB [V] khai phá t p l i ích cao ậ ậ ợ
đ ượ c công b trong t p chí Công ngh Thông tin và Truy n ố ạ ệ ề thông: “Các công trình nghiên c u, phát tri n và ng d ng ứ ể ứ ụ CNTTTT" v i m t s đóng góp sau: ớ ộ ố
Trang 12 Dùng b ng ch s k t h p v i danh sách l i ích đ sinh ả ỉ ố ế ợ ớ ợ ể
t p ng viên, tìm t p l i ích cao, lo i nhanh các ng viên và ậ ứ ậ ợ ạ ứ
đ c l p x lý các ph n t trên t ng b x lý. ộ ậ ử ầ ử ừ ộ ử
Gi n l ả ượ c thông tin l u tr trong danh sách l i ích ư ữ ợ
Xây d ng thu t toán song song khai phá t p l i ích cao ự ậ ậ ợ trên mô hình chia s b nh ẻ ộ ớ
a. M t s c u trúc đ ộ ố ấ ượ ử ụ c s d ng trong thu t toán PPB g m: ậ ồ
B ng TC ả k g m: các t p kph n t , l i ích th c t AU ồ ậ ầ ử ợ ự ế
và l i ích còn l i c a ng viên – RU. Các giá tr AU, RU trong ợ ạ ủ ứ ị
b ng TC ả 1 đ ượ c tính trong cùng m t l n duy t đ tính TWU, ộ ầ ệ ể trong đó RU(X) = TWU(X) – AU(X).
B ng ch s IT ả ỉ ố X c a t p X g m: các giao d ch T ủ ậ ồ ị j ch a t p ứ ậ X; v trí p c a ph n t cu i cùng c a t p X xu t hi n trong ị ủ ầ ử ố ủ ậ ấ ệ giao d ch T ị j; itutil(X, Tj) – giá tr l i ích c a t p X trong giao ị ợ ủ ậ
d ch T ị j; rutil(X, Tj) – giá tr l i ích các ph n t còn l i sau t p ị ợ ầ ử ạ ậ
X trong giao d ch T ị j.
K t qu th c nghi m ế ả ự ệ
K t qu th nghi m, so sánh gi a thu t toán PPBMiner ế ả ử ệ ữ ậ
v i thu t toán HP [II] trên b d li u T30I4D100K và ớ ậ ộ ữ ệ
Mushroom. Hình 2.5 so sánh th i gian th c hi n khai phá t p ờ ự ệ ậ
l i ích cao khi thay đ i ng ợ ổ ưỡ ng l i ích t i thi u, ợ ố ể Hình 2.6 so
sánh s l ố ượ ng ng viên đ ứ ượ c sinh ra t ươ ng ng v i các ứ ớ
ng ưỡ ng l i ích t i thi u khác nhau. ợ ố ể Hình 2.7 và Hình 2.8 so
sánh th i gian th c hi n khai phá t p l i ích cao và s ng ờ ự ệ ậ ợ ố ứ viên sinh ra gi a hai thu t toán t ữ ậ ươ ng ng v i các ng ứ ớ ưỡ ng l i ợ ích t i thi u khác nhau trên b d li u Mushroom. ố ể ộ ữ ệ
Trang 13Hình 2 Th i gian th c hi n trên ờ ự ệ
T30I4D100K Hình 2 S l ng ng viên đ c sinh
ố ượ ứ ượ
ra trên T30I4D100K
Hình 2 Th i gian th c hi n trên ờ ự ệ
Mushroom Hình 2 S l ố ượ ra trên Mushroom ng ng viên đ ứ ượ c sinh
2.4. Thu t toán CTUPRO+ ậ
Thu t toán CTUPRO+ [III] cho khai phá t p l i ích cao ậ ậ ợ
đ ượ ả ế ừ c c i ti n t thu t toán CTUPRO ậ s d ng mô hình CWU ử ụ [II] đ ượ c gi i thi u trong ph n 2.2. Thu t toán CTUPRO+ s ớ ệ ầ ậ ử
d ng c u trúc cây m u l i ích nén, các ph n t trong cây s p ụ ấ ẫ ợ ầ ử ắ
x p tăng d n theo l i ích AU đ các ph n t có l i ích cao s ế ầ ợ ể ầ ử ợ ẽ
là ti n t c a các t p l i ích và đ ề ố ủ ậ ợ ượ c khai phá tr ướ c. Sau đó, giá tr CWU s đ ị ẽ ượ ậ c c p nh t l i b ng cách tr đi l i ích c a ậ ạ ằ ừ ợ ủ các ti n t đã đ ề ố ượ c khai phá.
Trang 14a. M t s c u trúc ộ ố ấ
Các ph n t trong CSDL đ ầ ử ượ c đánh ch s 1, 2, 3,… theo ỉ ố
th t tăng d n theo AU. ứ ự ầ
B ng ph n t chung ả ầ ử – GlobalItemTable g m ồ các ph n t ng viên l i ích có tr ng s cao đ ầ ử ứ ợ ọ ố ượ c s p ắ
x p tăng d n theo AU Trong b ng này g m: ch s ế ầ ả ồ ỉ ố (index), ph n t (item), l i ích trên m t đ n v ph n t ầ ử ợ ộ ơ ị ầ ử (utility), t ng s l ổ ố ượ ng c a ph n t (quantity), l i ích ủ ầ ử ợ
ng viên có tr ng s (CWU), l i ích th c t c a ph n t
(AU) và con tr tr đ n g c c a nhánh trong cây m u l i ỏ ỏ ế ố ủ ẫ ợ ích nén chung (GlobalCUPTree).
M i nút c a GlobalCUPTree bao g m: ỗ ủ ồ ch s ỉ ố (index), m ng CWU t ả ươ ng ng v i giá tr l i ích ng ứ ớ ị ợ ứ viên có tr ng s c a 1 t p, m ng con tr ch a s l ọ ố ủ ậ ả ỏ ứ ố ượ ng
t ươ ng ng c a t ng ph n t trong giao d ch, con tr tr ứ ủ ừ ầ ử ị ỏ ỏ
đ n nút anh em cùng m c, con tr tr đ n nút cha. ế ứ ỏ ỏ ế
M ng CWU[] ả = {T0, T1,…, Tn}, trong đó: Ti là giá tr CWU c a t p ph n t t nút ch s i đ n nút ch a ị ủ ậ ầ ử ừ ỉ ố ế ứ
Ti.
T p I = ậ {i1, i2,…, in} là t p h p các ph n t ậ ợ ầ ử HCWU trong giao d ch đ ị ượ c ánh x t ạ ươ ng ng v i các ứ ớ
ch s trong GlobalItemTable sau đó chèn các ch s index ỉ ố ỉ ố vào cây m u l i ích nén, b t đ u t nút g c c a nhánh ẫ ợ ắ ầ ừ ố ủ cây đ ượ c tr b i con tr PST c a ph n t i ỏ ở ỏ ủ ầ ử 1 trong GlobalItemTable.
K t qu th c nghi m ế ả ự ệ