1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt Luận án tiến sĩ Toán học: Nghiên cứu phát triển mô hình, thuật toán khai phá tập phần tử có trọng số và lợi ích cao

28 83 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 758,83 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục đích của luận án nhằm nghiên cứu các thuật toán khai phá tập phổ biến, tập phổ biến có trọng số và tập lợi ích cao. Xây dựng mô hình, điều kiện, cấu trúc dữ liệu nhằm giảm không gian tìm kiếm và dựa trên cơ sở đó để xây dựng các thuật toán khai phá tập phổ biến có trọng số và tập lợi ích cao.

Trang 1

M  Đ U Ở Ầ

Khai phá lu t k t h p là m t trong nh ng k  thu t quan ậ ế ợ ộ ữ ỹ ậ  

tr ng nh t trong khai phá d  li u. M c đích chính c a khai ọ ấ ữ ệ ụ ủ   phá lu t k t h p là tìm ra m i quan h  gi a các ph n t  khác ậ ế ợ ố ệ ữ ầ ử   nhau trong c  s  d  li u. Bài toán khai phá t p lu t k t h p ơ ở ữ ệ ậ ậ ế ợ  

g m hai bài toán con đó là khai phá t p ph  bi n và sinh lu t ồ ậ ổ ế ậ  

k t h p. Trong đó, bài toán khai phá t p ph  bi n đã thu hút ế ợ ậ ổ ế  

đ ượ c nhi u nhà nghiên c u trong n ề ứ ướ c và th  gi i quan tâm ế ớ  

Nh ng khai phá t p ph  bi n ư ậ ổ ế  truy n th ng ề ố  trong th c t  v n ự ế ẫ   còn nhi u ề  h n ch , không đáp  ng đ ạ ế ứ ượ c nhu c u c a ng ầ ủ ườ   i

s  d ng ử ụ  nh  đánh giá s  quan tr ng c a t ng ph n t  trong ư ự ọ ủ ừ ầ ử  

t ng giao d ch hay trong c  s  d  li u ừ ị ơ ở ữ ệ  Đ  kh c ph c nh ng ể ắ ụ ữ  

h n ch  c a ạ ế ủ  khai phá t p ph  bi n ậ ổ ế  truy n th ng ề ố , nhi u nhà ề   nghiên c u đã đ  xu t mô hình m  r ng ứ ề ấ ở ộ  trong đó có tính đ n ế  

m c đ  quan tr ng khác nhau c a các ph n t  trong c  s  d ứ ộ ọ ủ ầ ử ơ ở ữ 

li u nh : khai phá t p ph  bi n có tr ng s   ệ ư ậ ổ ế ọ ố ­ WFI; khai phá 

t p  ậ l i ích cao ­  ợ HUI.

M t trong nh ng thách th c trong khai phá t p ph  bi n có ộ ữ ứ ậ ổ ế  

tr ng s  và t p l i ích cao đó là t p ph  bi n có tr ng s , t p ọ ố ậ ợ ậ ổ ế ọ ố ậ  

l i ích cao không có tính ch t đóng ­ tính ch t làm gi m s ợ ấ ấ ả ố 

l ượ ng  ng viên đ ứ ượ c sinh ra và không gian tìm ki m. H u ế ầ  

h t các thu t toán khai phá t p l i ích cao đ u s  d ng tính ế ậ ậ ợ ề ử ụ  

ch t đóng c a l i ích tr ng s  giao d ch – TWU do Liu và ấ ủ ợ ọ ố ị  

c ng s  công b  năm 2005. Tuy nhiên, ng ộ ự ố ưỡ ng TWU v n còn ẫ   khá cao so v i l i ích th c t  c a các t p ph n t , do đó v n ớ ợ ự ế ủ ậ ầ ử ẫ   còn phát sinh m t s  l ộ ố ượ ng l n các  ng viên không c n thi t, ớ ứ ầ ế  

do đó tiêu t n th i gian và không gian tìm ki m ố ờ ế

Trang 2

Trên c  s   ơ ở nh ng nghiên c u, nh n xét và đánh giá   trên ữ ứ ậ ở ,  nghiên c u sinh  ứ đã ch n đ  tài “ ọ ề Nghiên c u phát tri n mô ứ ể   hình, thu t toán khai phá t p  ậ ậ ph n t ầ ử có tr ng s  và l i ọ ố ợ   ích cao” làm đ  tài nghiên c u cho lu n án ti n sĩ c a mình.  ề ứ ậ ế ủ

M c tiêu nghiên c u ụ ứ

­ Nghiên c u các thu t toán khai phá t p ph  bi n, ứ ậ ậ ổ ế  

t p ph  bi n có tr ng s  và t p l i ích cao.  ậ ổ ế ọ ố ậ ợ

Xây d ng mô hình, đi u ki n, c u trúc d  li u nh m ự ề ệ ấ ữ ệ ằ  

gi m không gian tìm ki m và d a trên c  s  đó đ  xây ả ế ự ơ ở ể  

d ng các thu t toán khai phá t p ph  bi n có tr ng s  và ự ậ ậ ổ ế ọ ố  

t p l i ích cao ậ ợ  

Trang 3

Ch ươ ng 1.     T NG QUAN V  KHAI PHÁ T P PH  BI N Ổ Ề Ậ Ổ Ế

1.1.  Gi i thi u chung ớ ệ

Khai phá t p ph  bi n là tìm ra các t p ph n t  có s  l n ậ ổ ế ậ ầ ử ố ầ  

xu t hi n l n h n m t ng ấ ệ ớ ơ ộ ưỡ ng h  tr  t i thi u (minsupp) ỗ ợ ố ể   Tuy nhiên, khai phá t p ph  bi n có nh ng h n ch  Th ậ ổ ế ữ ạ ế ứ 

nh t, nó x  lý t t c  các ph n t  có t m quan tr ng nh ấ ử ấ ả ầ ử ầ ọ ư  nhau. Th  hai, trong m t giao d ch m i ph n t  ch  có tr ng ứ ộ ị ỗ ầ ử ỉ ạ   thái xu t hi n ho c không xu t hi n. Rõ ràng nh ng h n ch ấ ệ ặ ấ ệ ữ ạ ế  này làm cho bài toán khai phá t p ph  bi n truy n th ng ậ ổ ế ề ố   không phù h p v i các c  s  d  li u th c t , ví d  nh  trong ợ ớ ơ ở ữ ệ ự ế ụ ư  

c  s  d  li u c a siêu th , m i m t hàng có t m quan tr ng ơ ở ữ ệ ủ ị ỗ ặ ầ ọ   hay giá c  khác nhau, s  l ả ố ượ ng mua các m t hàng trong m i ặ ỗ   giao d ch cũng khác nhau,… Vì v y, mô hình khai phá t p ph ị ậ ậ ổ 

bi n ch  ph n ánh m i t ế ỉ ả ố ươ ng quan gi a các ph n t  xu t ữ ầ ử ấ  

hi n trong c  s  d  li u, nh ng không ph n ánh ý nghĩa c a ệ ơ ở ữ ệ ư ả ủ  

t ng ph n t  d  li u. Đ  kh c ph c nh ng nh ừ ầ ử ữ ệ ể ắ ụ ữ ượ c đi m trên ể  

có hai mô hình đ ượ c đ a ra: T p ph  bi n có tr ng s  ­ WFI ư ậ ổ ế ọ ố  

và T p l i ích cao ­ HUI ậ ợ

1.2.  T p ph  bi n ậ ổ ế

Khai phá t p ph  bi n là quá trình tìm ki m t p các ph n ậ ổ ế ế ậ ầ  

t  có s  l n xu t hi n cùng nhau l n h n m t ng ử ố ầ ấ ệ ớ ơ ộ ưỡ ng cho  

tr ướ c trong c  s  d  li u l n đ ơ ở ữ ệ ớ ượ c R. Agrawal, T. Imielinski  

và A. Swami đ  xu t năm 1993, xu t phát t  nhu c u bài toán ề ấ ấ ừ ầ   phân tích d  li u trong c  s  d  li u giao d ch, đ  phát hi n ữ ệ ơ ở ữ ệ ị ể ệ   các m i quan h  gi a các t p hàng hóa đã bán t i siêu th ố ệ ữ ậ ạ ị  

Trang 4

Vi c xác đ nh này không phân bi t s  khác nhau gi a các ệ ị ệ ự ữ   hàng hóa mà ch  d a vào s  xu t hi n c a chúng.  ỉ ự ự ấ ệ ủ

M t s  ph ộ ố ươ ng pháp khai phá t p ph  bi n:  ậ ổ ế

WFI). Trong đó, m i ph n t  có m t tr ng s  khác nhau nh : ỗ ầ ử ộ ọ ố ư  

l i ích, giá c , đ  quan tr ng hay s  l ợ ả ộ ọ ố ượ ng,…M t t p các ộ ậ  

ph n t  là ph  bi n có tr ng s  khi giá tr  có tr ng s  c a ầ ử ổ ế ọ ố ị ọ ố ủ   chúng l n h n m t ng ớ ơ ộ ưỡ ng cho tr ướ c. D a trên mô hình này ự  

đã có nhi u thu t toán khai phá t p ph  bi n có tr ng s ề ậ ậ ổ ế ọ ố 

đ ượ c công b   ố

M t s  ph ộ ố ươ ng pháp khai phá t p  ậ ph  bi n  ổ ế có tr ng s ọ ố:

­ Thu t toán d a trên kho ng tr ng s ậ ự ả ọ ố

­ Thu t toán s  d ng b ng băm ậ ử ụ ả

­ Thu t toán d a trên tr ng s  ph  bi n x p x ậ ự ọ ố ổ ế ấ ỉ

­ Thu t toán d a trên cây WIT ậ ự

1.4.  Đ  xu t thu t toán khai phá m u ph  bi n  ề ấ ậ ẫ ổ ế có tr ng  

số theo chi u d c ề ọ

Trang 5

D a trên nh ng  u đi m c a thu t toán VMDG khai phá ự ữ ư ể ủ ậ  

t p ph  bi n, đ  xu t thu t toán khai phá t p ph  bi n có ậ ổ ế ề ấ ậ ậ ổ ế  

tr ng s  v i tên g i VMWFP (Vertical Mining of Weighted ọ ố ớ ọ   Frequent Patterns Using Diffset Groups) s  d ng c u trúc. T ử ụ ấ ừ  thu t toán VMWFP xây d ng thu t toán song song PVMWFP ậ ự ậ   trên mô hình chia s  b  nh   ẻ ộ ớ K t qu  th  nghi m trên các c ế ả ử ệ ơ 

s  d  li u v i 52 ph n t  và 3984 giao d ch sinh ng u nhiên ở ữ ệ ớ ầ ử ị ẫ  

đ  ti n hành so sánh thu t toán song song PVMWFP v i thu t ể ế ậ ớ ậ   toán tu n t  VMWFP đ ầ ự ượ c k t qu  nh   ế ả ư Hình 1.1. 

Hình 1  K t qu  so sánh PVMWFP và VMWFP ế ả

1.5.  T p l i ích cao  ậ ợ

Năm 2003 Chan và c ng s  đã đ a ra mô hình khai phá t p ộ ự ư ậ  

l i ích cao ( ợ High Utility Itemsets – HUI), đ  kh c ph c nh ng ể ắ ụ ữ  

h n ch  c a mô hình khai phá t p ph  bi n và t p ph  bi n ạ ế ủ ậ ổ ế ậ ổ ế  

có tr ng s  Trong mô hình này cho phép ng ọ ố ườ ử ụ i s  d ng đánh   giá đ ượ ầ c t m quan tr ng c a t ng ph n t  qua hai tr ng s ọ ủ ừ ầ ử ọ ố  khác nhau g i là l i ích trong và l i ích ngoài.  ọ ợ ợ

Năm 2005, Ying Liu và c ng s  đ a ra khái ni m l i ích ộ ự ư ệ ợ   giao d ch có tr ng s  c a m t t p ph n t  X, ký hi u là ị ọ ố ủ ộ ậ ầ ử ệ   TWU(X) đ ượ c tính b ng t ng l i ích c a các giao d ch có ằ ổ ợ ủ ị  

ch a t p ph n t  X. Đây là giá tr  có tính ch t đóng, tính ch t ứ ậ ầ ử ị ấ ấ   này đ m b o r ng TWU(X) nh  h n ng ả ả ằ ỏ ơ ưỡ ng l i ích t i thi u ợ ố ể   thì t p X không có kh  năng sinh ra t p l i ích cao ch a t p ậ ả ậ ợ ứ ậ  

X. 

M t trong nh ng thách th c c a khai phá t p l i ích cao:  ộ ữ ứ ủ ậ ợ

Trang 6

­ T p l i ích không có tính ch t đóng, tính ch t này đ m ậ ợ ấ ấ ả  

b o m t t p là t p l i ích cao thì các t p con c a nó cũng là ả ộ ậ ậ ợ ậ ủ  

t p l i ích cao.  ậ ợ

­ Đa s  các thu t toán khai phá t p l i ích cao đ u s ố ậ ậ ợ ề ử 

d ng ng ụ ưỡ ng TWU đ  c t t a t p  ng viên. Đây là ng ể ắ ỉ ậ ứ ưỡ   ng cao h n r t nhi u so v i giá tr  l i ích th c t  c a m t t p ơ ấ ề ớ ị ợ ự ế ủ ộ ậ  

ph n t   ầ ử

Do v y, s  l ậ ố ượ ng các  ng c  viên đ ứ ử ượ c sinh ra r t l n d n ấ ớ ẫ  

đ n không gian tìm ki m và th i gian ki m tra các  ng viên ế ế ờ ể ứ  

có chi phí cao. 

M t s  ph ộ ố ươ ng pháp khai phá t p l i ích cao hi u qu  g n ậ ợ ệ ả ầ   đây   nh :   s   d ng   danh   sách   l i   ích   (utility­list)   c a   Liu ư ử ụ ợ ủ   (2012); b ng ch  s  k t h p b ng  ng viên c a Guo (2013); ả ỉ ố ế ợ ả ứ ủ  

c tính l i ích các c p ph n t  cùng xu t hi n c a Philippe

(2014); s  d ng d ng l i ích cây con (utility sub­tree) và và l i ử ụ ụ ợ ợ   ích c c b  (local utility) c a Zida (2016) ụ ộ ủ

Trang 7

Ch ươ ng 2.     THU T TOÁN KHAI PHÁ T P L I ÍCH Ậ Ậ Ợ  

ch a {aX}. V y, TWU({X}) là t ng l i ích c a các giao d ch ứ ậ ổ ợ ủ ị  

ch a {X} s  l n h n ho c b ng TWU({aX}) là t ng l i ích ứ ẽ ớ ơ ặ ằ ổ ợ  

c a các giao d ch ch a {aX}.  ủ ị ứ

Trong các thu t toán khai phá t p l i ích cao theo chi u ậ ậ ợ ề   sâu. Gi  s , {aX} là t t c  các t p có ti n t  là ph n t  a, ả ử ấ ả ậ ề ố ầ ử   {bX} là t t c  các t p có ti n t  là ph n t  b. Khi khai phá ấ ả ậ ề ố ầ ử   các t p trong {bX} s  không còn ch a ph n t  a. Nh ng khi ậ ẽ ứ ầ ử ư   tính TWU({bX}) có th  v n g m giá tr  l i ích c a ph n t  a ể ẫ ồ ị ợ ủ ầ ử  

Đi u này làm TWU({bX}) là c n trên c a AU({bX}) l n h n ề ậ ủ ớ ơ  

m c c n thi t và khi dùng TWU({bX}) đ  t a các t p  ng ứ ầ ế ể ỉ ậ ứ   viên s  không hi u qu   ẽ ệ ả

T  nh ng phân tích   trên, lu n án đ  xu t mô hình CWU ừ ữ ở ậ ề ấ   (Candidate Weight Utility) và thu t toán HP khai phá t p l i ậ ậ ợ  

Trang 8

ích cao d a trên mô hình này nh m gi m s  l ự ằ ả ố ượ ng t p  ng ậ ứ   viên [II]. 

Đ  xu t mô hình CWU ề ấ

T  nh ng nh n xét trên, lu n án đ  xu t mô hình CWU đ ừ ữ ậ ậ ề ấ ể 

kh c ph c nh ắ ụ ượ c đi m c a mô hình TWU.  ể ủ

Đ nh nghĩa 2.1.  [II] T p ti n t  c a m t ph n t  It là t p ậ ề ố ủ ộ ầ ử ậ   các   ph n   t   trong   t p   I   mà   đ ng   tr ầ ử ậ ứ ướ c   ph n   t   It: ầ ử   SetPrefix(It) = {j  I | j  It}. 

Đ nh nghĩa 2.2  [II] Ti n t  c a m t t p ph n t  có th  t ề ố ủ ộ ậ ầ ử ứ ự 

Y là t p các ph n t  trong I đ ng tr ậ ầ ử ứ ướ c ph n t  đ u tiên y ầ ử ầ 1 

c a t p Y, kí hi u là SetPrefix(Y) và  ủ ậ ệ

SetPrefix(Y) = {j  I | j  y1} (2.1)

Đ nh nghĩa 2.3.  [II] L i ích  ng viên có tr ng s  (CWU – ợ ứ ọ ố   Candidate Weighted Utility) c a t p ph n t  Y, ký hi u là ủ ậ ầ ử ệ   CWU(Y) đ ượ c xác đ nh nh  sau:Đ t X = SetPrefix(Y), thì ị ư ặ

N u X =  ế  thì .

Đ nh nghĩa 2.4.  [II] Khi CWU(Y)   α v i  ớ α là ng ưỡ ng t i ố   thi u l i ích  ng viên cho tr ể ợ ứ ướ c, ta g i Y là t p l i ích  ng ọ ậ ợ ứ   viên   có   tr ng   s   cao   (HCWU­   High   Candidate   Weighted ọ ố   Utility). Ng ượ ạ c l i, Y đ ượ c g i là t p l i ích  ng viên có ọ ậ ợ ứ  

tr ng s  th p (LCWU – Low Candidate Weighted Utility) ọ ố ấ

Trang 9

Tính ch t 2.1  [II] Cho 3 t p ph n t  có th  t  I, Y ậ ầ ử ứ ự k­1,Yk 

th a mãn Y ỏ k­1   I, Yk   I và Yk­1 là ti n t  c a Y ề ố ủ k. C  th : Y ụ ể k­1 

= {y1, y2,…, yk­1 | yi  yi+1 v i i=1 k­2} là ti n t  c a t p Y ớ ề ố ủ ậ k =  {y1, y2,…, yk­1, yk  | yi   yi+1  v i i=1 k­1} thì SetPrefix(Y ớ k­1) =  SetPrefix(Yk).

ng ưỡ ng l i ích t i thi u cho tr ợ ố ể ướ c. Khi đó HUs   HCWUs.  

Đ  kh ng đ nh mô hình CWU có s   ng viên ít h n mô ể ẳ ị ố ứ ơ   hình TWU, lu n án đ a ra hai b  đ  sau.  ậ ư ổ ề

M nh đ  2.1 ệ ề  [II] Cho t p b t k  Y, ta luôn có CWU(Y) ≤ ậ ấ ỳ   TWU(Y).

Trong ph n này, lu n án trình bày thu t toán HP đ ầ ậ ậ ượ c c i ả  

ti n t  thu t toán PB ế ừ ậ  c a Gou (2013) ủ  v i m t s  c i ti n sau: ớ ộ ố ả ế

­ S  d ng k t h p hai mô hình TWU và CWU; ử ụ ế ợ

Trang 10

­ S p các ph n t  trong t ng giao d ch gi m d n theo AU ế ầ ử ừ ị ả ầ   sau khi đã lo i các ph n t  nh  h n ng ạ ầ ử ỏ ơ ưỡ ng l i ích t i thi u.  ợ ố ể

a.  M t s  c u trúc  ộ ố ấ đ ượ  s  d ng trong thu t toán: c ử ụ ậ

­ B ng  ng viên TC ả ứ k g m: các t p k­ph n t , l i ích  ng ồ ậ ầ ử ợ ứ   viên có tr ng s  ­ CWU và l i ích th c t  c a t p  ng viên ­ ọ ố ợ ự ế ủ ậ ứ  

AU. 

­ B ng ch  s  IT ả ỉ ố X c a t p X g m: các giao d ch T ủ ậ ồ ị j ch a t p ứ ậ  

X, v  trí p c a ph n t  cu i cùng c a t p X xu t hi n trong giao ị ủ ầ ử ố ủ ậ ấ ệ  

d ch T ị j và U(X,Tj). T  b ng ch  s  IT ừ ả ỉ ố X g m k­ph n t  có th ồ ầ ử ể  tính nhanh các t p  ng viên g m (k+1)­ph n t  v i ti n t  là ậ ứ ồ ầ ử ớ ề ố  

t p ph n t  X.  ậ ầ ử

­ B ng giao d ch l i ích ­ UT ả ị ợ i ch a giá tr  l i ích c a ph n ứ ị ợ ủ ầ  

t  i trong t ng giao d ch g m: giao d ch T ử ừ ị ồ ị j ch a i và U(i, T ứ j).  Sau khi tìm t t c  t p l i ích cao v i ti n t  là ph n t  i thì ấ ả ậ ợ ớ ề ố ầ ử  

d a vào b ng UT ự ả i  s  tính đ ẽ ượ c CWU(Y) v i ph n t  i = ớ ầ ử   ListItemPrefix(Y). 

K t qu  th c nghi m ế ả ự ệ

K t qu  th  nghi m, so sánh gi a thu t toán HP v i các ế ả ử ệ ữ ậ ớ   thu t toán Two Phase, PB trên b  d  li u T30I4D100K và ậ ộ ữ ệ   Mushroom. 

Trang 11

Hình 2  S  l ố ượ ng  ng viên đ ứ ượ c sinh  

ra trên T30I4D100K

Hình 2  Th i gian th c hi n trên ờ ự ệ  

T30I4D100K

Hình 2  S  l ố ượ ng  ng viên đ ứ ượ c sinh  

ra trên Mushroom Hình 2  Th i gian th c hi n trên

ờ ự ệ   Mushroom

2.3.  Thu t toán song song PPB khai phá t p l i ích cao d a trên ch  sậ ậ ợ ự ỉ ố  hình chi u và danh sách l i íchế ợ

Thu t toán song song PPB [V] khai phá t p l i ích cao ậ ậ ợ  

đ ượ c công b  trong t p chí Công ngh  Thông tin và Truy n ố ạ ệ ề   thông: “Các công trình nghiên c u, phát tri n và  ng d ng ứ ể ứ ụ   CNTT­TT" v i m t s  đóng góp sau:  ớ ộ ố

Trang 12

­ Dùng b ng ch  s  k t h p v i danh sách l i ích đ  sinh ả ỉ ố ế ợ ớ ợ ể  

t p  ng viên, tìm t p l i ích cao, lo i nhanh các  ng viên và ậ ứ ậ ợ ạ ứ  

đ c l p x  lý các ph n t  trên t ng b  x  lý.  ộ ậ ử ầ ử ừ ộ ử

­ Gi n l ả ượ c thông tin l u tr  trong danh sách l i ích ư ữ ợ

­ Xây d ng thu t toán song song khai phá t p l i ích cao ự ậ ậ ợ   trên mô hình chia s  b  nh   ẻ ộ ớ

a.  M t s  c u trúc đ ộ ố ấ ượ ử ụ c s  d ng trong thu t toán PPB g m:  ậ ồ

­ B ng TC ả k g m: các t p k­ph n t , l i ích th c t  ­ AU ồ ậ ầ ử ợ ự ế  

và l i ích còn l i c a  ng viên – RU. Các giá tr  AU, RU trong ợ ạ ủ ứ ị  

b ng TC ả 1 đ ượ c tính trong cùng m t l n duy t đ  tính TWU, ộ ầ ệ ể   trong đó RU(X) = TWU(X) – AU(X). 

­ B ng ch  s  IT ả ỉ ố X c a t p X g m: các giao d ch T ủ ậ ồ ị j ch a t p ứ ậ   X; v  trí p c a ph n t  cu i cùng c a t p X xu t hi n trong ị ủ ầ ử ố ủ ậ ấ ệ   giao d ch T ị j; itutil(X, Tj) – giá tr  l i ích c a t p X trong giao ị ợ ủ ậ  

d ch T ị j; rutil(X, Tj) – giá tr  l i ích các ph n t  còn l i sau t p ị ợ ầ ử ạ ậ  

X trong giao d ch T ị j. 

K t qu  th c nghi m ế ả ự ệ

 K t qu  th  nghi m, so sánh gi a thu t toán PPB­Miner ế ả ử ệ ữ ậ  

v i   thu t   toán   HP   [II]   trên   b   d   li u   T30I4D100K   và ớ ậ ộ ữ ệ  

Mushroom. Hình 2.5 so sánh th i gian th c hi n khai phá t p ờ ự ệ ậ  

l i ích cao khi thay đ i ng ợ ổ ưỡ ng l i ích t i thi u,  ợ ố ể Hình 2.6 so 

sánh  s  l ố ượ ng   ng  viên  đ ứ ượ c  sinh   ra  t ươ ng   ng  v i  các ứ ớ  

ng ưỡ ng l i ích t i thi u khác nhau.  ợ ố ể Hình 2.7 và Hình 2.8 so 

sánh th i gian th c hi n khai phá t p l i ích cao và s   ng ờ ự ệ ậ ợ ố ứ   viên sinh ra gi a hai thu t toán t ữ ậ ươ ng  ng v i các ng ứ ớ ưỡ ng l i ợ   ích t i thi u khác nhau trên b  d  li u Mushroom.  ố ể ộ ữ ệ

Trang 13

Hình 2  Th i gian th c hi n trên ờ ự ệ  

T30I4D100K  Hình 2  S  l ng  ng viên đ c sinh

ố ượ ứ ượ  

ra trên T30I4D100K 

Hình 2  Th i gian th c hi n trên ờ ự ệ  

Mushroom Hình 2  S  l ố ượ ra trên Mushroom ng  ng viên đ ứ ượ c sinh  

2.4.  Thu t toán CTU­PRO+ 

Thu t toán CTU­PRO+ [III] cho khai phá t p l i ích cao ậ ậ ợ  

đ ượ ả ế ừ c c i ti n t  thu t toán CTU­PRO ậ  s  d ng mô hình CWU ử ụ   [II] đ ượ c gi i thi u trong ph n 2.2. Thu t toán CTU­PRO+ s ớ ệ ầ ậ ử 

d ng c u trúc cây m u l i ích nén, các ph n t  trong cây s p ụ ấ ẫ ợ ầ ử ắ  

x p tăng d n theo l i ích AU đ  các ph n t  có l i ích cao s ế ầ ợ ể ầ ử ợ ẽ 

là ti n t  c a các t p l i ích và đ ề ố ủ ậ ợ ượ c khai phá tr ướ c. Sau đó,   giá tr  CWU s  đ ị ẽ ượ ậ c c p nh t l i b ng cách tr  đi l i ích c a ậ ạ ằ ừ ợ ủ   các ti n t  đã đ ề ố ượ c khai phá.

Trang 14

a.  M t s  c u trúc  ộ ố ấ

Các ph n t  trong CSDL đ ầ ử ượ c đánh ch  s  1, 2, 3,… theo ỉ ố  

th  t  tăng d n theo AU.  ứ ự ầ

B ng   ph n  t  chung ả ầ ử   – GlobalItemTable   g m ồ   các ph n t   ng viên l i ích có tr ng s  cao đ ầ ử ứ ợ ọ ố ượ c s p ắ  

x p   tăng   d n   theo   AU   Trong   b ng   này   g m:   ch   s ế ầ ả ồ ỉ ố  (index), ph n t  (item), l i ích trên m t đ n v  ph n t ầ ử ợ ộ ơ ị ầ ử  (utility), t ng s  l ổ ố ượ ng c a ph n t  (quantity), l i  ích ủ ầ ử ợ  

ng viên có tr ng s  (CWU), l i ích th c t  c a ph n t

(AU) và con tr  tr  đ n g c c a nhánh trong cây m u l i ỏ ỏ ế ố ủ ẫ ợ   ích nén chung (GlobalCUP­Tree). 

M i nút c a GlobalCUP­Tree bao g m: ỗ ủ ồ  ch  s ỉ ố  (index), m ng CWU t ả ươ ng  ng v i giá tr  l i ích  ng ứ ớ ị ợ ứ   viên có tr ng s  c a 1 t p, m ng con tr  ch a s  l ọ ố ủ ậ ả ỏ ứ ố ượ   ng

t ươ ng  ng c a t ng ph n t  trong giao d ch, con tr  tr ứ ủ ừ ầ ử ị ỏ ỏ 

đ n nút anh em cùng m c, con tr  tr  đ n nút cha.  ế ứ ỏ ỏ ế

M ng CWU[] ả  = {T0, T1,…, Tn}, trong đó: Ti là  giá tr  CWU c a t p ph n t  t  nút ch  s  i đ n nút ch a ị ủ ậ ầ ử ừ ỉ ố ế ứ  

Ti.

T p I = ậ   {i1, i2,…, in} là t p h p các ph n t ậ ợ ầ ử  HCWU trong giao d ch đ ị ượ c ánh x  t ạ ươ ng  ng v i các ứ ớ  

ch  s  trong GlobalItemTable sau đó chèn các ch  s  index ỉ ố ỉ ố   vào cây m u l i ích nén, b t đ u t  nút g c c a nhánh ẫ ợ ắ ầ ừ ố ủ   cây   đ ượ c   tr   b i   con   tr   PST   c a   ph n   t   i ỏ ở ỏ ủ ầ ử 1  trong  GlobalItemTable. 

K t qu  th c nghi m ế ả ự ệ

Ngày đăng: 10/01/2020, 17:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w