ĐỒ án tìm HIỂU đề tài (4)

Ví dụ, một số mặt hàng, chẳng hạn như sữa và bánh mì, mà thường xuyên xuất hiện cùng nhau trong một bộ dữ liệu giao dịch là một tập phổ biến.. Hiệp hội thú vị và mối tương quan giữa các

Trang 1

CHAPTER 6- Mining Frequent 6Patterns,

Associations, and Correlations:

Basic Concepts and Methods

Khai thác thường xuyên 6 mẫu,

hiệp hội, và mối tương quan:

Các khái niệm và phương pháp cơ bản

Hãy tưởng tượng rằng bạn là một quản lý bán hàng tại AllElectronics, và bạn đang nói chuyện với một khách hàng vừa mua một máy tính và một máy ảnh kỹ thuật số từ các cửa hàng Bạn nên khuyên gì với cô ấy tới? Thông tin về những sản phẩm thường xuyên được mua bởi các khách cus- của bạn sau mua hàng của một máy tính và một máy ảnh kỹ thuật số trong chuỗi sẽ rất hữu ích trong việc đưa ra đề nghị của bạn Mô hình thường xuyên và luật kết hợp là những kiến thức

mà bạn muốn khai thác trong một kịch bản như vậy

Mô hình thường xuyên là hình mẫu (ví dụ, tập phổ biến, subsequences, hoặc hạ tầng) xuất hiện thường xuyên trong một tập dữ liệu Ví dụ, một số mặt hàng, chẳng hạn như sữa và bánh mì, mà thường xuyên xuất hiện cùng nhau trong một bộ dữ liệu giao dịch là một tập phổ biến Một dãy, chẳng hạn như mua đầu tiên một máy tính, sau đó một máy ảnh kỹ thuật số, và sau đó là một thẻ nhớ, nếu nó xảy ra fre- xuyên trong một cơ sở dữ liệu lịch sử mua sắm, là một (thường xuyên)

mô hình tuần tự Một cấu trúc con có thể tham khảo các hình thức cấu trúc khác nhau, chẳng hạn như đồ thị con, subtrees, hoặc sublattices, có thể được kết hợp với tập phổ biến hoặc

subsequences Nếu một Hạ tầng cơ xảy ra thường xuyên, nó được gọi là (thường xuyên) có cấu trúc mô hình Tìm kiếm các mẫu thường xuyên đóng một vai trò thiết yếu trong các hiệp hội khai thác, liên hệ, và nhiều mối quan hệ thú vị khác trong dữ liệu Hơn nữa, nó giúp trong việc phân loại dữ liệu, phân nhóm, và nhiệm vụ khai thác dữ liệu khác Vì vậy, thường xuyên khai thác mô hình đã trở thành một nhiệm vụ khai thác dữ liệu quan trọng và một chủ đề tập trung vào nghiên cứu khai thác dữ liệu

Trong chương này, chúng tôi giới thiệu các khái niệm cơ bản của mô hình thường xuyên, các hiệp hội, và mối tương quan (mục 6.1) và nghiên cứu làm thế nào họ có thể khai thác một cách hiệu quả (mục 6.2) Chúng tôi cũng thảo luận làm thế nào để đánh giá liệu các mẫu được tìm thấy là thú vị (Phần 6.3) Trong Chương 7, chúng tôi mở rộng cuộc thảo luận của chúng tôi với các phương pháp tiên tiến của khai thác mô hình thường xuyên, trong đó khai thác các hình thức phức tạp hơn của mô hình thường xuyên và xem xét sở thích người dùng hoặc hạn chế để tăng tốc độ quá trình khai thác

6.1 Các khái niệm cơ bản

thường xuyên tìm kiếm khai thác mô hình cho kỳ mối quan hệ trong một định tập dữ liệu Phần này giới thiệu các khái niệm cơ bản về khai thác mô hình thường xuyên cho việc khám phá

Trang 2

Khai thác dữ liệu: Các khái niệm và kỹ thuật 243

§c 2012 Elsevier Inc Tất cả quyền được bảo lưu

Hiệp hội thú vị và mối tương quan giữa các tập phổ biến trong cơ sở dữ liệu giao dịch và quan hệ.Chúng ta bắt đầu tại Mục 6.1.1 bằng cách trình bày một ví dụ về phân tích giỏ thị trường, hình thức sớm nhất của khai thác mô hình thường xuyên cho luật kết hợp Các khái niệm cơ bản về khai thác mô hình và các hiệp hội thường xuyên được đưa ra trong mục 6.1.2

6.1.1 Market Basket - Thị trường giá trong giỏ hang - giỏ thị trường Phân tích: Một Sự động

viên Ví dụ

khai thác tập phổ biến thường xuyên dẫn đến sự phát hiện của các hiệp hội và các mối tương quan giữa các mục trong tập dữ liệu lớn giao dịch hoặc quan hệ Với số lượng lớn các dữ liệu tieáp tuïc uously được thu thập và lưu trữ, nhiều ngành công nghiệp đang trở nên quan tâm đến việc khai thác mô hình như vậy từ cơ sở dữ liệu của họ Việc phát hiện ra mối quan hệ tương quan hệ giữa các tàu một lượng lớn hồ sơ giao dịch kinh doanh có thể giúp đỡ bằng nhiều busi- Ness quá trình ra quyết định như thiết kế catalogue, qua tiếp thị, và phân tích hành vi mua sắm của khách hàng

Một ví dụ điển hình của khai thác tập phổ biến là thị trường phân tích giỏ Quá trình này phân tích thói quen mua sắm của khách hàng bằng cách tìm mối liên hệ giữa các mục khác nhau mà khách hàng đặt trong "giỏ hàng" của họ (Hình 6.1) Việc phát hiện ra các các hiệp hội có thể giúp các nhà bán lẻ phát triển các chiến lược tiếp thị bằng cách đạt được cái nhìn sâu sắc vào các mục thường xuyên được mua lại với nhau của khách hàng Ví dụ, nếu khách hàng đang mua sữa, làm thế nào có khả năng là họ cũng mua bánh mì (và những loại bánh mì) trên cùng một chuyến đi

Trang 3

tới siêu thị? Thông tin này có thể dẫn đến tăng doanh thu bằng cách giúp các nhà bán lẻ làm tiếp thị có chọn lọc và có kế hoạch không gian trưng bày của họ

Chúng ta hãy xem xét một ví dụ về cách phân tích giỏ thị trường có thể có ích

Phân tích giỏ Ví dụ 6.1 Market Giả sử, là người quản lý của một chi nhánh AllElectronics, bạn

muốn tìm hiểu thêm về thói quen mua sắm của khách hàng Cụ thể, bạn tự hỏi, "Những nhóm hoặc bộ các mặt hàng là khách hàng có khả năng mua hàng trên một chuyến đi cho các cửa hàng?" Để trả lời câu hỏi của bạn, phân tích giỏ thị trường có thể được thực hiện trên các dữ liệu bán lẻ của khách hàng giao dịch tại cửa hàng của bạn Sau đó bạn có thể sử dụng kết quả để hoạch định các chiến lược tiếp thị hay quảng cáo, hoặc trong các thiết kế của một cửa hàng mới Ví dụ, giỏ thị trường ysis có thể giúp bạn thiết kế bố trí cửa hàng khác nhau Trong một chiến lược, các mục thường xuyên được mua lại với nhau có thể được đặt ở gần khuyến khích hơn nữa việc bán tổng hợp của các mặt hàng đó Nếu khách hàng mua máy tính cũng có xu hướng mua phần mềm diệt virus cùng một lúc, sau đó đặt các màn hình phần cứng gần với phần mềm hiển thị có thể giúp tăng doanh số bán hàng của cả hai mục.

Trong một chiến lược thay thế, đặt phần cứng và phần mềm ở hai đầu đối diện của cửa hàng có thể lôi kéo những khách hàng mua các sản phẩm đó để chọn lên các mặt hàng khác trên đường

đi Ví dụ, sau khi quyết định trên một máy tính đắt tiền, một khách hàng có thể quan sát thống an ninh Hướng dẫn thanh toán để bán trong khi hướng về phía phần mềm hiển thị để mua phần mềm chống virus, và có thể quyết định mua một hệ thống an ninh nhà là tốt Phân tích giỏ thị trường cũng có thể giúp các nhà bán lẻ có kế hoạch mục để đưa vào bán với giá giảm Nếu khách hàng có xu hướng mua các máy tính và máy in với nhau, sau đó có một bán trên các máy in có thể khuyến khích việc bán máy in cũng như máy tính

Nếu chúng ta nghĩ về vũ trụ như là tập hợp của các mặt hàng có sẵn tại cửa hàng, sau đó mỗi mục có một biến Boolean đại diện cho sự hiện diện hay vắng mặt của mục đó Mỗi giỏ sau đó có thể được biểu diễn bởi một vectơ Boolean của các giá trị được gán cho các biến này Các vectơ Boolean có thể được phân tích cho mua mô hình phản ánh các mặt hàng được thường xuyên liên quan chặt chẽ hoặc mua lại với nhau Những mô hình có thể được biểu diễn dưới dạng luật kết hợp Ví dụ, các thông tin mà khách hàng mua máy tính cũng có xu hướng mua các phần mềm chống virus đồng thời là đại diện trong các luật kết hợp sau đây:

máy tính ⇒ phần mềm diệt virus [hỗ trợ = 2%, tin cậy = 60%] (6.1)

hỗ trợ Rule và sự tự tin là hai biện pháp cai trị lý thú Họ những người nhiễm phản ánh tính hữu ích và chắc chắn của quy tắc phát hiện Một hỗ trợ 2% cho Rule (6.1) có nghĩa là 2% của tất cả các giao dịch theo phân tích cho rằng máy tính và phần mềm chống virus được mua lại với nhau Một niềm tin của 60% có nghĩa là 60% khách hàng đã mua một máy tính cũng đã mua lại phần mềm Thông thường, các quy tắc sự liên được coi là thú vị nếu họ đáp ứng cả hai ngưỡng

hỗ trợ tối thiểu và ngưỡng tin cậy tối thiểu Các ngưỡng này có thể là một tập hợp của người sử dụng hoặc các chuyên gia tên miền Phân tích bổ sung có thể được thực hiện để phát hiện ra mối tương quan thống kê thú vị giữa các hạng mục liên quan.

Trang 4

6.1.2 tập phổ biến, đóng tập phổ biến và luật kết hợp

Hãy I = {I1, I2, , Im} là một tập phổ biến Cho D, dữ liệu công việc có liên quan, là một tập hợp các giao dịch cơ sở dữ liệu, nơi mỗi giao dịch T là một tập phổ biến khác rỗng mà T ⊆ I Mỗi giao dịch được kết hợp với một định danh, gọi là TID Cho A là một tập hợp của các mặt hàng T hành động xuyên được cho là chứa A nếu A ⊆ T Một luật kết hợp là một ý nghĩa của mẫu A ⇒ B, trong đó A ⊂ I, B ⊂ I, A / = ∅, B / = ∅, và A ∩ B = φ Các quy tắc A ⇒ B giữ trong

bộ giao dịch D với sự hỗ trợ của, trong đó s là tỷ lệ giao dịch trong D có chứa A ∪ B (tức là, các công đoàn của bộ A và B nói, hay, cả A và B) Điều này được thực hiện để có xác suất P (A ∪ B) 0,1 Các quy tắc A ⇒ B có tự tin c trong giao dịch thiết lập D,

trong đó c là tỷ lệ phần trăm của các giao dịch trong D chứa A mà cũng chứa B Điều này được thực hiện để là xác suất có điều kiện, P (B | A) Đó là,

hỗ trợ (A⇒B) = P (A ∪ B) (6.2)

tự tin (A⇒B) = P (B | A) (6.3)

Quy định thoả mãn cả một ngưỡng tối thiểu hỗ trợ (min sup) và tối thiểu ngưỡng fidence nhiễm (conf phút) được gọi là mạnh mẽ Theo quy ước, chúng tôi viết thư ủng hộ và niềm tin giá trị để xảy ra giữa 0% và 100%, chứ không phải là 0-1,0

Một số mặt hàng được gọi là một itemset.2 Một tập phổ biến có chứa mục k là

k-itemset Các tập {máy tính, phần mềm chống virus} là một 2-itemset Sự xuất hiện fre- tần của một tập phổ biến là số lượng giao dịch có chứa các tập phổ biến Điều này cũng được biết đến, đơn giản, như tần số, số lượng hỗ trợ, hoặc số của tập phổ biến Lưu ý rằng sự hỗ trợ tập phổ biến được xác định trong phương (6.2) đôi khi được gọi là hỗ trợ tương đối, trong khi tần số xảy

ra được gọi là sự hỗ trợ tuyệt đối Nếu sự hỗ trợ tương đối của một tập phổ biến tôi thỏa mãn một ngưỡng hỗ trợ tối thiểu được xác định trước (tức là, sự ủng hộ tuyệt đối của tôi đáp ứng các ngưỡng hỗ trợ tối thiểu số lượng tương ứng), sau đó tôi là một thường xuyên itemset.3 Các bộ thường xuyên k-tập phổ biến thường được ký hiệu bằng Lc 0,4

Từ phương trình (6.3), chúng tôi có

sự tự tin (A⇒B)= P (B | A) = hỗ trợ (A ∪ B) /hỗ trợ (A) = số hỗ trợ(A ∪ B)/số hỗ trợ (A) (6.4)

1Notice rằng các ký hiệu P (A ∪ B) cho thấy xác suất mà một giao dịch có chứa các công đoàn của bộ A và B (tức là, nó có chứa tất cả các mục trong A và B) Điều này không nên nhầm lẫn với

P (A hoặc B), cho biết xác suất mà một giao dịch có chứa hoặc là A hoặc B

2in các tài liệu nghiên cứu khai thác dữ liệu ", tập phổ biến" được sử dụng nhiều hơn "mục thiết lập."

3in công việc sớm, tập phổ biến đáp ứng hỗ trợ tối thiểu được gọi là lớn Thuật ngữ này, tuy nhiên, là hơi khó hiểu vì nó có ý nghĩa của số lượng các mục trong một tập phổ biến hơn là tần

số xuất hiện của bộ này Do đó, chúng tôi sử dụng thuật ngữ gần đây thường xuyên hơn

4Although thuật ngữ thường xuyên được ưa thích hơn lớn, vì những lý do lịch sử thường xuyên k-tập phổ biến vẫn được biểu thị là Lc.

Trang 5

Phương trình (6.4) cho thấy niềm tin của các quy tắc A ⇒ B có thể dễ dàng bắt nguồn từ tính hỗ trợ của A và A ∪ B Đó là, một khi số lượng hỗ trợ của A, B, và A ∪ B được tìm thấy, nó là đơn giản để lấy được các hiệp hội tương ứng với quy tắc A ⇒ B và B ⇒ A và kiểm tra xem họ rất mạnh Như vậy, vấn đề của luật kết hợp khai thác khoáng sản có thể giảm xuống mà khai thác các tập phổ biến

Nói chung, hiệp hội khai thác quy tắc có thể được xem như là một quá trình hai bước:

1 Tìm tất cả các tập phổ biến: Theo định nghĩa, mỗi tập phổ biến sẽ xảy ra ít nhất là thường

xuyên như một số hỗ trợ tối thiểu được xác định trước, min sup

2 Tạo luật kết hợp mạnh mẽ từ các tập phổ biến: Theo định nghĩa, những quy định này phải

đáp ứng hỗ trợ tối thiểu và tin cậy tối thiểu

Pháp lý thú bổ sung có thể được áp dụng cho việc phát hiện ra mối quan hệ tương quan giữa các hạng mục liên quan, như sẽ được thảo luận trong Phần 6.3 Bởi vì bước thứ hai là ít tốn kém hơn

so với lần đầu tiên, hiệu suất tổng thể của luật kết hợp khai thác khoáng sản được xác định bởi những bước đầu tiên

Một thách thức lớn trong khai thác tập phổ biến từ một tập dữ liệu lớn là một thực tế rằng việc khai thác như vậy thường tạo ra một số lượng lớn các tập phổ biến đáp ứng hỗ trợ tối thiểu (min sup) ngưỡng, đặc biệt là khi phút sup được thiết lập thấp Điều này là bởi vì nếu một tập phổ biến thường xuyên, mỗi tập con của nó là thường xuyên là tốt Một itemset dài sẽ chứa một số Rial combinato- của ngắn hơn, thường xuyên tiểu tập phổ biến Ví dụ, một tập phổ biến có chiều dài

100, chẳng hạn như {a1, a2, , A100}, chứa 0,100 = 100 thường xuyên 1-tập phổ biến: {a1}, {a2} ,

{A100}; 100 thường xuyên 2 tập phổ biến: {a1, a2}, {a1, a3} , {A99, A100}; và như

vậy.Tổng số tập phổ biến mà nó chứa là do

Điều này là quá lớn một số tập phổ biến cho bất kỳ máy tính để tính toán hay lưu trữ Để trên đến khó khăn này, chúng tôi giới thiệu các khái niệm về tập phổ biến đóng và tập phổ biến tối đại Một itemset X được đóng trong một bộ dữ liệu D nếu có tồn tại không thích hợp siêu itemset Y 5

mà Y có tính hỗ trợ tương tự như X D một itemset X là một tập phổ biến đóng trong tập D nếu

X là cả hai đóng cửa và thường xuyên trong D một itemset X là một tập phổ biến tối đa thường xuyên (hoặc max-itemset) trong một tập dữ liệu D nếu X là thường xuyên, và có tồn tại không có siêu itemset Y

như rằng X ⊂ Y và Y là thường xuyên ở D

Hãy C là tập các tập phổ biến đóng cho một tập dữ liệu D thỏa mãn ngưỡng sự hỗ trợ tối thiểu, min sup Gọi M là tập các tập phổ biến tối đa cho D thỏa mãn sup min Giả sử chúng ta có tính

hỗ trợ của mỗi tập phổ biến trong C và M Chú ý rằng C và thông tin số của nó có thể được sử dụng để lấy được toàn bộ các tập phổ biến 5y là một siêu tập phổ biến thích hợp của X nếu X là một phụ thích hợp tập phổ biến của Y, có nghĩa là, nếu X ⊂ Y Nói cách khác, tất cả các mục của

X được chứa trong Y nhưng có ít nhất một mục của Y mà không có trong X.

Trang 6

Như vậy, chúng ta nói rằng C có chứa đầy đủ thông tin liên quan đến các tập phổ biến tương ứng của nó Mặt khác, M chỉ ghi lại sự hỗ trợ của các tập phổ biến tối đa Nó thường không có các thông tin hỗ trợ đầy đủ về tập phổ biến tương ứng của nó Chúng tôi minh họa các khái niệm này với Ví dụ 6.2

Ví dụ 6.2 tập phổ biến đóng và tối đa Giả sử rằng một cơ sở dữ liệu giao dịch chỉ có hai giao

dịch: {( A1, a2,, A100); (a1, a2, , A50)} Hãy để các ngưỡng hỗ trợ số lượng tối thiểu được min sup = 1 Chúng tôi tìm thấy hai đóng tập phổ biến và số lượng hỗ trợ của họ, đó là, C = {{a1, a2, , A100}: 1; {a1, a2, , A50}: 2} Chỉ có một imal max- tập phổ biến: M = {{a1, a2, , A100}: 1} Chú ý rằng chúng ta không thể bao gồm

{a1, a2, , A50} là một tập phổ biến tối đại bởi vì nó có một siêu thường xuyên,

{a1, a2, , A100} So sánh với trước đó mà chúng tôi xác định rằng có 2100-1 tập phổ biến, đó

là quá nhiều để được liệt kê!

Tập hợp các tập phổ biến đóng chứa thông tin đầy đủ về các fre-

tập phổ biến quent Ví dụ, từ C, chúng ta có thể lấy được, nói, (1) {a2, A45: 2} từ {a2, A45} là một tiểu tập phổ biến của các itemset {a1, a2, , A50: 2}; và (2) {a8, a55: 1} từ {a8, a55} không phải là một tiểu tập phổ biến của các tập phổ biến trước đó nhưng các itemset {a1, a2, , A100: 1} Tuy nhiên, từ các tập phổ biến tối đại, chúng tôi chỉ có thể khẳng định rằng cả hai tập phổ biến ({a2, A45} và

{a8, a55}) là thường xuyên, nhưng chúng tôi không thể khẳng định được tính hỗ trợ thực tế của

họ

6.2 tập phổ biến phương pháp khai thác

Trong phần này, bạn sẽ tìm hiểu phương pháp để khai thác các hình thức đơn giản nhất của đàn chim nhạn pat- thường xuyên như những thảo luận để phân tích giỏ thị trường tại mục

6.1.1 Chúng ta bắt đầu bằng cách trình bày Apriori, các thuật toán cơ bản cho việc tìm kiếm

các tập phổ biến (mục 6.2.1) Trong phần 6.2.2, chúng ta nhìn như thế nào để tạo ra các luật kết hợp mạnh mẽ từ bộ item- thường xuyên Mục 6.2.3 mô tả một số biến thể của thuật toán Apriori

để cải thiện hiệu suất và khả năng mở rộng Mục 6.2.4 trình bày các phương pháp mô hình tăng trưởng cho khai thác tập phổ biến mà giới hạn không gian tìm kiếm tiếp theo để chỉ các bộ dữ liệu hộp đựng ing các tập phổ biến hiện nay Mục 6.2.5 trình bày các phương pháp khai thác tập phổ biến mà tận dụng lợi thế của các định dạng dữ liệu theo chiều dọc

6.2.1 Apriori Thuật toán: Tìm tập phổ biến bởi có hạn chế trên Candidate hệ

Apriori là một thuật toán chuyên đề của R Agrawal và R Srikant đề xuất vào năm 1994 cho min

- ing tập phổ biến cho hiệp hội Boolean cai [AS94b] Tên của thuật toán được dựa trên thực tế rằng các thuật toán sử dụng kiến thức của erties prop- tập phổ biến, như chúng ta sẽ thấy sau này Apriori sử dụng một cách tiếp cận lặp được biết đến như một tìm kiếm mức độ khôn ngoan, với k-tập phổ biến được sử dụng để khám phá (k + 1) -itemsets Đầu tiên, các bộ thường xuyên 1-tập phổ biến được tìm thấy bằng cách quét các cơ sở dữ liệu để tích lũy tính cho từng mục, và

Trang 7

249 thu thập những vật phẩm đáp ứng hỗ trợ tối thiểu Các bộ kết quả được biểu thị bởi L1 Tiếp theo, L1 được sử dụng để tìm L2, bộ thường xuyên 2 tập phổ biến, được sử dụng để tìm L3, và như vậy, cho đến khi không thường xuyên hơn k-tập phổ biến có thể được tìm thấy Phát hiện của mỗi Lc đòi hỏi một quét toàn bộ cơ sở dữ liệu

để nâng cao hiệu quả của các thế hệ trình độ khôn ngoan của tập phổ biến, một tài sản quan trọng được gọi là tài sản Apriori được sử dụng để giảm không gian tìm kiếm

Tài sản Apriori: Tất cả các tập con khác rỗng của một tập phổ biến cũng phải được thường xuyên

các tài sản Apriori được dựa trên những quan sát sau Theo định nghĩa, nếu một bộ item- tôi không đáp ứng các ngưỡng hỗ trợ tối thiểu, min sup, sau đó tôi không phải là thường xuyên, nghĩa là P (I) <min sup Nếu một mục A được thêm vào các tập phổ biến tôi, thì kết quả là tập phổ biến (tức là, tôi ∪ A) không có thể xảy ra thường xuyên hơn I Vì vậy, tôi ∪ A là không thường xuyên, hoặc, đó là, P (I ∪ A) <min sup

Khách sạn này thuộc về một thể loại đặc biệt của tài sản được gọi là antimonotonicity trong

ý nghĩa rằng nếu một tập hợp không thể vượt qua một bài kiểm tra, tất cả các supersets của nó sẽ thất bại cùng một thử nghiệm là tốt Nó được gọi là antimonotonicity vì tài sản là đơn điệu trong bối cảnh không một test.6

"Làm thế nào là tài sản Apriori được sử dụng trong các thuật toán?" Để hiểu điều này, chúng ta hãy nhìn vào cách Lk-1 được sử dụng để tìm Lc cho k ≥ 2 Một quá trình hai bước theo sau, bao gồm tham gia và prune hành động

1 Các bước tham gia: Để tìm Lc, một tập hợp các ứng cử viên k-tập phổ biến được tạo ra bằng

cách tham gia Lk-1 với chính nó Điều này đặt các ứng cử viên được ký hiệu là Ck Hãy l1 và l2

là tập phổ biến trong Lk-1 Các ký hiệu li [j] đề cập đến mục thứ j trong li (ví dụ, l1 [k - 2] đề cập đến thứ hai đến mục cuối cùng trong l1) Để thực hiện hiệu quả, Apriori giả định rằng các mục bên trong một giao dịch hoặc tập phổ biến đều được sắp xếp theo thứ tự tự từ điển Đối với các (k - 1) -itemset, li, điều này có nghĩa rằng các mục được sắp xếp như vậy mà li [1] <li [2]

<· · · <li [k - 1] Các join, Lk-1 ✶ Lk-1, được thực hiện, nơi các thành viên của Lk-1 là

joinable nếu đầu tiên của họ (k - 2) ghi được điểm chung Đó là, các thành viên L1 và L2

của Lk-1 được tham gia nếu (l1 [1] = l2 [1]) ∧ (l1 [2] = l2 [2]) ∧ · · · ∧ (l1 [k - 2] = l2 [k - 2])

∧ (l1 [k - 1] <l2 [k - 1]) Các điều kiện l1 [k - 1] <l2 [k - 1] chỉ cần đảm bảo rằng không có bản sao được tạo ra Các tập phổ biến dẫn đến hình thành bằng cách tham gia l1 và l2 là

{l1 [1], l1 [2], , L1 [k - 2], l1 [k - 1], l2 [k - 1].}

2 Bước prune: Ck là một siêu của Lc, có nghĩa là, các thành viên của nó có thể hoặc không thể

được thường xuyên, nhưng tất cả các thường xuyên k-tập phổ biến có trong Ck Một cơ sở dữ liệu quét để xác định số lượng của mỗi ứng cử viên trong Ck sẽ cho kết quả trong việc xác định

Lc (tức là, tất cả các ứng cử viên có một số không ít hơn số lượng hỗ trợ tối thiểu là thường xuyên theo định nghĩa, và do đó thuộc về Lc) Ck, tuy nhiên, có thể là rất lớn, và vì vậy điều này

có thể liên quan đến việc tính toán nặng Để giảm kích thước của Ck, tài sản Apriori

tài sản 6The Apriori có nhiều ứng dụng Ví dụ, nó cũng có thể được sử dụng để tỉa tìm kiếm trong khối dữ liệu tính toán (Chương 5).

Trang 8

250 được sử dụng như sau Bất kỳ (k - 1) -itemset đó không phải là thường xuyên không thể là một tập hợp con của một thường xuyên k-itemset Do đó, nếu có (k - 1) -subset của một ứng cử viên k-itemset không có trong Lk-1, sau đó các ứng cử viên có thể không thường xuyên hoặc và do đó

có thể được gỡ bỏ từ Ck Kiểm tra tập hợp này có thể được thực hiện một cách nhanh chóng bằng cách duy trì một cây băm của tất cả các tập phổ biến

Ví dụ 6.3 Apriori Hãy xem xét một ví dụ cụ thể, dựa trên cơ sở dữ liệu giao dịch

AllElectronics, D, trong Bảng 6.1 Có chín giao dịch trong cơ sở dữ liệu này, có nghĩa là, | D | =

9 Chúng tôi sử dụng Hình 6.2 minh họa các thuật toán Apriori để tìm tập phổ biến trong D

1 Trong phiên đầu tiên của thuật toán, mỗi mục là một thành viên của tập hợp các ứng cử viên

1-tập phổ biến, C1 Các thuật toán đơn giản là quét tất cả các giao dịch để đếm số lần xuất hiện của mỗi mục

2 Giả sử rằng số lượng hỗ trợ tối thiểu là 2, đó là, sup min = 2 (Ở đây, chúng ta đang đề cập đến

hỗ trợ tuyệt đối bởi vì chúng tôi đang sử dụng một số hỗ trợ Sự hỗ trợ tương đối kèm tho là 2/9

= 22%) các bộ thường xuyên 1-tập phổ biến, L1, có thể sau đó được xác định Nó bao gồm các ứng cử viên 1-tập phổ biến đáp ứng hỗ trợ tối thiểu Trong ví dụ của chúng tôi, tất cả các ứng cử viên trong C1 đáp ứng hỗ trợ tối thiểu

3 Để khám phá những bộ thường xuyên 2 tập phổ biến, L2, các thuật toán sử dụng tham gia L1

✶ L1 để tạo ra một bộ ứng cử viên của 2 tập phổ biến, C2.7 C2 bao gồm | L1 | 2 tập phổ

Trang 9

Hình 6.2 Thế hệ của các tập phổ biến ứng cử viên và tập phổ biến, trong đó số lượng hỗ trợ tối

thiểu là 2

4 Tiếp theo, các giao dịch trong D được quét và số lượng hỗ trợ của từng ứng cử viên tập phổ

biến trong C2 được tích lũy, như thể hiện trong bảng giữa hàng thứ hai trong hình 6.2

5 Các bộ thường xuyên 2 tập phổ biến, L2, sau đó được xác định, bao gồm những ứng cử viên 2

tập phổ biến trong C2 có hỗ trợ tối thiểu

6 Thế hệ của các thiết lập của ứng cử viên 3 tập phổ biến, C3, được trình bày chi tiết trong hình

6.3.Từ bước tham gia, đầu tiên chúng ta có được C3 = L2 ✶ L2 = {{I1, I2, I3}, {I1, I2, I5}, {I1, I3, I5},

{I2, I3, I4}, {I2, I3, I5}, {I2, I4, I5}} Căn cứ vào các tài sản Apriori rằng tất cả các tập con của một tập phổ biến cũng phải được thường xuyên, chúng ta có thể xác định rằng bốn ứng cử viên thứ hai không thể là thường xuyên Do đó chúng tôi loại bỏ chúng từ C3, do đó tiết kiệm các nỗ lực có được không cần thiết đếm của họ trong quá trình quét tiếp theo của D để xác định L3 Lưu

ý rằng khi đưa ra một ứng cử viên k-itemset, chúng ta chỉ cần kiểm tra xem nó (k - 1) -subsets thường xuyên kể từ khi các thuật toán Apriori sử dụng một mức độ khôn ngoan

Trang 10

a) Tham gia: C3 = L2 ✶ L2 = {{I1, I2}, {I1, I3}, {I1, I5}, {I2, I3}, {I2, I4}, {I2, I5}}

✶ { {I1, I2}, {I1, I3}, {I1, I5}, {I2, I3}, {I2, I4}, {I2, I5}}

= {{I1, I2, I3}, {I1, I2 , I5}, {I1, I3, I5}, {I2, I3, I4}, {I2, I3, I5}, {I2, I4, I5}}

(b) Prune sử dụng tài sản Apriori: Tất cả các tập con khác rỗng của một tập phổ biến cũng phải

được thường xuyên Do bất kỳ của các ứng cử viên có một tập hợp con đó không phải là thường xuyên?

-Các tập con 2 mục tương ứng của {I1, I2, I3} là {I1, I2}, {I1, I3}, và {I2, I3} Tất cả các tập con

2 mục tương ứng của {I1, I2, I3} là thành viên của L2 Vì vậy, giữ {I1, I2, I3} trong C3

-Các tập con 2 mục tương ứng của {I1, I2, I5} là {I1, I2}, {I1, I5}, và {I2, I5} Tất cả các tập con

2 mục tương ứng của {I1, I2, I5} là thành viên của L2 Vì vậy, giữ {I1, I2, I5} trong C3

-Các tập con 2 mục tương ứng của {I1, I3, I5} là {I1, I3}, {I1, I5}, và {I3, I5} {I3, I5} không phải là một thành viên của L2, và vì vậy nó không phải là thường xuyên Vì vậy, loại bỏ {I1, I3, I5} từ C3

-Các tập con 2 mục tương ứng của {I2, I3, I4} được {I2, I3}, {I2, I4}, và {I3, I4} {I3, I4} không phải là một thành viên của L2, và vì vậy nó không phải là thường xuyên Vì vậy, loại bỏ {I2, I3, I4} từ C3

(C) Vì vậy, C3 = {{I1, I2, I3}, {I1, I2, I5}} sau khi cắt tỉa

Hình 6.3 Generation và cắt tỉa của ứng cử viên 3 tập phổ biến , C3, từ L2 sử dụng tài sản

Apriori chiến lược tìm kiếm Phiên bản dẫn tỉa của C3 được thể hiện trong bảng đầu tiên của dòng dưới cùng của hình 6.2

7 Các giao dịch trong D được quét để xác định L3, bao gồm những ứng cử viên 3 tập phổ biến

trong C3 có hỗ trợ tối thiểu (Hình 6.2)

8 Các thuật toán sử dụng L3 ✶ L3 để tạo ra một bộ ứng cử viên của 4-tập phổ biến, C4 Mặc dù các kết quả trong gia {{I1, I2, I3, I5}}, itemset {I1, I2, I3, I5} được tỉa vì tập con của

{I2, I3, I5} không phải là thường xuyên Như vậy, C4 = φ, và chấm dứt thuật toán, sau khi đã tìm thấy tất cả các tập phổ biến

Hình 6.4 cho thấy giả cho các thuật toán Apriori và thủ tục liên quan của nó Bước 1 của Apriori tìm thấy thường xuyên 1-tập phổ biến, L1 Trong bước 2 đến 10, Lk-1 được sử dụng để tạo ra các ứng cử viên Ck để tìm Lc cho k ≥ 2 Thủ tục apriori gen tạo ra các ứng cử viên và sau đó sử dụng các tài sản Apriori để loại bỏ những người có một tập hợp con đó là không thường xuyên (bước 3) Thủ thuật này được mô tả sau Một khi tất cả các ứng cử viên đã được tạo ra, các cơ sở dữ liệu được quét (bước 4) Đối với mỗi giao dịch, một chức năng tập hợp được sử dụng để tìm tất cả cáctập con của giao dịch là các ứng viên (bước 5), và số lượng cho mỗi ứng cử viên được tích lũy (bước 6 và 7) Cuối cùng, tất cả các ứng viên đáp ứng được hỗ trợ tối thiểu (bước 9) tạo thành các

bộ tập phổ biến, L (bước 11)

253

Trang 11

Thuật toán: Apriori Tìm tập phổ biến cách sử dụng một phương pháp tiếp cận trình độ khôn

ngoan lặp dựa trên thế hệ ứng cử viên

Input:

D, một cơ sở dữ liệu của các giao dịch;

min sup, ngưỡng hỗ trợ tối thiểu số

Output: L, tập phổ biến trong D

Phương pháp:

(1) L1 = tìm thấy thường xuyên 1-tập phổ biến (D); (2) cho (k = 2; Lc-1 / = φ; k ++) {

(3) Ck = apriori gen (Lk-1);

(4) cho mỗi giao dịch t ∈ D {// quét D cho đếm

(5 ) Ct = tập hợp con (Ck, t); // Có được các tập con của t là các ứng viên

(6) cho mỗi ứng viên c ∈ Ct

thủ tục apriori gen (Lc 1: thường xuyên (k - 1) -itemsets)

(1) cho mỗi tập phổ biến l1 ∈ Lk-1

(2) cho mỗi tập phổ biến l2 ∈ Lk-1

(3) if (l1 [1] = l2 [1]) ∧ (l1 [2] = l2 [2])

∧ ∧ (l1 [k - 2] = l2 [k - 2]) ∧ (l1 [k - 1] <l2 [k - 1]) sau đó {

(4) c = l1 ✶ l2; // Tham gia bước: tạo ra các ứng cử viên

(5) nếu có tập con không thường xuyên (c, Lk-1) sau đó

(6) xóa c; // Mận bước: loại bỏ ứng cử viên không kết quả

(7) khác thêm c để Ck;

(8)}

(9) trở Ck;

thủ tục có tập con không thường xuyên (c: ứng cử viên k-itemset;

Lk-1: thường xuyên (k - 1) - tập phổ biến); // Sử dụng kiến thức

(1) cho mỗi (k - 1) -subset s của c

để loại bỏ các ứng cử viên có một tập hợp con đó không phải là thường xuyên Các thử nghiệm cho các tập con không thường xuyên được thể hiện trong quy trình có tập con không thường xuyên

254

Trang 12

6.2.2 Quy định Hiệp hội Tạo từ tập phổ biến

khi các tập phổ biến từ các giao dịch trong một cơ sở dữ liệu D đã được tìm thấy, nó là đơn giản

để tạo ra các luật kết hợp mạnh mẽ của mình (nơi quy định sự liên mạnh mẽ đáp ứng cả hai hỗ trợtối thiểu và tin cậy tối thiểu) Điều này có thể được thực hiện bằng phương trình (6.4) cho sự tự tin, mà chúng tôi cho thấy một lần nữa ở đây cho đầy đủ:

tự tin (A ⇒ B) = P (B | A) = số hỗ trợ (A ∪ B) /số hỗ trợ (A)

Xác suất có điều kiện được thể hiện trong các điều khoản của itemset số hỗ trợ, nơi số hỗ trợ (A

∪ B) là số lượng giao dịch có chứa các tập phổ biến A ∪ B, và số lượng hỗ trợ (A) là số lượng giao dịch có chứa các tập phổ biến A Dựa vào phương trình này, các luật kết hợp có thể được tạo

ra như sau:

Đối với mỗi tập phổ biến l thường xuyên, tạo ra tất cả các tập con khác rỗng của l

Đối với mỗi tập con khác rỗng của các l, đầu ra quy tắc "s ⇒ (l - s)" nếu hỗ trợ tính (l) ≥

min conf, nơi phút conf là ngưỡng tin cậy tối thiểu

Bởi vì các quy tắc được tạo ra từ các tập phổ biến, mỗi người tự động satis- FIEs sự hỗ trợ tối thiểu.Tập phổ biến có thể được lưu trữ trước thời hạn trong bảng băm cùng với số lượng của họ

để họ có thể được truy cập một cách nhanh chóng

Ví dụ 6.4 Tạo luật kết hợp Hãy thử một ví dụ dựa trên các dữ liệu giao dịch cho AllElectronics

thể hiện trước đây trong Bảng 6.1 Các dữ liệu chứa tập phổ biến X = {I1, I2, I5} Các luật kết hợp có thể được tạo ra từ X là gì? Các tập con khác rỗng của X là {I1, I2}, {I1, I5}, {I2, I5}, {I1}, {I2}, và {} I5 Kết quả là các luật kết hợp được như hình dưới đây, từng được liệt kê với sự

tự tin của mình:

{I1, I2} ⇒ I5, tin cậy = 2/4 = 50%

{I1, I5} ⇒ I2, tin cậy = 2/2 = 100%

{I2, I5} ⇒ I1, tin cậy = 2/2 = 100% I1 ⇒ {I2, I5}, sự tự tin = 2/6 = 33% I2 ⇒ {I1, I5}, sự tự tin = 2/7 = 29% I5 ⇒ {I1, I2}, sự tự tin = 2/2 = 100%

Nếu ngưỡng tin cậy tối thiểu là, nói, 70%, sau đó chỉ là quy tắc thứ hai, thứ ba, và cuối cùng là đầu ra, bởi vì đây là những người duy nhất được tạo ra mà là mạnh mẽ Lưu ý rằng, không giống như các quy tắc phân loại thông thường, luật kết hợp có thể chứa nhiều hơn một liên kết ở phía bên phải của các quy tắc

6.2.3 Nâng cao hiệu quả của Apriori

"Làm thế nào chúng ta có thể tiếp tục nâng cao hiệu quả khai thác Apriori dựa trên?" Nhiều biến thể của các thuật toán Apriori đã được đề xuất tập trung đó vào việc nâng cao hiệu quả của các thuật toán ban đầu Một số các biến thể được tóm tắt như sau:

255

Trang 13

H2

Tạo băm bảng H2

bằng hàm băm

h (x, y) = ((tự x) × 10

+ (thứ tự của y)) mod 7

Hình 6.5 bảng Hash, H2, cho ứng cử viên 2 tập phổ biến Bảng băm này được tạo ra bằng cách

quét các giao dịch Bảng 6.1 trong khi xác định L1 Nếu số lượng hỗ trợ tối thiểu là, nói, 3, sau đó các tập phổ biến trong xô 0, 1, 3 và 4 có thể không được thường xuyên và vì vậy họ không nên được bao gồm trong C2

Kỹ thuật băm dựa (băm tập phổ biến vào thùng tương ứng): A băm dựa trên kỹ thuật có thể

được sử dụng để làm giảm kích thước của các ứng cử viên k-tập phổ biến, Ck, cho k> 1 Ví dụ, khi quét từng giao dịch trong cơ sở dữ liệu để tạo ra thường xuyên 1-tập phổ biến, L1, chúng ta

có thể tạo ra tất cả các 2 tập phổ biến cho mỗi giao dịch, băm (tức là, bản đồ) chúng vào các thùng khác nhau của một cấu trúc bảng băm, và tăng số lượng thùng ing correspond- (Hình 6.5) A 2-itemset với một số thùng tương ứng trong bảng băm mà là dưới ngưỡng hỗ trợ không thể được thường xuyên và do đó cần được loại bỏ từ tập ứng cử viên Một kỹ thuật băm dựa trên như vậy có thể làm giảm đáng kể số lượng các ứng cử viên k-tập phổ biến kiểm tra (đặc biệt là khi k = 2)

Giảm giao dịch (giảm số lượng các giao dịch quét nhà chức itera- tương lai): Một giao dịch

không chứa bất kỳ k thường xuyên -itemsets không thể chứa bất kỳ thường xuyên (k + 1)

-itemsets Do đó một giao dịch như vậy có thể được đánh dấu hoặc gỡ bỏ từ xem xét thêm vì quét

cơ sở dữ liệu tiếp theo cho j-tập phổ biếntrong đó j> k, sẽ không cần phải xem xét một giao dịch

đó

Phân vùng (phân vùng dữ liệu để tìm tập phổ biến ứng cử viên): Một công nghệ phân vùng -

nique có thể được sử dụng mà yêu cầu chỉ cần hai lần quét cơ sở dữ liệu để khai thác tập phổ biến(Hình 6.6) No bao gôm hai giai đoạn Trong giai đoạn I, các thuật toán phân chia các hành động xuyên của D vào phân vùng n không chồng lấn Nếu ngưỡng hỗ trợ tương đối tối thiểu đối với các giao dịch trong D là sup phút, sau đó số lượng hỗ trợ tối thiểu cho một

phân vùng là min sup × số lượng giao dịch trong phân vùng đó Đối với mỗi phân vùng, tất cả cáctập phổ biến tại địa phương (tức là, các tập phổ biến trong phân vùng) được tìm thấy Một tập phổbiến tại địa phương có thể hoặc không thể được thường xuyên liên quan đến toàn bộ cơ sở dữ liệuvới, D Tuy nhiên, bất kỳ tập phổ biến đó là có khả năng thường xuyên đối với D có phải xảy ra như là một tập phổ biến trong ít nhất là một trong những partitions.8 Vì vậy, tất cả các địa phươngtập phổ biến là tập phổ biến ứng cử viên đối với D với Bộ sưu tập của tập phổ biến từ tất cả các phân vùng hình thành các tập phổ biến ứng cử viên toàn cầu đối với D trong giai đoạn II

8 The bằng chứng về tài sản này là trái như một bài tập (xem bài tập 6.3d)

Trang 14

Chia D thành n phân vùng Giai đoạn I Tìm các tập phổ biến

địa phương tại mỗi phân

vùng (1 quét)

Giai đoạn II Tìm tập phổ biến toàn cầu trong số các ứng cử viên tập phổ biến thường xuyên trong D (1 scan)

Hình 6.6 Khai thác bằng cách phân vùng các dữ liệu

một lần quét thứ hai của D được tiến hành, trong đó hỗ trợ thực tế của từng ứng cử viên được đánh giá để xác định các tập phổ biến toàn cầu Kích thước phân vùng và số lượng các phân vùng

đã được thiết lập để cho mỗi phân vùng có thể phù hợp với bộ nhớ chính và do đó được đọc chỉ một lần trong mỗi giai đoạn

Sampling (khai thác trên một tập hợp các dữ liệu nhất định): Ý tưởng cơ bản của phương pháp

lấy mẫu là để chọn một mẫu S ngẫu nhiên của các dữ liệu D được đưa ra, và sau đó tìm kiếm các tập phổ biến trong S thay vì D bằng cách này, chúng tôi đánh đổi một số mức độ chính xác chốnglại hiệu quả Kích thước S mẫu là như vậy mà việc tìm kiếm các tập phổ biến trong S có thể được thực hiện trong bộ nhớ chính, và do đó chỉ có một quét của các giao dịch trong S được yêu cầu tổng thể Bởi vì chúng tôi đang tìm kiếm các tập phổ biến trong S hơn là trong D, có thể là chúng

ta sẽ bỏ lỡ một số các tập phổ biến toàn cầu

Để giảm khả năng này, chúng tôi sử dụng một ngưỡng hỗ trợ thấp hơn hỗ trợ tối thiểu để tìm các tập phổ biến tại địa phương để S (ký hiệu là LS) Phần còn lại của cơ sở dữ liệu sau đó được sử dụng để tính toán tần số thực tế của mỗi tập phổ biến trong LS Một cơ chế được sử dụng để xác định xem tất cả các tập phổ biến toàn cầu có trong LS Nếu LS thực sự có chứa tất cả các tập phổ biến trong D, sau đó chỉ có một quét của D là bắt buộc Nếu không, một đường chuyền thứ hai có thể được thực hiện để tìm các tập phổ biến mà đã bị bỏ lỡ trong qua đầu tiên Phương pháp lấy mẫu là đặc biệt có lợi khi hiệu quả là vô cùng quan trọng như trong các ứng dụng tính toán chuyên sâu phải được chạy thường xuyên

Động tập phổ biến đếm (thêm tập phổ biến ứng cử viên tại các điểm khác nhau trong quá trình

quét): Một kỹ thuật tập phổ biến đếm năng động đã được đề xuất, trong đó các cơ sở dữ liệu đượcphân chia thành các khối được đánh dấu bởi các điểm bắt đầu Trong sự thay đổi này, tập phổ biến ứng cử viên mới có thể được thêm vào bất kỳ thời điểm bắt đầu, không giống như trong Apriori, mà quyết định tập phổ biến ứng cử viên mới chỉ ngay trước mỗi lần quét cơ sở dữ liệu hoàn chỉnh Các nique thuật sử dụng các tính-để-xa như thấp hơn giới hạn của số thực tế Nếu đi đếm-để-xa sự hỗ trợ tối thiểu, các tập phổ biến được thêm vào bộ sưu tập tập phổ biến và có thể được sử dụng để tạo ra các ứng cử viên còn Điều này dẫn đến quét cơ sở dữ liệu ít hơn với

Trang 15

Apriori để tìm tất cả các tập phổ biến

Các biến thể khác sẽ được thảo luận trong chương tiếp theo

257

6.2.4 Cách tiếp cận mẫu-Tăng trưởng cho khai thác tập phổ biến

Như chúng ta đã thấy, trong nhiều trường hợp, các ứng cử viên Apriori phương pháp tạo kiểm tra signifi- đáng làm giảm kích thước của bộ ứng cử viên, dẫn đến tăng hiệu suất tốt Tuy nhiên, nó có thể bị từ hai chi phí không tầm thường:

ra-và-Nó vẫn có thể cần phải tạo ra một số lượng lớn các bộ ứng cử viên Ví dụ, nếu có 104 thường xuyên 1-tập phổ biến, các thuật toán Apriori sẽ cần phải tạo ra hơn 107 ứng cử viên 2 tập phổ biến

Nó có thể cần phải liên tục quét toàn bộ cơ sở dữ liệu và kiểm tra một tập hợp lớn các ứng cử viên do mô hình kết hợp Nó là tốn kém để đi qua mỗi giao dịch trong cơ sở dữ liệu để xác định

sự hỗ trợ của các tập phổ biến ứng cử viên

"Chúng ta có thể thiết kế một phương pháp mà mìn bộ hoàn chỉnh các tập phổ biến mà không có một thế hệ quá trình ứng cử viên tốn kém như vậy?" Một phương pháp thú vị trong nỗ lực này là được gọi là mô hình tăng trưởng thường xuyên, hoặc chỉ đơn giản là FP-tăng trưởng, mà thông qua một chiến lược chia-và-chinh phục như sau Đầu tiên, nó nén cơ sở dữ liệu đại diện cho các mặt hàng thường xuyên vào một cây thường xuyên mẫu, hoặc FP-tree, mà vẫn giữ được thông tinliên kết tập phổ biến Sau đó nó phân chia cơ sở dữ liệu nén vào một tập hợp các cơ sở dữ liệu có điều kiện (một loại đặc biệt của cơ sở dữ liệu dự), mỗi liên kết với một mục thường xuyên hoặc

"mô hình mảnh", và mỏ mỗi cơ sở dữ liệu riêng biệt Đối với mỗi "mảnh mô hình", chỉ tập hợp

dữ liệu có liên quan của nó cần phải được kiểm tra Vì vậy, phương pháp này có thể làm giảm đáng kể kích thước của các bộ dữ liệu được tìm kiếm, cùng với sự "tăng trưởng" của mẫu được kiểm tra Bạn sẽ xem làm thế nào nó hoạt động trong Ví dụ 6.5

Ví dụ 6.5 FP-tăng trưởng (tìm tập phổ biến mà không cần thế hệ ứng viên) Chúng tôi xem xét lại

việc khai thác cơ sở dữ liệu giao dịch, D, trong Bảng 6.1 trong Ví dụ 6.3 bằng cách sử dụng phương pháp tiếp cận phát triển mô hình thường xuyên

Việc quét đầu tiên của cơ sở dữ liệu tương tự như Apriori, mà xuất phát tập các mặt hàng thường xuyên (1-tập phổ biến) và hỗ trợ của họ đếm (tần số) Hãy tính hỗ trợ tối thiểu là 2 Tập hợp các mặt hàng thường xuyên được sắp xếp theo thứ tự giảm dần số lượng hỗ trợ Điều này thiết lập kếtquả hoặc danh sách được ký hiệu là L Vì vậy, chúng ta có L = {{I2: 7}, {I1: 6}, {I3: 6},

{I4: 2}, {I5: 2}}

Một FP sau đó -cây được xây dựng như sau Đầu tiên, tạo thư mục gốc của cây, dán nhãn

với "null" Quét cơ sở dữ liệu D một lần thứ hai Các mặt hàng trong mỗi giao dịch được xử lý theo thứ tự L (tức là, sắp xếp theo giảm dần số lượng hỗ trợ), và một chi nhánh được tạo ra cho mỗi giao dịch Ví dụ, quá trình quét các giao dịch đầu tiên, "T100: I1, I2, I5," trong đó có ba mục (I2, I1, I5 trong L theo thứ tự), dẫn đến việc xây dựng các chi nhánh đầu tiên của cây với ba nút, (I2: 1), (I1: 1), và (I5: 1), nơi I2 được liên kết như một đứa trẻ vào thư mục gốc, I1 được liên kết với I2, và I5 được liên kết với I1 Các giao dịch thứ hai, T200,

chứa các mục I2 và I4 trong L tự, mà sẽ dẫn đến một chi nhánh nơi I2 được liên kết vào thư mục gốc và I4 được liên kết với I2 Tuy nhiên, chi nhánh này sẽ chia sẻ một tiền tố phổ biến, I2, với đường dẫn hiện tại cho T100 Do đó, chúng tôi thay vì tăng số lần của nút I2 bằng 1, và tạo ra một

Trang 16

Hình 6.7 Một ghi FP-tree nén, thông tin mô hình thường xuyên

Khi xem xét các chi nhánh để được thêm vào cho một giao dịch, số lượng của mỗi nút cùng một tiền tố phổ biến được tăng thêm 1, và các nút cho các mục sau các tiền tố được tạo ra và liên kết cho phù hợp

để tạo điều kiện cho cây traversal, một bảng tiêu đề mục được xây dựng sao cho mỗi mục điểm

để xuất hiện trong cây thông qua một chuỗi các nút-link Cây thu được sau khi quét tất cả các giao dịch được thể hiện trong hình 6.7 với các node-liên kết liên quan Bằng cách này, vấn đề khai thác mô hình thường xuyên trong cơ sở dữ liệu được chuyển vào đó khai thác các FP-tree Các FP-tree được khai thác như sau Bắt đầu từ mỗi chiều dài-1 mẫu thường xuyên (như là một

mô hình hậu tố ban đầu), xây dựng cơ sở mô hình có điều kiện của nó (một "tiểu cơ sở dữ liệu", trong đó bao gồm các thiết lập các đường dẫn tiền tố trong FP-tree xảy ra đồng thời với các mô hình hậu tố) , sau đó xây dựng của nó (có điều kiện) FP-tree, và thực hiện khai thác một cách đệ quy trên cây Sự phát triển mô hình đạt được bằng cách nối của mô hình hậu tố với các mô hình thường xuyên được tạo ra từ một điều kiện FP-tree

Mining của FP-tree được tóm tắt trong Bảng 6.2 và chi tiết như sau Chúng tôi đầu tiên xem xét I5, đó là mục cuối cùng trong L, chứ không phải là người đầu tiên Lý do của việc bắt đầu từ cuối của danh sách sẽ trở nên rõ ràng khi chúng ta giải thích quá trình khai thác mỏ FP-tree I5 xảy ra tại hai chi nhánh FP-tree của Hình 6.7 (Các lần xuất hiện của I5 có thể dễ dàng được tìm thấy bằng cách làm theo chuỗi của node-link.) Những con đường hình thành bởi các chi nhánh là (I2, I1,

I5: 1) và (I2, I1, I3, I5: 1) Vì vậy, xem xét I5 như một hậu tố, tương ứng với hai con đường tiền

tố của nó là (I2, I1: 1) và (I2, I1, I3: 1), tạo thành cơ sở mô hình có điều kiện của nó Sử dụng cơ

sở này mô hình có điều kiện như là một cơ sở dữ liệu giao dịch, chúng tôi xây dựng một I5-có điều kiện

FP-tree, trong đó có chỉ có một con đường duy nhất, (I2: 2, I1: 2); I3 không được bao gồm bởi vì

số lượng hỗ trợ của 1 là ít hơn so với số lượng hỗ trợ tối thiểu Các con đường duy nhất tạo ra tất

cả các kết hợp của mô hình thường xuyên: {I2, I5: 2}, {I1, I5: 2}, {I2, I1, I5: 2}

Ví I4, hai con đường tiền tố của nó hình thành cơ sở mô hình có điều kiện, {{I2 I1: 1}, {I2: 1}}, tạo ra một đơn nút điều kiện FP-tree, (I2: 2), và xuất phát một mẫu thường xuyên, {I2, I4: 2}

259

Trang 17

Bảng 6.2 khai thác FP-Tree bằng cách tạo điều kiện (Chi) Căn cứ mẫu

hàng mẫu có điều kiện cơ sở có điều kiện FP-tree mẫu thường xuyên được tạo ra

Hình 6.8 các điều kiện FP-cây có liên quan với I3 nút có điều kiện

tương tự để phân tích trước đó, cơ sở mô hình có điều kiện I3 là {{I2, I1: 2}, {I2: 2},

{I1: 2}} Có điều kiện FP-tree của nó có hai nhánh, (I2: 4, I1: 2) và (I1: 2), như thể hiện trong hình 6.8, tạo ra các tập các mẫu {{I2, I3: 4}, {I1, I3 : 4}, {I2, I1, I3: 2}} Cuối cùng, cơ sở mô hình có điều kiện I1 là {{I2: 4}}, với FP-tree chỉ chứa một nút, (I2: 4), tạo ra một mô hình thườngxuyên, {I2, I1: 4} Quá trình khai thác này được tóm tắt trong hình 6.9

Các phương pháp FP-tăng trưởng thay đổi vấn đề của việc tìm kiếm mô hình dài thường xuyên vào tìm kiếm người thân ngắn hơn trong cơ sở dữ liệu có điều kiện nhỏ hơn nhiều đệ quy và sau

đó nối các hậu tố Nó sử dụng các mặt hàng thường xuyên nhất là một hậu tố, cung cấp chọn lọc tốt.Phương pháp này làm giảm đáng kể chi phí tìm kiếm

Khi cơ sở dữ liệu lớn, nó là đôi khi không thực tế để xây dựng một Bộ nhớ chính dựa

FP-tree Một sự thay thế thú vị là trước hết phải phân vùng cơ sở dữ liệu vào một tập hợp các cơ sở

dữ liệu dự kiến, và sau đó xây dựng một FP-tree và khai thác nó ở mỗi cơ sở dữ liệu dự Quá trìnhnày có thể được đệ quy áp dụng cho bất kỳ cơ sở dữ liệu dự nếu FP-tree của nó vẫn không thể phù hợp trong bộ nhớ chính

Một nghiên cứu của việc thực hiện phương pháp FP-tăng trưởng cho thấy rằng nó là hiệu quả và khả năng mở rộng cho khai thác cả hai mô hình thường xuyên lâu dài và ngắn, và là khoảng theo

độ nhanh hơn so với thuật toán Apriori

6.2.5 Khai thác tập phổ biến Sử dụng định dạng theo chiều dữ liệu

Cả hai phương pháp Apriori và FP-tăng trưởng khai thác mô hình thường xuyên từ một tập hợp các hoạt động xuyên ở định dạng TID-itemset (tức là, {TID: itemset}), nơi TID là một ID giao dịch và tập phổ biến là tập hợp các mặt hàng đã mua trong giao dịch TID Điều này được biết đếnnhư là định dạng dữ liệu ngang Ngoài ra, dữ liệu có thể được trình bày dưới dạng bộ item-TID

260

Trang 18

Thuật toán: tăng trưởng FP Mine thường xuyên tập phổ biến sử dụng FP-tree bởi sự tăng

trưởng mô hình mảnh

Input:

D, một cơ sở dữ liệu giao dịch;

min sup, ngưỡng hỗ trợ tối thiểu số

Đầu ra: Các bộ hoàn chỉnh các mẫu thường xuyên

Phương pháp:

1 FP-tree được xây dựng trong các bước sau đây:

(a) Quét các cơ sở dữ liệu giao dịch D một lần Thu thập F, tập hợp các mặt hàng thường xuyên,

và số lượng hỗ trợ của họ Sắp xếp F trong số hỗ trợ thứ tự giảm dần như L, danh sách các mặt hàng thường xuyên

(B) Tạo thư mục gốc của một FP-tree, và gọi nó là "null." Đối với mỗi Trans giao dịch trong D

làm như sau

Chọn và sắp xếp các mục thường xuyên trên tuyến xuyên theo thứ tự của L Hãy để sắp xếp danh sách thường xuyên hàng trong Trans là [p | P], trong đó p là yếu tố đầu tiên và P là danh sách còn lại Cây gọi chèn ([p | P], T), được thực hiện như sau Nếu T có một đứa con N mà N.item-name =p.item-tên, sau đó tăng số N 's bằng 1; khác tạo ra một nút mới N, và để cho tính của nó là 1, liên kết cha mẹ của nó được liên kết với T, và nút liên kết của nó với các nút với cùng một mục tên qua các cấu trúc nút liên kết Nếu P là rỗng, gọi chèn cây (P, N) đệ quy

2 FP-tree được khai thác bằng cách gọi tăng trưởng FP (FP cây, null), được thực hiện như sau

Tăng trưởng thủ tục FP (Tree, α)

(1) nếu cây có chứa một con đường duy nhất P sau đó

(2) cho mỗi sự kết hợp (ký hiệu là như β) của các nút trong đường dẫn P

(3) tạo ra các mô hình β ∪ α với số lượng hỗ trợ = số lượng hỗ trợ tối thiểu của các nút trong β; (4) khác cho mỗi ai trong tiêu đề của Tree {

(5) tạo ra các mô hình β = ai ∪ α với số lượng hỗ trợ = ai Hỗ trợ đếm;

(6) xây dựng cơ sở mô hình có điều kiện β và sau đó β của điều kiện cây FP Treeβ;

(7) nếu Treeβ / = ∅ thì

(8) gọi FP tăng trưởng (Treeβ, β); }

Hình 6.9 Thuật toán FP-tăng trưởng để khám phá tập phổ biến mà không cần thế ứng cử viên

(Tức là, {mục: TID bộ}), nơi mà mục là một tên mục, và TID bộ là tập hợp các định danh giao dịch có chứa chi tiết Điều này được biết đến như là định dạng dữ liệu theo chiều dọc

Trong tiểu mục này, chúng ta nhìn vào cách tập phổ biến cũng có thể khai thác effi- ciently sử dụng định dạng dữ liệu theo chiều dọc, đó là bản chất của (tương đương lớp chuyển đổi) thuật toán Eclat

Ví dụ 6.6 Khai thác tập phổ biến sử dụng định dạng dữ liệu theo chiều dọc Hãy xem xét các định

dạng dữ liệu theo chiều ngang của cơ sở dữ liệu giao dịch, D, trong Bảng 6.1 trong Ví dụ

6.3 Điều này có thể được chuyển đổi thành các định dạng dữ liệu dọc thể hiện trong Bảng 6.3 bằng cách quét các dữ liệu thiết lập một lần

Khai thác mỏ có thể được thực hiện trên dữ liệu này được thiết lập bởi giao nhau các bộ TID của mỗi cặp các đơn thường xuyên Các tính hỗ trợ tối thiểu là 2 Bởi vì mỗi mục duy nhất là

261

Tiêu đề	Khai thác thường xuyên mẫu, hiệp hội, và mối tương quan: Các khái niệm và phương pháp cơ bản
Trường học	Elsevier Inc.
Chuyên ngành	Khai thác dữ liệu
Thể loại	tài liệu
Năm xuất bản	2012

Định dạng
Số trang	36
Dung lượng	405,39 KB