Khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng

CSDL tăng trưởng là một yêu cầu cấp thiết và hướng nghiên cứu phát triển các thuật toán khai thác tập phổ biến trên dữ liệu tăng trưởng là một trong những hướng nghiên cứu được đầu tư và

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM

NGUYỄN HOÀNG NHẬT

KHAI PHÁ TẬP PHỔ BIẾN TRÊN

CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG

TRONG LĨNH VỰC MUA BÁN HÀNG

Chuyên ngành: HỆ THỐNG THÔNG TIN

Mã số: 61.49.01.04

TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2017

Trang 2

Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH

Phản biện 1: TS Hoàng Thị Thanh Hà

Phản biện 2: TS Trần ThiênThành

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ

Hệ thống thông tin họp tại T rường Đại học Sư phạm – ĐHĐN vào ngày

30 tháng 7 năm 2017

Có thể tìm hiểu luận văn tại:

- Thư viện Trường Đại học Sư phạm Đà Nẵng, Đại học Đà Nẵng

- Trung tâm thông tin học liệu, Đại học Đà Nẵng

Trang 3

MỞ ĐẦU

1 Lý do chọn đề tài

Khai thác dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80, nó là quá trình tìm kiếm, khám phá dưới nhiều góc độ khác nhau nhằm phát hiện các mối liên hệ, quan hệ giữa các dữ liệu, đối tượng bên trong CSDL, kết quả của việc khai thác là xác định các mẫu hay các mô hình tồn tại bên trong nhưng chúng nằm ẩn ở các CSDL

Về bản chất nó là giai đoạn duy nhất rút trích và tìm ra được các mẫu, các mô hình hay thông tin mới, tri thức tiềm ẩn có trong CSDL chủ yếu phục vụ cho mô tả và dự đoán Đây là giai đoạn quan trọng nhất trong quá trình phát hiện tri thức từ CSDL, các tri thức này hỗ trợ trong việc ra quyết định, điều hành trong khoa học và kinh doanh Trong những năm gần đây thì rất nhiều các kỹ thuật trong khai thác dữ liệu đã được phát triển Các hướng tiếp cận trong khai thác dữ liệu có thể phân loại dựa vào cơ sở dữ liệu làm việc như: CSDL giao dịch, CSDL tạm thời, CSDL quan hệ, CSDL đa phương tiện v v Có nhiều phương pháp trong khai thác dữ liệu đã được đề xuất như: luật kết hợp (Apriori), phân lớp, gom nhóm (K-mean, K-medoids, ), khai thác mẫu tuần tự…

Khai phá dữ liệu đã thu hút được sự quan tâm của rất nhiều nhà nghiên cứu, nhờ có nhiều những ứng dụng trong thực tiễn trong nhiều lĩnh vực như y tế, kinh doanh, ngân hàng,

Trong đó, nhu cầu thêm những giao dịch mới vào CSDL hoặc xóa một số giao dịch trong CSDL hiện tại trong các ứng dụng của thế giới thực là rất cần thiết Do đó việc xây dựng và chọn lựa nên một thuật toán có hiệu suất xử lý tốt nhất để có thể xử trong trường hợp

Trang 4

CSDL tăng trưởng là một yêu cầu cấp thiết và hướng nghiên cứu phát triển các thuật toán khai thác tập phổ biến trên dữ liệu tăng trưởng là một trong những hướng nghiên cứu được đầu tư và phát triển mạnh

Đã có rất nhiều thuật toán ra đời, tuy nhiên mỗi thuật toán có ưu, khuyết điểm khác nhau, việc nghiên cứu chọn ra 1 thuật toán phù hợp

có hiệu suất xử lý cao để xử lý CSDL trong trường hợp phát sinh giao dịch là cần thiết

Đó chính là lý do tôi chọn đề tài : “Nghiên cứu một số phương

pháp khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng trong lĩnh vực mua bán hàng” để làm đề tài luận văn thạc sĩ của mình

2 Mục tiêu nghiên cứu

- Tìm hiểu các phương pháp khai phá cơ sở dữ liệu cơ bản

- Tìm hiểu kỹ thuật khai phá dữ liệu dựa trên khai thác luật kết hợp trong CSDL giao dịch:

o Nghiên cứu, phân tích, đánh giá 1 số phương pháp khai phá tập phổ biến trên cơ sở dữ liệu tĩnh: Apriori, cây FP- Tree

o Nghiên cứu, phân tích, đánh giá 1 phương pháp khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng: Thuật toán FUP, Pre – large– Itemset, Pre- FUFP

- So sánh hiệu năng của thuật toán Pre- FUT và thuật toán Pre – large – Itemset

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Thuật toán Apriori

- Thuật toán FP- Tree

- Thuật toán FUP

- Thuật toán Pre – large – Itemset

- Thuật toán Pre-FUFP

Trang 5

- Thuật toán Pre-FUT

- Các CSDL khi phát sinh thêm các giao dịch, cụ thể ở đây là các giao dịch khi thực hiện thanh toán mua hàng

Phạm vi nghiên cứu

- Tập phổ biến khi phát sinh giao dịch mới

- Kỹ thuật khai phá tập phổ biến dựa trên khai thác luật kết hợp khi CSDL phát sinh giao dịch mới

4 Phương pháp nghiên cứu

4.1 Nghiên cứu lý thuyết

- Nghiên cứu tài liệu, ngôn ngữ và các công nghệ có liên quan

- Kỹ thuật khai phá dữ liệu dựa trên khai thác luật kết hợp trong CSDL giao dịch

- Kỹ thuật khai phá tập phổ biến trên cơ sở dữ liệu tĩnh

- Kỹ thuật khai phá tập phổ biến trên cơ sở dữ liệu tăng

trưởng

4.2 Nghiên cứu thực nghiệm

- Tiến hành thu thập và tổng hợp các tài liệu có liên quan đến

kỹ thuật khai phá dữ liệu sử dụng luật kết hợp, các thuật toán khai

- Hiểu thêm được các phương pháp khai phá dữ liệu

o Kỹ thuật khai phá tập phổ biến dựa trên khai thác luật kết hợp trong CSDL giao dịch

o Các phương pháp khai phá tập phổ biến trên cơ sở dữ liệu

Trang 6

tĩnh: Apriori, cây FP- Tree

o Các phương pháp khai phá tập phổ biến trên cơ sở dữ liệu tăng trưởng: Thuật toán FUP, Pre- FUFP

- Cải tiến hiệu suất thuật toán FUP nhanh hơn bằng thuật toán Pre-FUT

5.2 Kết quả về thực tiễn

Chọn ra được 1 thuật toán phù hợp để cải tiến hiệu suất của kỹ thuật khai phá tập phổ biến dựa trên luật kết hợp trong trường hợp CSDL tăng trưởng ,phát sinh thêm các giao dịch mới, giúp quản lý và các luật đã khai phá được hiệu quả hơn, từ đó có thể tiến hành tiếp quá trình sinh ra các luật kết hợp hiệu quả hơn

Có thể áp dụng thuật toán để xử lý CSDL tăng trưởng của nhiều lĩnh vực khác nhau

6 Ý nghĩa khoa học và thực tiễn

Áp dụng lý thuyết về khai thác luật kết hợp trong CSDL giao dịch để nghiên cứu các thuật toán khai phá tập phổ biến trên CSDL tăng trưởng

Về mặt thực tiễn, việc nghiên cứu giúp chọn ra 1 thuật toán phù hợp giúp cải thiện thời gian xử lý các CSDL giao dịch tăng trưởng, giúp quản lý, cập nhật các luật trong kỹ thuật khai thác dữ liệu dựa trên khai thác luật kết hợp trên CSDL tốt hơn

Trang 7

Apriori Hybrid

Chương 2: Một số phương pháp khai thác tập phổ biến trên cơ

sở dữ liệu tăng trưởng

Trong chương này, chúng tôi trình bày kiến thức lý thuyết, thuật toán, ví dụ minh họa về các thuật toán khai phá tập phổ biến trên cơ sở

dữ liệu tăng trường như: FUP, Pre – large – Itemset, Pre- FUFP, Pre – FUT

Trang 8

CHƯƠNG 1 TỔNG QUAN VỀ KHAI THÁC TẬP PHỔ BIẾN

1.1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1.1 Mở đầu

Khai thác dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80, nó là quá trình tìm kiếm, khám phá dưới nhiều góc độ khác nhau nhằm phát hiện các mối liên hệ, quan hệ giữa các dữ liệu, đối tượng bên trong CSDL, kết quả của việc khai thác là xác định các mẫu hay các mô hình tồn tại bên trong nhưng chúng nằm ẩn ở các CSDL

Trong những năm gần đây thì rất nhiều các kỹ thuật trong khai thác dữ liệu đã được phát triển Các hướng tiếp cận trong khai thác dữ liệu có thể phân loại dựa vào cơ sở dữ liệu làm việc như: CSDL giao dịch, CSDL tạm thời, CSDL quan hệ, CSDL đa phương tiện v v Có nhiều phương pháp trong khai thác dữ liệu đã được đề xuất như: luật kết hợp (Apriori), phân lớp, gom nhóm (K-mean, K-medoids, ), khai thác mẫu tuần tự…

Khai phá dữ liệu được áp dụng trong nhiều lĩnh vực:

Hình 1.1 Một số lĩnh vực liên quan đến khai phá dữ liệu

Trang 9

1.1.2 Kiến trúc của một hệ thống khai phá dữ liệu

Hình 1 1 Khám phá tri thức trong cơ sở dữ liệu điển hình

1.1.3 Các giai đoạn của quá trình khai phá dữ liệu

Hình 1 2 Các bước của quy trình khai phá dữ liệu

Quá trình xử lý khai phá dữ liệu bắt đầu bằng việc xác định chính xác vấn đề cần giải quyết Sau đó sẽ xác định dữ liệu liên quan dùng để xây dựng giải pháp Tiếp theo là thu thập dữ liệu có liên quan

và xử lý chúng thành dạng sao cho thuật toán khai phá dữ liệu có thể hiểu được

1.1.4 Một số kỹ thuật khai phá dữ liệu

a Phân lớp dữ liệu

b Phân nhóm dữ liệu

c Hồi qui (Regression)

Trang 10

d Tổng hợp (summarization)

e Mô hình hóa phụ thuộc (dependency modeling)

f Phát hiện sự thay đổi và độ lệch (change and deviation dectection):

1.1.5 Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu

Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ liệu thành các loại khác nhau:

- Cơ sở dữ liệu quan hệ

- Cơ sở dữ liệu giao tác

- Cơ sở dữ liệu không gian

- Cơ sở dữ liệu có yếu tố thời gian

- Cơ sở dữ liệu đa phương tiện

1.1.6 Các phương pháp chính trong khai phá dữ liệu

g Phân lớp và dự đoán (Classification & Prediction)

h Phân cụm và phân đoạn (Clusterring and Segmentation)

i Khai phá chuỗi theo thời gian (Sequential temporal patterns)

j Mô tả khái niệm và tổng hợp hóa (Summarization)

k Luật kết hợp (Association rules)

1.2 MỘT SỐ PHƯƠNG PHÁP KHAI THÁC TẬP PHỔ BIẾN TRÊN CSDL TĨNH

1.2.1 Mở đầu

Hiện nay thì có rất nhiều phương pháp khai thác tập phổ biến trên CSDL tăng trưởng Trong số đó thì khai thác luật kết hợp trong CSDL giao dịch là một trong những kỹ thuật phổ biến nhất trong khai thác dữ liệu, có thể chia làm 2 hướng chính:

Phương pháp khai thác tập phổ biến mà cần phải phát sinh tập ứng viên

Trang 11

Phương pháp khai thác tập phổ biến không cần phát sinh tập ứng viên

Phương pháp khai thác tập phổ biến mà yêu cầu phát sinh tập ứng viên còn được gọi là phương pháp tựa Apriori Thuật toán đầu tiên được Cheung et al [6] đề xuất là FUP (Fast-UPdated algorithm) Tuy nhiên thuật toán vẫn xử lý lại toàn bộ CSDL gốc khi thêm mới giao dịch vào CSDL Một số thuật toán khác cũng đã được đề xuất [21] Phương pháp khai thác tập phổ biến mà không yêu cầu phát sinh tập ứng viên còn được gọi là phương pháp tựa FP-tree (Frequent-Pattern tree) Thực tế phương pháp FP-tree vẫn phát sinh ứng viên, nhưng ứng với mỗi ứng viên phát sinh ra thì sẽ tính nhanh được độ hỗ trợ, do đó giải quyết được vấn đề bùng nổ tập ứng viên Bên cạnh đó thì rất nhiều các thuật toán đã được đề xuất như AFPIM [15], EFPIM [17]

Bởi vì các thuật toán khai thác tập phổ biến trên CSDL tăng trưởng đều dựa vào những thuật toán khai thác tập phổ biến trên CSDL tĩnh, do đó trong các mục tiếp theo của chương này thì luận văn sẽ giới thiệu một số khái niệm cũng như một số thuật toán khai thác tập phổ biến tiêu biểu trên CSDL tĩnh và thuật toán khai thác tập phổ biến trên CSDL động

Trang 12

tập ứng viên từ những tập phổ biến ở bước trước, sử dụng kĩ thuật “tỉa”

để bỏ đi tập ứng viên không thỏa mãn ngưỡng hỗ trợ cho trước

Các ký hiệu sử dụng trong thuật toán:

L k = {l 1 , l 2 ,…, l i , …} tập các k-itemset phổ biến

C k = {c 1 , c 2 ,…, c i , …} tập các k-itemset ứng viên, mỗi c i có 2

trường itemset và count dùng để chứa tập thuộc tính và độ phổ biến

của tập thuộc tính đó trong cơ sở dữ liệu

Thuật toán:

INPUT: Tập các giao dịch D, ngưỡng hỗ trợ minsup

OUTPUT: Tập Answer bao gồm các tập phổ biến trên D

Phương pháp:

L 1 = {large 1-itemset};

for (k = 2; L k-1 ≠ ∅; k++) do begin

C k = apriori_gen(L k-1 ); // sinh tập ứng viên mới C k;

forall giao dịch t ∈ D do begin

C t = subset(C k , t); // các tập ứng viên chứa trong t;

INPUT: CSDL D chứa các giao dịch, ngưỡng minsup

OUTPUT: Cây FP-tree

Trang 13

Bước 1: Duyệt D và tính độ phổ biến của các item Sắp xếp các item theo thứ tự giảm dần của độ phổ biến, ta được tập kết quả L Bước 2: Tạo nút gốc cho cây T, ký hiệu là root Duyệt D lần thứ

2 Ứng với mỗi giao tác trong D thực hiện 2 công việc sau:

• Chọn và sắp xếp những item phổ biến theo thứ tự trong f_list

• Giao dịch đang xét được lý hiệu như sau [p|r_list] gồm 2

phần, p là phần tử item đầu tiên và P là những item còn lại của giao

dịch (không bao gồm những item không thỏa ngưỡng phổ biến) Gọi hàm insert_tree( [p|r_list], root )

1.2.5 Một số thuật toán khai thác tập phổ biến khác

1.2.6 Một số cấu trúc dữ liệu giúp cải thiện thuật toán Apriori

dữ liệu thông tin khổng lồ vẫn hàng ngày đang được thu thập, lưu trữ

để giúp các cá nhân và tổ chức đưa ra được các quyết định chính xác

và nhanh chóng

Chương 1 đã giới thiệu những kiến thức chung về lĩnh vực khai phá dữ liêu, tuy đã có rất nhiều các giải pháp và phương pháp được ứng dụng trong khai phá dữ liệu, trong đó nhưng trên thực tế quá trình này vẫn gặp không ít khó khăn và thách thức như:

- Kích thước dữ liệu ngày càng lớn, có thể lên đến gigabytes, terabytes thậm chí lớn hơn

- Số lượng các luật rút ra từ việc khai thác dữ liệu là rất lớn

- Các luật rút ra từ việc khai thác dữ liệu chỉ phản ánh được tình

Trang 14

trạng của dữ liệu tại một thời điểm nhất định Để có thể rút ra được những luật kết hợp có độ tin cậy cao và ổn định thì cần phải thu thập

dữ liệu trong một thời gian đáng kể

- Vì vậy, có 2 vấn đề được đặt ra trong việc khai thác dữ liệu là:

- Thiết kế một thuật toán hiệu quả cho việc khai thác các luật hoặc các mẫu phổ biến

- Thiết kế một thuật toán hiệu quả để cập nhật và quản lý các luật đã được khai thác

Vấn đề thứ nhất đã được nghiên cứu từ rất lâu, có nhiều thuật toán hiệu quả đã được đề xuất như : Apriori, FP-Tree, Apriori- Tid, Apriori – Hybird

Vấn đề thứ hai cũng đã được nghiên cứu và phát triển thành nhiều thuật toán với hiệu quả sử dụng khác nhau, chúng ta sẽ tìm hiểu 1 số

thuật toán tiêu biểu để giải quyết vấn để này trong chương 2

CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP KHAI THÁC TẬP PHỔ BIẾN

TRÊN CƠ SỞ DỮ LIỆU TĂNG TRƯỞNG

2.1 THUẬT TOÁN FUP

Thuật toán FUP (Fast-UPdate algorithm) do Cheung et al đề

xuất năm 1996 [6] Thuật toán xử lý trường hợp thêm giao dịch mới vào CSDL

2.1.1 Một số ký hiệu

Một tập X là tập phổ biến trong CSDL DBdb nếu X.support ≥ s×(D+d)

Trang 15

Hình 2.1 4 trường hợp xảy ra khi thêm mới giao dịch vào CSDL [6]

Như vậy sẽ có 4 trường hợp xảy ra khi thêm các giao dịch mới vào CSDL

Trường hợp 1: Một itemset là phổ biến (large) trong CSDL ban

đầu và trong các giao dịch được thêm vào

Trường hợp 2: Một itemset là phổ biến (large) trong CSDL ban đầu nhưng là không phổ biến (small) trong các giao dịch được thêm

Nhận xét: Trường hợp 1 thì itemset đó vẫn sẽ phổ biến trong

CSDL sau khi được cập nhật, trường hợp 4 thì itemset đó vẫn sẽ không phổ biến trong CSDL sau khi được cập nhật, do đó trường hợp 1 và 4

sẽ không ảnh hưởng đến kết quả của tập phổ biến khai thác được Trường hợp 2 có thể sẽ loại bỏ đi một số itemset đã tồn tại trong tập phổ biến của CSDL gốc, còn trường hợp 3 có thể sẽ bổ xung thêm một

số itemset mới vào tập phổ biến đã được khai thác Một thuật toán quản

lý tốt tập phổ biến đã được khai thác trong trường hợp các giao dịch mới được thêm vào phải làm được một số công việc sau

Trang 16

- Đánh giá xem các các itemset thuộc tập phổ biến (large itemset) trong CSDL ban đầu có còn phổ biến (large) trong CSDL sau khi được

cập nhật hay không

- Tìm các itemset thuộc tập không phổ biến (small itemset) trong CSDL ban đầu có thể trở thành phổ biến (large) trong CSDL sau

khi được cập nhật

Tìm những itemset chỉ xuất hiện trong những giao dịch được thêm vào

và xác định xem chúng có phổ biến (large) trong CSDL sau khi được

cập nhật không

2.1.2 Chi tiết thuật toán FUP

Bước 1: Tại mỗi lần lặp, độ hỗ trợ của từng itemset trong tập large k-itemset trong L sẽ được cập nhật dựa vào db để lọc ra những itemset nào là không phổ biến (losers còn gọi là small itemset hay những tập không còn là tập phổ biến trong DBdb) Ta chỉ cần quét

db để tiến hành cập nhật độ hỗ trợ

Bước 2: Trong khi quét db thì một tập hợp các ứng viên C k sẽ

được trích xuất ra từ db cùng với độ độ hỗ trợ Độ hỗ trợ của các phần

tử trong C k sẽ được cập nhật dựa vào DB để tìm ra tập các tập phổ biến mới

Bước 3: Tập C k sẽ được cắt tỉa dựa vào db trước khi dựa vào DB Bước 4: Kích thướt của CSDL sau khi được cập nhật trong mỗi lần lặp sẽ được giảm xuống bằng phép cắt tỉa dựa vào các item trong

db

Bước 1:

Bổ đề 1: Một 1-itemset X  L1 là không phổ biến ( L1)

trong CSDL sau khi được cập nhật DBdb nếu và chỉ nếu X.support UD

< s × (D+d)

CM: Dựa vào định nghĩa độ hỗ trợ tối thiểu và định nghĩa large

Định dạng
Số trang	26
Dung lượng	1,41 MB