1. Trang chủ
  2. » Giáo Dục - Đào Tạo

NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ

96 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Ứng Dụng Một Số Thuật Toán Khai Phá Dữ Liệu Hỗ Trợ Phân Tích Cơ Sở Dữ Liệu Bán Hàng Siêu Thị
Tác giả ThS. Gvc. Nguyễn Hưng Long, ThS. Nguyễn Thị Vân Trang, ThS. Lê Kim Anh
Trường học Trường Đại Học Thương Mại
Thể loại báo cáo tổng kết
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 96
Dung lượng 14,92 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ứng dụng thuật toán khai phá tập mục thường xuyên với trọng số thích nghi phân tích cơ sở dữ liệu bán hàng siêu thị.... Tính mới và sáng tạo: Đề tài đã vận dụng tính khoa học của lĩnh v

Trang 1

HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU

BÁN HÀNG SIÊU THỊ

Mã số: CS20 - 42

Chủ nhiệm đề tài: ThS GVC NGUYỄN HƯNG LONG

Thành viên tham gia: ThS Nguyễn Thị Vân Trang

ThS Lê Kim Anh

Hà Nội, 03/2021

Trang 2

1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

BÁO CÁO TỔNG KẾT

NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU

HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU

BÁN HÀNG SIÊU THỊ

Chủ nhiệm đề tài: ThS GVC NGUYỄN HƯNG LONG

Thành viên tham gia: ThS Nguyễn Thị Vân Trang

ThS Lê Kim Anh

Hà Nội, 03/2021

Trang 3

2

MỤC LỤC

DANH MỤC CÁC BẢNG 4

DANH MỤC CÁC HÌNH 5

DANH MỤC CÁC TỪ VIẾT TẮT 6

CHƯƠNG 1 TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI 9

1 Tính cấp thiết của đề tài 9

2 Tổng quan đề tài nghiên cứu 10

3 Mục tiêu nghiên cứu 15

4 Đối tượng và phạm vi nghiên cứu 15

5 Phương pháp nghiên cứu 15

6 Kết cấu báo cáo nghiên cứu 16

CHƯƠNG 2 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU BÁN HÀNG SIÊU THỊ, MÔ HÌNH VÀ THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN 17

2.1 Hệ thống bán hàng siêu thị 17

2.1.1 Hệ thống quản lí bán hàng 17

2.1.2 Siêu thị và đặc trưng của siêu thị 17

2.1.3 Công việc và chức năng chính của siêu thị 18

2.2 Cơ sở dữ liệu bán hàng siêu thị 19

2.2.1 Cơ sở dữ liệu và tầm quan trọng quản lí cơ sở dữ liệu 19

2.2.2 Cơ sở dữ liệu bán hàng siêu thị 21

2.3 Khai phá dữ liệu và khai phá dữ liệu bán hàng siêu 23

2.3.1 Khai phá dữ liệu 23

2.3.2 Khai phá dữ liệu bán hàng siêu thị 24

2.4 Mô hình bài toán và thuật toán khai phá TMTX 25

2.4.1 Mô hình bài toán và thuật toán khai phá tập mục thường xuyên đa ngưỡng/một ngưỡng 25

2.4.2 Mô hình bài toán và thuật toán khai phá tập mục thường xuyên với trọng số thích nghi 28

CHƯƠNG 3: ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ 34

3.1 Ứng dụng thuật toán khai phá tập mục thường xuyên phân tích cơ sở dữ liệu bán hàng siêu thị 34

3.1.1 Ứng dụng thuật toán MFIMT khai phá TMTX đa ngưỡng 34

3.1.2 Ứng dụng thuật toán BMB khai phá TMTX 39

Trang 4

3

3.2 Ứng dụng thuật toán khai phá tập mục thường xuyên với trọng số thích nghi phân

tích cơ sở dữ liệu bán hàng siêu thị 43

3.2.1 Đặt bài toán 43

3.2.2 Tổ chức khai phá dữ liệu 43

3.2.3 Nhận xét, đánh giá kết quả khai phá 46

CHƯƠNG 4 KẾT LUẬN, THẢO LUẬN VÀ ĐỀ XUẤT VẤN ĐỀ NGHIÊN CỨU 48

4.1 Các kết luận 48

4.2 Các dự báo phát triển về các vấn đề nghiên cứu 48

4.3 Các đề xuất kiến nghị vấn đề nghiên cứu 48

Tài liệu tham khảo 50

Trang 5

4 DANH MỤC CÁC BẢNG

Bảng 1 Biểu diễn ngang của CSDL giao tác 25

Bảng 2 Dòng dữ liệu tại thời điểm T1 29

Bảng 3 Trọng số các mục theo lô tại thời điểm T1 30

Bảng 4 Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) 34

Bảng 5 Bảng các tập TMTX tương ứng với các ngưỡng 35

Bảng 6 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭𝟏 = 𝟎 𝟓 36

Bảng 7 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭𝟐 = 𝟎 𝟓𝟓 𝐯à 𝛆𝐭𝟑 = 𝟎 𝟔 36

Bảng 8 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭𝟒 = 𝟎 𝟔𝟓 𝐯à 𝛆𝐭𝟓 = 𝟎 𝟕 37

Bảng 9 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭𝟔 = 𝟎 𝟕𝟓 𝐯à 𝛆𝐭𝟕 = 𝟎 𝟖 37

Bảng 10 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭𝟖 = 𝟎 𝟖𝟓 37

Bảng 11 Dữ liệu khác về các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) 39

Bảng 12 Ma trận nhị phân A 39

Bảng 13 Ma trận rút gọn A1 40

Bảng 14 Ma trận rút gọn A2 41

Bảng 15 Ma trận nhị phân thu gọn A3 41

Bảng 16 Tập các mặt hàng thường xuyên và độ hỗ trợ 42

Trang 6

5 DANH MỤC CÁC HÌNH

Hình 1 Cây SAWFI-tree sau khi chèn 12 giao tác trong 3 lô của dòng dữ liệu 32

Hình 2 Cây SAWFI-tree(e) và cây điều kiện của “e” 44

Hình 3 Cây SAWFI-tree(d), cây điều kiện của “d” và “cd” 45

Hình 4 Cây SAWFI-tree(c), cây điều kiện của “c” 45

Trang 7

6 DANH MỤC CÁC TỪ VIẾT TẮT

1 Danh mục từ viết tắt tiếng Việt

2 Ngĩa các từ tiếng Anh

Trang 8

7

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

THÔNG TIN KẾT QUẢ NGHIÊN CỨU

ĐỀ TÀI NCKH CẤP TRƯỜNG

1 Thông tin chung:

- Tên đề tài: NGHIÊN CỨU ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

Mã số: CS20 - 42

- Chủ nhiệm: ThS, GVC NGUYỄN HƯNG LONG

- Cơ quan chủ trì: Trường Đại học Thương mại

- Thời gian thực hiện: 30/08/2020 – 31/03/2021

2 Mục tiêu:

Đề tài tập trung nghiên cứu về các khía cạnh sau:

- Nghiên cứu lý thuyết cơ bản của khai phá dữ liệu bán hàng siêu thị, khai phá TMTX

- Xây dựng mô hình áp dụng một số thuật toán khai phá TMTX hỗ trợ phân tích CSDL bán hàng siêu thị

- Đề xuất mô hình áp dụng một số thuật toán khai phá TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị

3 Tính mới và sáng tạo:

Đề tài đã vận dụng tính khoa học của lĩnh vực Khai phá dữ liệu, cụ thể một số thuật toán khai phá tập mục thường xuyên và ứng dụng các thuật toán này cho bài toán phân tích cơ sở dữ liệu bán hàng siêu thị Đây cũng là xu hướng cần thiết trong việc giải quyết các bài toán khai phá trên các cơ sở dữ liệu lớn và phức tạp trong bối cảnh của nền kinh tế tri thức

Trong số các thuật toán được trình bày trong đề tài các tác giả đã vận dụng và đề xuất thuật toán khác có tính hiệu quả hơn về bộ nhớ cũng như độ phức tạp về thời gian Đây cũng là sự cần thiết cho các nhà nghiên cứu khi nghiên cứu về lĩnh vực khai phá dữ liệu

Kết quả của đề tài có thể ứng dụng trong nhiều mặt của đời sống - xã hội chứ không chỉ cho bài toán phân tích cơ sở dữ liệu bán hàng siêu thị

Trang 9

8

4 Kết quả nghiên cứu:

- Đề tài đã đạt được các mục tiêu đề ra

- Có công bố 2 sản phẩm khoa học

- Một Báo cáo tổng kết

5 Công bố sản phẩm khoa học từ kết quả nghiên cứu của đề tài

Để thực hiện đề tài tác giả và cộng sự đã công bố 2 bài viết cho Hội thảo quốc gia

và Hội thảo cấp Trường rất có uy tín

1) Nguyễn Hưng Long, Nguyễn Minh Hoàng (2020), Ứng dụng thuật toán khai phá tập phổ biến dựa trên ma trận nhị phân trong phân tích cơ sở dữ liệu bán hàng siêu thị, Kỷ yếu Hội thảo quốc gia “Phát triển Thương mại điện tử Việt Nam trong kỷ nguyên số”, tr 717 – 727

2) Nguyễn Hưng Long, Nguyễn Minh Hoàng (2021), Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện, Hội thảo khoa học cấp trường “Ứng dụng phân tích định lượng trong kinh tế - xã hội”, tr 284 – 294

6 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:

Đề tài có ý nghĩa cả về lý luận và thực tiễn

Đề tài có thể là tài liệu tham khảo cho giảng viên và sinh viên thuộc chuyên ngành Quản trị HTTT kinh tế trường Đại học Thương mại hoặc các trường đại học cao đẳng khác có đào tạo chuyên ngành tương đồng

Ngày 20 tháng 03 năm

2021

Chủ nhiệm đề tài

NGUYỄN HƯNG LONG

Trang 10

9

CHƯƠNG 1 TỔNG QUAN NGHIÊN CỨU CỦA ĐỀ TÀI

1 Tính cấp thiết của đề tài

Ngày nay, cùng với xu thế hội nhập kinh tế quốc tế đã mở ra cho mỗi quốc gia nhiều cơ hội phát triển mọi mặt về kinh tế - xã hội Xét về góc độ của thị trường bán

lẻ (siêu thị, đại siêu thị, trung tâm thương mại - gọi chung là siêu thị), thì ở đó mỗi siêu thị ngày càng gia tăng về qui mô, số lượng và chất lượng Các siêu thị lớn có thể kinh doanh đến hàng chục nghìn mặt hàng, với hàng triệu, chục triệu lượt khách hàng trong năm và siêu thị hàng ngày có thể phải xử lí đến hàng chục nghìn đơn hàng với các chủng loại đa dạng khác nhau Do vậy, CSDL bán hàng siêu thị cũng sẽ rất phức tạp, rất lớn về số các giỏ hàng (mặt hàng/nhóm các mặt hàng) mà siêu thị bán ra theo từng thời điểm (ngày, tuần, quí, )

Mặt khác, hành vi (sự quan tâm) của khách hàng đối với siêu thị thường bị ảnh hưởng bởi nhiều yếu tố như: nhu cầu, thời gian, tính phổ biến, các vấn đề về chính trị, sự kiện xã hội, … Do vậy, giá (trọng số) các mặt hàng bán ra của siêu thị cũng thay đổi theo nhằm mục đích lưu chuyển hàng hóa nhanh và tăng doanh thu cho siêu thị

Một trong những yêu cầu đặt ra đối với nhà quản lí siêu thị là cần trả lời cho các câu hỏi trong CSDL bán hàng của siêu thị thì: mặt hàng/nhóm các mặt hàng nào mà các khách hàng thường xuyên mua cùng trong giỏ hàng? Mối quan hệ của các mặt hàng trong các giỏ hàng đó là như thế nào? để từ đó các nhà quản lí xây dựng kế hoạch kinh doanh với mục đích góp phần tăng doanh thu và đạt lợi nhuận tối đa cho siêu thị

Khai phá dữ liệu là một lĩnh vực nghiên cứu quan trọng của công nghệ thông tin nhằm trích lọc ra những thông tin hữu ích chưa biết, tiềm ẩn trong các CSDL lớn Khai phá TMTX đóng vai trò quan trọng trong nhiều nhiệm vụ khai phá dữ liệu như: khám phá luật kết hợp, khám phá mẫu tuần tự, phân tích tương quan, phân lớp, gom cụm dữ liệu, khai phá web,

Khai phá TMTX đã và đang được các nhà nghiên cứu liên tục xây dựng và phát triển các công cụ (thuật toán) để giải quyết các bài toán kinh tế - xã hội nói chung và bài toán phân tích CSDL bán hàng siêu thị cũng không là ngoại lệ nhằm hỗ trợ các nhà quản lí siêu thị ra quyết định đúng đắn hơn trong chiến lược phát triển siêu thị Hầu hết các thuật toán khai phá dữ liệu, khai phá TMTX đã được các nhà nghiên cứu, đề xuất chỉ mang tính lý thuyết và ở đó không/ít đề xuất mô hình ứng dụng cụ thể của thuật toán khai phá hỗ trợ phân tích hoạt động kinh doanh nói chung hay hỗ trợ phân tích CSDL bán hàng siêu thị nói riêng

Mặt khác, cùng với sự phát triển của lĩnh vực khai phá dữ liệu, một yêu cầu đòi hỏi ngày càng hoàn thiện, phát triển, tái cấu trúc các học phần trong chương trình đào tạo tại các trường đại học thuộc khối kinh tế, quản trị, kinh doanh, mà đặc biệt tại Trường Đại học Thương mại với chuyên ngành Quản trị hệ thống thông tin, thì việc nghiên cứu ứng dụng các công cụ (thuật toán) khai phá dữ liệu trong các hoạt động kinh doanh thương mại nói chung, bán hàng siêu thị nói riêng là cần thiết

Xuất phát từ cơ sở lý luận, nhu cầu thực tiễn bởi yêu cầu đòi hỏi của đổi mới đại học trong tình hình mới, chúng tôi lựa chọn và đề xuất đề tài “Nghiên cứu ứng dụng

Trang 11

10

một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị” nhằm cung cấp các thông tin hữu ích còn tiềm ẩn trong CSDL bán hàng siêu thị để giúp cho nhà quản lí đề ra các quyết định kinh doanh siêu thị một cách hiệu quả, mang lại lợi nhuận cho siêu thị Mặt khác, đề tài cũng góp phần bổ sung các kiến thức cơ bản, cần thiết cho một số học phần thuộc chương trình đào tạo chuyên ngành Quản trị hệ thống thông tin tại Trường Đại học Thương mại

2 Tổng quan đề tài nghiên cứu

Các nghiên cứu ngoài nước

Kỉ nguyên Internet bùng nổ đã góp phần cho nhiều nghiên cứu và ứng dụng của ngành công nghệ thông tin phát triển Ở đó, có một lĩnh vực đã và đang thu hút khá đông đảo các nhà khoa học trên thế giới và Việt Nam tham gia nghiên cứu và ứng dụng trong thực tiễn - lĩnh vực khai phá dữ liệu

Khai phá dữ liệu là quá trình trích lọc không tầm thường những thông tin hữu ích chưa biết từ CSDL Khai phá TMTX (TMTX) trong CSDL là một kĩ thuật quan trọng của khai phá dữ liệu Bài toán khai phá dữ liệu được giới thiệu lần đầu tiên vào năm

1993 bởi Agrawal R và Srikant R.[2] thuộc Trung tâm nghiên cứu Almaden của IBM (Mỹ), nhằm phân tích CSDL bán hàng tại siêu thị Qua quá trình phân tích này

sẽ giúp cho nhà quản lí ra quyết định đúng cho các phương án tối ưu trong hoạt động kinh doanh của doanh nghiệp Trong [1], các tác giả đã đề xuất thuật toán Apriori Thuật toán Apriori có hai nhược điểm là: Phải sinh ra khối lượng khổng lồ các tập mục ứng viên (TMUV) và phải quét CSDL giao tác nhiều lần Mặc dù vậy, nhưng thuật toán Apriori được đánh giá nằm trong top 10 các thuật toán nổi tiếng về khai phá dữ liệu [11] Có thể coi Apriori là thuật toán nền tảng cho nhiều hướng nghiên cứu, phát triển các thuật toán về khai phá dữ liệu cũng như ứng dụng của các thuật toán đó vào thực tiễn

Để khắc phục hạn chế của thuật toán Apriori nêu trên, Han J và cộng sự [5] tại Trường Đại học Simon Fraser (Canada) đã đề xuất thuật toán FP-growth Thuật toán FP-growth khai phá TMTX được xây dựng dựa trên những kĩ thuật cơ bản sau: (1) Nén toàn bộ CSDL giao tác lên một cấu trúc cây, gọi là cây FP-tree, nhờ đó giảm chi phí cho số lần duyệt CSDL giao tác trong quá trình khai phá (2) Dùng phương pháp chia để trị (devide-and-conquer), bằng cách trong quá trình xây dựng và khai phá dữ liệu được chia làm thành các bài toán nhỏ hơn, theo nghĩa xây dựng các cây FP-tree

có điều kiện và khai phá các TMTX trên các cây FP-tree có điều kiện đã được tạo ra

Do vậy, quá trình khai phá cây được phát triển dần các mẫu mà không sinh ra nhiều các TMUV và làm giảm thời gian tính toán Quá trình khai phá TMTX được thực hiện theo hai pha: Pha xây dựng cây FP-tree và pha khai phá cây FP-tree bằng thuật toán FP-growth

Khác với khai phá TMTX truyền thống, khai phá TMTX với trọng số người ta không chỉ quan tâm đến số lần xuất hiện của các tập mục trong CSDL mà còn quan tâm đến mức độ quan trọng (trọng số) khác nhau của chúng Mô hình bài toán khai phá TMTX với trọng số được đề xuất và nghiên cứu lần đầu tiên vào năm 1998 bởi Cai C.H và cộng sự với thuật toán MINWAL [3] Trong MINWAL, các tác giả đã đưa ra khái niệm DHTVTS Theo đó, DHTVTS của một tập mục bằng tích của độ hỗ trợ nhân với trọng số trung bình của các mục thành viên Hạn chế của MINWWAL là

có liên quan đến tính chất Apriori (mọi tập con của TMTX cũng là TMTX) Tính chất này bị phá vỡ khi những trọng số khác nhau được áp dụng cho các mục, nghĩa là

Trang 12

11

tập con của một TMTX với trọng số không nhất thiết phải là TMTX với trọng số Để duy trì tính chất Apriori, MINWAL đã đề xuất khái niệm cận k-hỗ trợ (k-support bound) Độ hỗ trợ của một TMUV sinh ra tại mức k phải lớn hơn hoặc bằng cận k-hỗ trợ MINWAL được xây dựng dựa trên thuật toán Apriori trong khai phá TMTX truyền thống, tuy nhiên phần lớn các TMUV phát hiện không phải là TMTX với trọng số Hơn nữa, theo [3], việc sử dụng cận k-hỗ trợ để tỉa không gian tìm kiếm chi phí rất nhiều thời gian Sau MINWAL, một số mô hình và thuật toán khác cũng đã được đề xuất Phần lớn các thuật toán này đều dựa trên thuật toán Apriori [1][2] Trong [1], Aggarwal cùng các cộng sự đã đề xuất thuật toán Apriori-TID coi là

mở rộng theo hướng tiếp cận cơ bản của thuật toán Apriori Thay vì dựa vào CSDL thô, Apriori-TID biểu diễn bên trong mỗi giao dịch bởi các ứng viên hiện thời Như

đã thấy Apriori đòi hỏi phải quét toàn bộ CSDL nhiều lần để tính độ hỗ trợ cho các TMUV ở mỗi bước sau Đây là một sự lãng phí lớn Dựa trên ý tưởng ước đoán và đánh giá độ hỗ trợ, Apriori-TID theo hướng chỉ phải quét CSDL một lần, sau đó tính

độ hỗ trợ cho các một tập mục Từ bước thứ hai trở đi, Apriori-TID nhờ lưu trữ song song cả ID (định danh) của giao dịch và các ứng viên, có thể đánh giá, ước lượng độ

hỗ trợ mà không phải quét lại toàn bộ CSDL

Trong [1], Aggarwal cùng các cộng sự cũng đề xuất thuật toán Apriori-Hybrid Apriori-Hybrid được coi là kết hợp giữa Apriori và Apriori-TID Apriori-Hybrid được sử dụng khi tổ chức lặp và chuyển sang Apriori-TID khi đã chắc chắn rằng tập tập ứng viên mức k đã đưa vào bộ nhớ chính Apriori-Hybrid được đánh giá là tốt hơn so với Apriori và Apriori-TID

Ngoài ra, có rất nhiều các thuật toán khác là biến thể (kiểu) thuật toán Apriori: DIC (Dynamic Itemset Couting), OCD (Offline Candidate Detreteermination), Partition, Sampling, CARMA, AIS, SETM, Eclat, Charm, …[1][2]

Mặc dù khai phá TMTX với trọng số đã xét đến trọng số của các mục trong quá trình khai phá, nó vẫn chưa đủ để phản ánh thế giới thực khi giả thiết trọng số của mỗi mục luôn là một giá trị cố định Trên thực tế, trọng số của các mục thường thay đổi theo thời gian (trọng số thích nghi) Vấn đề trọng số thay đổi theo thời gian (trọng

số thích nghi) được đề xuất lần đầu tiên vào năm 2008 bởi Chowdhury F A và cộng

sự [4] Các tác giả công trình đã đề xuất mô hình và thuật toán AWFPM khai phá TMTX với trọng số thích nghi, theo nghĩa trọng số của các mục có thể thay đổi theo thời gian, từ lô giao tác này sang lô giao tác khác của CSDL giao tác Tập mục được gọi là TMTX với trọng số thích nghi nếu có tổng DHTVTS trong các lô lớn hơn ngưỡng đã cho AWFPM sử dụng cấu trúc cây FP-tree Việc tỉa cây được thực hiện bằng cách sử dụng trọng số cực đại toàn cục (GMAXW) và trọng số cực đại địa phương (LMAXW) Trọng số cực đại toàn cục là trọng số lớn nhất của tất cả các mục trong CSDL khai phá, còn trọng số cực đại địa phương là trọng số lớn nhất của các mục trong một CSDL điều kiện

Trong [6], Han cùng các cộng sự đã tổng quan về các thuật toán khai phá TMTX

và chỉ ra một số định hướng phát triển

Trong [8], S Lu cùng các cộng sự đã đề xuất các thuật toán khai phá luật kết hợp với trọng số nhằm đánh giá độ hỗ trợ và độ tin cậy của các tập mục trong CSDL giao tác

Trang 13

12

Trong [9], tác giả Nguyễn Hưng Long đã đề xuất thuật toán AWFP-Miner khai phá TMTX với trọng số thích nghi ở đó sử dụng một độ đo mới để tỉa các TMTX hiệu quả hơn trong quá trình khai phá AWFP-Miner là thuật toán kiểu FP-Growth Trong [12], tác giả F Tao đã đề xuất thuật toán WARM Vấn đề không thỏa mãn tính chất Apriori được tác giả giải quyết bằng cách sử dụng một độ hỗ trợ với trọng

số khác với định nghĩa trong MINWAL, từ đó phát triển tính chất Apriori Độ hỗ trợ với trọng số của tập mục “ab” trong WARM là tỷ lệ trọng số của các giao tác chứa cả

“a” lẫn “b” trên trọng số của tất cả các giao tác trong CSDL WARM cũng là thuật toán dựa trên Apriori

Trong [13] W.Wang cùng các cộng sự đã đề xuất thuật toán WAR khai phá luật kết hợp với trọng số Để khai phá các luật này, trước tiên WAR sinh ra các TMTX

mà không xét đến các trọng số, sau đó mới xét đến trọng số của các tập mục tại bước sinh luật kết hợp Như vậy, WAR không thực hiện việc khai phá TMTX với trọng số,

nó là thuật toán theo cách tiếp cận hậu xử lý Ngoài ra, WAR cũng dựa trên thuật toán Apriori

Các thuật toán phát triển dựa trên thuật toán Apriori có hai nhược điểm là phải sinh và kiểm tra rất nhiều TMUV và phải quét CSDL nhiều lần, nên hiệu quả khai phá thấp Thuật toán khai phá TMTX với trọng số đầu tiên sử dụng cấu trúc cây FP-tree là thuật toán WFIM do Yun U và Leggett J J đề xuất [16] WFIM cho phép chỉ cần quét CSDL hai lần và tránh được việc sinh ra quá nhiều ứng viên WFIM sử dụng một trọng số nhỏ nhất và một khoảng biến thiên cho các trọng số Mỗi mục trong CSDL được gán cho một trọng số cố định thuộc khoảng biến thiên Mỗi giao tác được đưa lên cây FP-tree sau khi sắp xếp các mục theo thứ tự trọng số tăng dần Trong [13] U Yun tiếp tục phát triển và đề xuất thuật toán WIP WIP phối hợp những thế mạnh của các kỹ thuật đã có và tạo ra các mẫu quan trọng theo đánh giá phản hồi của người dùng WIP sử dụng một độ đo mới, gọi là độ tin cậy trọng số, nhằm tạo ra các tập mục hyperclique, có trọng số gần như nhau Một khoảng giá trị trọng số và một số đo độ tin cậy khác, gọi là độ tin cậy h, cũng đã được sử dụng Khoảng giá trị trọng số định ra ranh giới cho các trọng số, còn độ tin cậy h nhằm đảm bảo cho các tập mục gồm các mục có độ hỗ trợ gần như nhau WIP không chỉ chú ý đến sự cân bằng giữa trọng số và độ hỗ trợ, mà còn coi trọng mối quan hệ về trọng số

và mối quan hệ về độ hỗ trợ giữa các mục trong tập mục để tạo ra các tập mục giá trị hơn

Trong [15], U Yun đã xem xét lại hai ràng buộc cơ bản về trọng số và về độ hỗ trợ, từ đó đề xuất thuật toán WLPMiner WLPMiner kết hợp hai độ đo ràng buộc này

để tạo ra các tập mục với số lượng ít hơn nhưng lại có ý nghĩa hơn Để cắt tỉa, tác giả

đã sử dụng khái niệm WSVE (Weighted Smallest Valid Extension) áp dụng cho cả ràng buộc về độ hỗ trợ giảm theo độ dài và ràng buộc đối với trọng số, đồng thời bổ sung thêm một khoảng trọng số để duy trì tính chất Apriori Việc kết hợp ràng buộc

về trọng số với độ hỗ trợ giảm theo độ dài tập mục đã cải thiện hiệu quả thời gian chạy và số lượng mẫu khai thác WLPMiner cũng là thuật toán sử dụng cấu trúc cây FP-tree

Trong [17], S Zhang đã đề xuất một chiến lược với tên gọi WEIGHT để bảo trì các luật kết hợp trong CSDL gia tăng bằng cách gán trọng số cao hơn cho các giao tác mới nhằm làm rõ mức độ quan trọng của những giao tác này Tuy nhiên, tất cả các các mục trong các giao tác mới lại được gán cho cùng một trọng số Thuật toán

Trang 14

13

bảo trì các luật kết hợp của Zhang S và cộng sự cũng được xây dựng dựa trên phương pháp sinh và kiểm tra các tập ứng viên của thuật toán Apriori Vì vậy, với một CSDL cụ thể nào đó, nó sẽ tạo ra một tập rất lớn các ứng viên và phải quét CSDL nhiều lần để tìm ra kết quả cuối cùng

Nhận thấy, các nghiên cứu về khai phá TMTX nêu trên mang tính học thuật cao

và có thể vận dụng để ứng dụng chúng trong một số bài toán thực tiễn, chẳng hạn như hỗ trợ phân tích, lựa chọn các phương án tối ưu cho tổ chức, doanh nghiệp, khách hàng, nhà đầu tư, … trong hoạt động kinh doanh

Các nghiên cứu trong nước

Tại Việt Nam, theo hướng phân tích, đánh giá truyền thống, trong [28], tác giả đã xây dựng phần mềm phân tích một số chỉ tiêu kinh tế phản ánh hiệu quả kinh doanh trong các doanh nghiệp thương mại Trong đề tài nghiên cứu tác giả đã sử dụng công

cụ là hệ thống các CSDL về: Bảng cân đối kế toán, Bảng báo cáo kết quả hoạt động sản xuất kinh doanh, các Sổ chi tiết, … và hệ thống các qui tắc (công thức) để tính các chỉ tiêu Dựa trên các chỉ tiêu này các nhà phân tích nhìn nhận lại một cách tổng thể về toàn bộ quá trình hoạt động kinh doanh và đưa ra các quyết định chiến lược phát triển hoạt động kinh doanh trong tương lai

Trong [22], tác giả đã sử dụng lý thuyết tập thô (rough set) để giải quyết vấn đề

hỗ trợ ra quyết định 3 lĩnh vực: đánh giá công ty, chính sách tài chính của ngân hàng

và xây dựng chiến lược thị trường Ngoài ra, tác giả đã tìm hiểu phát hiện các tri thức qua lập trình logic qui nạp và ứng dụng trong phát hiện các dấu hiệu tài chính bất thường

Trong [27], tác giả đã ứng dụng kĩ thuật của khai phá dữ liệu để tìm ra các qui luật về sự biến động hữu ích còn ẩn chứa trong các CSDL thị trường chứng khoán nhằm mang lại cho các nhà đầu tư nhiều cơ hội để lựa chọn các nhóm cổ phiếu cần đầu tư tại đúng thời điểm

Trong [32], tác giả Trần Huy Dương cùng các cộng sự đã chỉ ra một số tính chất của TMTX với trọng số chuẩn hóa Sử dụng các tính chất này và cách tiếp cận của thuật toán FP-growth trong khai phá TMTX, để đề xuất thuật toán COWFI-mine khai phá TMTX với trọng số chuẩn hóa Các phân tích cấu trúc thuật toán và các tính toán thực nghiệm cho thấy COWFI-mine hiệu quả hơn các thuật toán kiểu Apriori [1][2], chẳng hạn thuật toán MINWAL(W) do C.H Cai và cộng sự đề xuất [4]

Trong [20] các tác giả đã đề xuất một thuật toán cải tiến khai phá TMTX cổ phần cao trong CSDL lớn AFSM Việc cải tiến thuật toán được thực hiện thông qua một chiến lược tỉa hiệu quả các TMUV, nhờ đó giảm thời gian thực hiện thuật toán khai phá

Trong [21] các tác giả đã đề xuất thuật toán hiệu quả khai phá tập mục lợi ích cao bằng cách duyệt từ dưới lên của cây nén các giao tác của CSDL giao tác Thuật toán

đề xuất cũng được đánh giá, phân tích hiệu quả hơn các thuật toán giải quyết bài toán tương tự khác mà đã đề xuất trước đó

Trong [25], tác giả Nguyễn Hưng Long và Nguyễn Minh Hoàng đã đề xuất thuật toán RSFPGrowth khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện Thuật toán RSFPGrowth cho phép thay vì tìm tập tất cả các tập mục thường xuyên trong cơ sở dữ liệu lớn bằng cách tìm tập chứa hầu hết các tập tập mục

Trang 15

14 thường xuyên từ tập mẫu đại diện các giao tác Bởi vì khi cỡ mẫu n cần lấy cho tập mẫu sẽ tăng chậm so với cỡ tổng thể nên độ hiệu quả của việc khai phá

tập tập mục thường xuyên thông qua lấy mẫu đại diện các giao tác sẽ càng cao khi kích hước của cơ sở dữ liệu ban đầu càng lớn

Trong [27], tác giả Nguyễn Thanh Tùng và các cộng sự trình bày thuật toán khai phá TMTX có tên là BMB BMB có ưu điểm hơn các thuật toán kiểu Apriori: chỉ cần quét CSDL giao tác một lần để chuyển đổi CSDL giao tác thành ma trận nhị phân; không sinh các tập ứng viên; chỉ sử dụng các phép toán cơ bản trên các véc tơ nhị phân Do đó, BMB tiết kiệm về dung lượng bộ nhớ và thích hợp cho khai phá các CSDL lớn

Trong [29], tác giả Phan Thành Huấn và cộng sự đề xuất thuật toán song song khai phá TMTX với nhiều ngưỡng phổ biến tối thiểu riêng trên bộ xử lí đa nhân Thuật toán đề xuất đã được đánh giá, phân tích hiệu quả hơn so với các thuật toán trước đó

Trong [23], tác giả Nguyễn Hưng Long đã trình bày nghiên cứu và ứng dụng một

số thuật toán: Các thuật toán khai phá TMTX Apriori và FP-growth; Thuật toán khai phá TMTX với trọng số WFC; Thuật toán khai phá TMTX với trọng số thích nghi AWFI-Miner Đề tài đã đánh giá, phân tích cho việc ứng dụng từng thuật toán vào trong hoạt động kinh doanh cụ thể tại doanh nghiệp Mặt khác, đề tài cũng đã đưa ra một số đề xuất, kiến nghị và các dự báo phát triển vấn đề nghiên cứu liên quan đến ứng dụng trong các hoạt động của đời sống - xã hội

Trong [24], tác giả Nguyễn Hưng Long giới thiệu ứng dụng thuật toán Miner khai phá TMTX với trọng sô thích nghi trên dòng dữ liệu và đề xuất ứng dụng thuật toán cho phân tích CSDL bán hàng siêu thị Trên thực tế đây là là một trong những ứng dụng của thuật toán khai phá trên dòng cho phân tích CSDL bán hàng siêu thị Trong đề tài sẽ nghiên cứu một số các thuật toán khai phá TMTX với trọng

SWFP-số khác theo các khía cạnh khác nhau để ứng dụng chúng trong phân tích CSDL bán hàng siêu thị một cách logic và hệ thống hơn

Trong [26], tác giả Nguyễn Hưng Long cùng cộng sự đã đề xuất thuật toán MFITMT khai phá TMTX đa ngưỡng và ứng dụng thuật toán này cho phân tích CSDL bán hàng của siêu thị Thực tế, thuật toán này chỉ là tiền đề (nhỏ) cho phát triển từ thuật toán Apriori cho khai phá đa ngưỡng Kiểu của thuật toán này có ứng dụng chúng cho nhiều lĩnh vực của đời sống - xã hội chứ không riêng gì trong lĩnh vực bán hàng của siêu thị

Trong [19], tác giả đã nghiên nghiên cứu các kĩ thuật của khai phá dữ liệu, vận dụng các thuật toán khai phá luật kết hợp để tìm các TMTX và các luật kết hợp Đồng thời tác giả đã sử dụng công cụ lập trình (Visual Studio C#), hệ quản trị dữ liệu (Microsoft SQL Server 2005) để xây dựng hệ hỗ trợ ra quyết định phục vụ cho công tác quản lí kho hàng tại Siêu thị Metro

Trong [28], tác giả đã nghiên cứu tổng quan về khai thác dữ liệu, nghiên cứu một

số thuật toán khai thác luật kết hợp nhị phân Tác giả cũng đã nghiên cứu, thử nghiệm ứng dụng thuật toán khai thác luật kết hợp nhị phân nhằm phân tích tài chính

và kinh doanh ngân hàng Kết quả phân tích giúp chuyên gia nhận được những thông

Trang 16

và dự báo CSDL ngành thuế Việt Nam

Một điểm đáng lưu ý, trong hầu hết các nghiên cứu [26]-[32] cũng đều không đưa

ra mô hình ứng dụng các thuật toán khai phá dữ liệu (bởi công cụ khai phá TMTX/TMTX với trọng số) trong phân tích cơ sở dữ liệu (CSDL) nói chung và CSDL bán hàng siêu thị nói riêng Ngay kể cả, trong [23] cũng chỉ đề xuất một khía cạnh nhỏ khai phá TMTX đa ngưỡng dựa trên thuật toán cơ bản Apriori nhằm hỗ trợ phân tích CSDL bán hàng của siêu thị Mặt khác, thuật toán khai phá Apriori hay kiểu Apriori có một số hạn chế về thời gian xử lí, bộ nhớ, duyệt CSDL giao tác nhiều lần

3 Mục tiêu nghiên cứu

Đề tài tập trung nghiên cứu về các khía cạnh sau:

- Nghiên cứu lý thuyết cơ bản của khai phá dữ liệu bán hàng siêu thị, khai phá TMTX

- Xây dựng mô hình áp dụng một số thuật toán khai phá TMTX hỗ trợ phân tích CSDL bán hàng siêu thị

- Đề xuất mô hình áp dụng một số thuật toán khai phá TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị

4 Đối tượng và phạm vi nghiên cứu

a) Đối tượng nghiên cứu

- Lý thuyết chung về khai phá dữ liệu bán hàng siêu thị

- Một số thuật toán khai phá TMTX, TMTX với trọng số

- Bài toán phân tích cơ sở dữ liệu bán hàng siêu thị

- Áp dụng một số thuật toán khai TMTX, TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị

5 Phương pháp nghiên cứu

Trang 17

- Phân tích các thuật toán, các mô hình bài toán

- Kết hợp các phương pháp: Nêu vấn đề, suy luận, diễn giải, phân tích, tổng hợp, khái quát hóa và chứng minh để đưa ra các kết quả theo yêu cầu

6 Kết cấu báo cáo nghiên cứu

Ngoài các mục như: Mục lục, danh mục bảng biểu, hình xẽ, danh mục từ viết tắt, tài liệu tham khảo, …Báo cáo đề tài có 4 chương chính

Chương 1: Tổng quan nghiên cứu đề tài

Trong chương trình bày sơ lược về: Tính cấp thiết đề tài; tình hình nghiên cứu về

đề tài trong nước và ngoài nước; mục tiêu nghiên cứu; đối tượng và phạm vi nghiên cứu; phương pháp nghiên cứu và kết cấu báo báo nghiên cứu liên quan đến ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị

Chương 2: Tổng quan về khai phá dữ liệu bán hàng siêu thị

Nội dung trình bày tổng quan nhất về khai phá dữ liệu bán hàng siêu thị như: Cơ

sở dữ liệu bán hàng siêu thị, khai phá dữ liệu và khai phá dữ liệu bán hàng siêu thị

Chương 3: Ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích

cơ sở dữ liệu bán hàng siêu thị

Nội dung chính trong chương này trình bày về: Ứng dụng thuật toán khai phá TMTX, TMTX với trọng số hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị,

Chương 4: Các kết luận, thảo luận và đề xuất với vấn đề nghiên cứu

Trong chương đưa ra một số các kết luận; Các dự báo triển vọng về các vấn đề nghiên cứu; các đề xuất kiến nghị với vấn đề nghiên cứu; một số hạn chế nghiên cứu

và vấn đề đặt ra cần tiếp tục nghiên cứu

Trang 18

17

CHƯƠNG 2 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU BÁN HÀNG SIÊU THỊ,

MÔ HÌNH VÀ THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN

Hệ thống quản lý bán hàng: là hệ thống thông tin được sử dụng trong quản lý và tiếp thị quản lý mối quan hệ khách hàng (CRM - Customer Relationship Management) giúp tự động hóa một số chức năng quản lý bán hàng và bán hàng [18]

Đặc trưng của siêu thị [18] - [35]

- Đóng vai trò như một cửa hàng bán lẻ

Siêu thị thực hiện chức năng bán lẻ: bán hàng hóa trực tiếp cho người dùng để họ

sử dụng chứ họ không phải bán lại cho các đối tượng khác Do vậy, co stheer coi siêu thị là kênh phân phối ở mức phát triển cao hơn so với các đại lý bán lẻ khác, được quy hoạch và tổ chức kinh doanh dưới hình thức những cửa hàng quy mô, có trang thiết bị và cơ sở vật chất hiện đại, văn minh, do thương nhân đầu tư và quản lý

- Áp dụng hình thức tự phục vụ

Đây là đăc trưng cho có ở các siêu thị, được ứng dụng như trong các loại cửa

hàng bán lẻ khác.- Phương thức thanh toán thuận tiện

Hàng hóa của siêu thị được gắn mã vạch, mã số sau đó được đưa ra quầy thanh toán tại cửa ra/vào siêu thị Tại quầy sẽdùng máy quét để đọc giá, tính tiền bằng máy

và in hóa đơn tự động

- Hàng hóa của siêu thị:

Hàng hóa của siêu thị chủ yếu là những hàng tiêu dùng thiết yếu như: đồthực phẩm, đồ may mặc, đồ gia dụng, điện tử, .với nhiều chủng loại đa dạng và phong

Trang 19

18

phú Siêu thị thuộc hệ thống các cửa hàng kinh doanh tổng hợp, khác với các cửa hàng chuyên kinh doanh chỉ chuyên sâu vào một hoặc một số mặt hàng nhất định

2.1.3 Công việc và chức năng chính của siêu thị

Trong [18] - [35] đã chỉ ra các công việc và chức năng chính của siêu thị

Những công việc của quản lý bán hàng bao gồm:

- Thiết lập chiến lược phân phối

- Thiết lập tổ chức lực lượng bán hàng; quản lý lực lượng bán hàng, khách hàng

- Thiết lập chính sách bán hàng, Tuyển dụng

- Lập kế hoạch bán hàng

- Triển khai

- Huấn luyện nâng cao kỹ năng

- Đo lường, đánh giá hiệu quả bán hàng

Thông thường một hệ thống quản lý bán hàng siêu thị có các chức năng sau:

- Quản lý nhân viên

- Quản lý khách hàng thân thiết, thường xuyên

- Quản lý nhập/, xuất kho

- Quản lý mặt hàng trong siêu thị

- Quản lý tài chính thu chi của siêu thị

Những chức năng chính của siêu thị bao gồm:

- Quản lý nhân viên: Để quản lý nhân viên trong hệ thống quản lý bán hàng siêu

thị, thông thường các thông tin nhân viên được quản lý như: Mã số nhân viên, họ tên nhân viên, năm sinh, địa chỉ, bộ phận

- Quản lý khách hàng thân thiết, thường xuyên: Khách hàng thân thiết, thường

xuyên khi mua ở siêu thị cần cung cấp thông tin: Tên khách hàng, mã số thuế, năm sinh, số điện thoại, địa chỉ nhà, Sau đó, nhân viên siêu thị nhập hóa đơn từ khách hàng và lập phiếu khách hàng thân thiết cho khách hàng

- Quản lý kho hàng: Khi nhập hoặc xuất hàng hóa trong siêu thị cần lưu thông

tin: ngày tháng nhập, xuất, tổng trị giá

- Hàng nhập kho: Nhập hàng hóa theo hóa đơn mua hàng của công ty hoặc siêu

thị Hàng nhập kho được theo dõi dựa trên: mã hàng, chủng loại hàng, nhóm ngành hàng, số lượng nhập, đơn vị tính, đơn giá Báo cáo lượng nhập hàng hóa trong kỳ

- Hàng xuất kho: Hàng xuất ra quầy cũng được theo dõi theo mã hàng, nhóm

hàng, chủng loại hàng, nhóm ngành hàng, số lượng xuất, đơn vị tính Báo cáo lượng hàng hóa xuất kho trong kỳ

- Quản lý hàng tồn: Tổng hợp những phát sinh xuất nhập kho trong kỳ Báo cáo

hàng tồn và giá trị hàng tồn kho trong kỳ Báo cáo thẻ kho từng loại hàng tồn kho

- Quản lý mặt hàng trong quầy siêu thị:

Trang 20

2.2 Cơ sở dữ liệu bán hàng siêu thị

Các nội dung trong phần được tham khảo trong [18], [24], [26], [33], [34] và [35]

2.2.1 Cơ sở dữ liệu và tầm quan trọng quản lí cơ sở dữ liệu

Cơ sở dữ liệu (Database)

Cơ sở dữ liệu là tập hợp các dữ liệu có liên quan với nhau, mô hình hóa các đối tượng của một phần thế giới thực (công ty, doanh nghiệp, trường học, )

Việc tổ chức CSDL sẽ khắc phục được những khuyết điểm của cách lưu trữ dạng file riêng lẻ:

- Giảm trùng lặp thông tin, đảm bảo tính nhất quán và toàn vẹn dữ liệu

- Cho phép dữ liệu được truy xuất theo nhiều cách khác nhau, từ nhiều người khác nhau và nhiều ứng dụng khác nhau

- Tăng khả năng chia sẻ thông tin

- Tuy nhiên việc sử dụng hệ quản trị CSDL lại có những phiền hà không hề nhỏ sau đây:

- Phải đảm bảo tính chủ quyền của dữ liệu, vì khi sử dụng có tính chất chia sẻ cao

- Bảo mật quyền khai thác thông tin

- Bảo đảm vấn đề tranh chấp dữ liệu khi xảy ra

- Đảm bảo an toàn, toàn vẹn của dữ liệu

Các tính chất của CSDL

- Một CSDL biểu diwwx khía cạnh của thế giới thực

- Một CSDL là tập hợp dữ liệu kiên kết nhau

- Một CSDL được thiết kế và được phổ biến cho một mục đích riêng

Hệ quản trị cơ sở dữ liệu và Tầm quan trọng quản lí cơ sở dữ liệu

Trang 21

20

Hệ quản trị cơ sở dữ liệu (Database Management System)

Hệ quản trị CSDL là tập hợp chương trình giúp cho người sử dụng tạo, bảo trì và khai thác CSDL Đây là hệ thống phần mềm phổ dụng, thuận tiện cho quá trình định nghĩa, xây dựng và thao tác CSDL với các ứng dụng khác nhau

Nói một cách dễ hiểu hơn, hệ quản trị cơ sở dữ liệu là hệ thống tự động giúp người dùng có thể kiểm soát các thông tin, tạo, cập nhật và duy trì các CSDL Trong

đó, hai thành phần chính trong một hệ quản trị cơ sở dữ liệu là: Bộ xử lý truy vấn (bộ

xử lý yêu cầu) và bộ quản lý dữ liệu

Tầm quan trọng quản lí cơ sở dữ liệu

Các hệ quản trị cơ sở dữ liệu ra đời và đóng vai trò quan trọng trong xử lý và kiểm soát nguồn thông tin Cụ thể, hệ quản trị CSDL có các chức năng chính như sau:

- Cung cấp môi trường tạo lập cơ sở dữ liệu: Hệ quản trị CSDL đóng vai trò cung cấp cho người dùng một ngôn ngữ định nghĩa dữ liệu để mô tả, khai báo các cấu trúc

dữ liệu

- Cung cấp cách cập nhật và khai thác dữ liệu: Hệ quản trị CSDL cung cấp cho người dùng ngôn ngữ thao tác dữ liệu để diễn tả các yêu cầu, các thao tác cập nhật và khai thác CSDL Thao tác dữ liệu bao gồm: Cập nhật (nhập, sửa, xóa dữ liệu), Khai thác (tìm kiếm, kết xuất dữ liệu)

- Cung cấp các công cụ kiểm soát, điều khiển các truy cập vào CSDL nhằm đảm bảo thực hiện một số yêu cầu cơ bản của hệ cơ sở dữ liệu Bao gồm: (1) Đảm bảo an ninh, phát hiện và ngăn chặn các truy cập bất hợp pháp (2) Duy trì tính nhất quán của dữ liệu (3) Tổ chức và điều khiển các truy cập (4) Khôi phục cơ sở dữ liệu khi

có sự cố về phần cứng hay phần mềm (5) Quản lí các mô tả dữ liệu

Trong nghiên cứu thị trường

Với đặc điểm phải khảo sát, điều tra với số lượng lớn mẫu theo các tiêu chí lựa chọn, đồng thời chịu áp lực của khách hàng về việc phải cập nhật số liệu nhanh, chính xác, báo cáo đầy đủ, trong thời gian ngắn, việc sử dụng phần mềm và hệ cơ sở

dữ liệu tương ứng hỗ trợ có các ưu điểm như:

- Giảm khối lượng giấy tờ cần lưu trữ

- Quản lý lượng lớn kết quả khảo sát lâu dài, thống kê kết quả khảo sát qua các năm của cùng một khách hàng, cùng một chỉ tiêu dễ dàng, tức thời, hiệu quả

- Một số báo cáo đơn giản được trích xuất tức thời

- Việc kiểm soát điều tra viên và độ trung thực của kết quả điều tra sẽ đơn giản hơn

- Chi phí ban đầu có thể tăng lên, nhưng chi phí triển khai lâu dài giảm xuống

Trong quản lý bán hàng

Việc nhiều bộ phận, cá nhân cùng lúc tra cứu, cập nhật thông tin về một khách hàng, một đơn hàng là điều không thể tránh khỏi Hệ quản trịCSDL đơn giản hóa công việc quản lý khách hàng

Trang 22

21

- Cho phép quản lý hàng ngàn, triệu khách hàng cùng lúc, lưu trữ toàn bộ các giao dịch, đặc điểm, kết quả, trạng thái, thông tin của từng khách hàng

- Cùng lúc tra cứu một hoặc nhiều khách hàng có các đặc điểm theo yêu cầu

- Cập nhật cùng lúc nhiều mặt của cùng một khách hàng theo phân quyền

- Bộ phận marketing lưu trữ thông tin về các chiến dịch, danh sách khách hàng tìm kiếm được sau mỗi chiến dịch

- Phòng kinh doanh được phép sửa thông tin cơ bản, các thông tin phục vụ chăm sóc khách hàng, các đơn hàng

- Bộ phận kho, sản xuất lưu trữ thông tin các thông tin về kết quả sản xuất đơn hàng, tình trạng kho hàng

- Bộ phận kế toán lưu trữ các giao dịch liên quan đến đơn hàng, các chi phí phát sinh

- Các dữ liệu rời rạc từ các bộ phận trên được thống nhất, kết xuất, lưu trữ trong suốt quá trình từ lúc tìm được đến lúc bán hàng, xuất hóa đơn và các lịch sử giao dịch

về sau, giảm tỷ lệ bị trùng lắp khách hàng, cung cấp thêm các thông tin để phân nhóm khách hàng, xây dựng các chiến dịch chăm sóc khách hàng tốt hơn

Trong quản trị nhân sự

Quản trị nhân sự là một quá trình kéo dài từ trước khi xây dựng kế hoạch tuyển dụng đến cả sau khi nhân sự đó không làm cho siêu thị Mỗi nhân sự bao gồm rất nhiều thông tin, do vậy khó quản lý nếu chỉ quản lý trên giấy tờ hoặc file, ngoải ra khi cập nhật, thay đổi thông tin nhâ sự, việc các dữ liệu không “khớp” với nhau không thể tránh khỏi Một phần mềm ứng dụng phù hợp sẽ giúp ban lãnh đạo, quản

lý công ty trong việc:

- Đánh giá hiệu quả của các đợt tuyển dụng,

- Thông tin nhân sự được lưu trữ đồng bộ trong suốt quá trình từ trước, trong và sau khi làm việc tại công ty: thông tin lý lịch nhân sự, các quyết định liên quan, kết quả đánh giá hiệu suất làm việc, mức lương, khen thưởng, kỷ luật, quy hoạch, thăng chức, … Các phần mềm quản trị nhân sự giúp quản lý thông tin nhân sự một cách bài bản và khoa học

- Thông tin được đảm bảo về tính đồng bộ, sẵn sàng, duy nhất, không trùng lặp…

và chỉ được xem, sửa bởi những bộ phận hay cá nhân đã được phân quyền

- Hệ thống trợ giúp báo cáo đánh giá toàn diện mọi mặt nhân sự siêu thị, từ đó xây dựng có kế hoạch đào tạo, tuyển dụng… hiệu quả theo đúng các nhu cầu được đề

ra

- Giúp xây dựng và đồng bộ hệ thống lương thưởng, phúc lợi phù hợp toàn trong toàn bộ hệ thống

2.2.2 Cơ sở dữ liệu bán hàng siêu thị

Quản trị hoạt động bán hàng tại siêu thị

Siêu thị là loại hình cửa hàng hiện đại; kinh doanh tổng hợp hoặc chuyên doanh;

có cơ cấu chủng loại các hàng hoá phong phú, đa dạng, bảo đảm chất lượng; đáp ứng các tiêu chuẩn về diện tích kinh doanh, trang bị kỹ thuật và trình độ quản lý, tổ chức

Trang 23

22

kinh doanh; có các phương thức phục vụ văn minh, thuận tiện nhằm thoả mãn nhu cầu mua sắm hàng hóa của khách hàng Siêu thị được Nhà nước cấp phép hoạt động Chủng loại hàng hóa của siêu thị có thể lên tới hàng nghìn, thậm chí hàng vạn mặt hàng theo các nhóm, ngành hàng khác nhau Tùy thuộc vào thời điểm khác nhau

mà số lượng khách hàng đến mua hàng siêu thị với các giỏ hàng bao gồm các chủng loại hàng hóa khác nhau Đặc biệt, do nhu cầu thị hiếu, sở thích của khách hàng khác nhau nên trong mỗi giỏ hàng của họ mà ở đó các mặt hàng đều có mối quan hệ với nhau Những thông tin như vậy hỗ trợ giúp cho nhà quản lý siêu thị quyết định chọn lọc để mua, đặt các mặt hàng/nhóm mặt hàng từ nhà cung cấp và thu xếp không gian trưng bày các mặt hàng một cách hợp lý nhằm hoạt động kinh doanh của siêu thị đạt được hiệu quả tốt nhất

Quản trị hoạt động hệ thống bán hàng của siêu thị, bao gồm ba nội dung chính: Xây dựng hệ thống bán hàng siêu thị; Tổ chức và quản lý hệ thống bán hàng siêu thị; Kiểm tra, đánh giá hệ thống bán hàng siêu thị Muốn phát huy hiệu quả của hệ thống bán hàng siêu thị, đòi hỏi công tác quản trị hệ thống bán hàng siêu thị phải chú ý cả

ba khâu của quá trình quản trị [33], [34], [35]

Qui trình nghiệp vụ bán hàng siêu thị

Thông thường một qui trình nghiệp vụ bán hàng siêu thị được mô tả bao gồm: Nhập hàng từ nhà cung cấp, Xuất hàng từ kho lên quầy hàng, Bán hàng, Kiểm kê hàng hóa, Lập các báo cáo thống kê, [25]

Cơ sở dữ liệu bán hàng siêu thị

Trong các bước của quá trình phân tích và thiết kế hệ thống quản lí bán hàng siêu thị Một CSDL được xây dựng dựa trên tập các thực thể kèm các thuộc tính (có thể) như sau [25]:

NHÂN VIÊN (Mã nhân viên, Mã chức vụ, Tên nhân viên, Phòng ban, Điện thoại)

CHỨC VỤ (Mã chức vụ, Chức vụ, Phòng ban)

HÀNG HÓA (Mã hàng, Nhóm hàng, Tên hàng, Đơn vị tính, Hạn dùng, Nguồn gốc Xuất xứ, Trọng lượng)

NHÓM NGÀNH HÀNG (Mã nhóm hàng, Tên nhóm hàng, Mã ngành hàng) NGÀNH HÀNG (Mã ngành hàng, Tên ngành hàng)

NHÀ CUNG CẤP (Mã NCC, Tên NCC, Mã số thuế, Số CMT, Địa chỉ, Điện thoại, Fax, Email)

PHIẾU NHẬP HÀNG (Mã PNH, Mã NCC, Ngày giao, Mã NV giao, Ngày nhập,

Mã hàng, Số lượng, Đơn giá, Mã chứng từ, Loại hóa đơn, Tổng tiền)

KHÁCH HÀNG (Mã KH, Tên KH, Mã số thuế, Số CMT, Địa chỉ, Điện thoại, Fax, Email)

PHIẾU XUẤT HÀNG (Mã PXH, Mã NV xuất, Mã hàng, Ngày xuất, Số lượng, Đơn giá)

HÓA ĐƠN BÁN HÀNG (Mã hóa đơn, Đơn vị bán hàng, Mã số thuế, Mã nhân viên, Mã KH, Ngày bán, Mã hàng, Tên hàng, Số lượng, Đơn giá, VAT, Tiền thanh toán)

Trang 24

Khái niệm khai phá dữ liệu [1], [34], [35], [36]

Khai phá dữ liệu (data mining) được dùng để mô tả quá trình phát hiện các tri thức trong CSDL lớn Khai phá dữ liệu được dùng để mô tả quá trình phát hiện ra tri thức trong CSDL Quá trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp cho việc dự báo trong kinh doanh, các hoạt động sản xuất, Khai phá dữ liệu làm giảm chi phí về thời gian so với phương pháp truyền thống trước kia (ví dụ như phương pháp thống kê)

Khai phá dữ liệu là một công nghệ mới, mạnh mẽ, có tiềm năng lớn Nó giúp các

tổ chức, công ty tập trung vào thông tin quan trọng nhất trong dữ liệu họ đã thu thập

về hành vi của khách hàng và khách hàng tiềm năng của họ Nó phát hiện ra thông tin trong dữ liệu mà các truy vấn và báo cáo không thể tiết lộ một cách hiệu quả

Qui trình khai phá dữ liệu [1], [34], [35], [36]

- Làm sạch dữ liệu

Làm sạch dữ liệu là bước đầu tiên để phân tích dữ liệu Dữ liệu trong thế giới thực thường không đầy đủ, nhiều sạn và không nhất quán Dữ liệu có sẵn từ các nguồn thứ cấp có thể thiếu các giá trị thuộc tính, dữ liệu quan tâm, … Ví dụ: bạn muốn dữ liệu nhân khẩu học của khách hàng Nếu dữ liệu khả dụng không bao gồm các thuộc tính cho giới tính hoặc độ tuổi của khách hàng thì sao? Do đó, dữ liệu là không đầy đủ Đôi khi dữ liệu có thể chứa lỗi hoặc ngoại lệ Dữ liệu cũng có thể không nhất quán Nếu dữ liệu không sạch, kết quả khai phá dữ liệu sẽ không đáng tin cậy cũng như không chính xác

Làm sạch dữ liệu bao gồm một số kỹ thuật như điền vào các giá trị còn thiếu bằng tay, kết hợp kiểm tra máy tính và con người, … Đầu ra của quy trình làm sạch

dữ liệu là dữ liệu được làm sạch đầy đủ

- Tích hợp dữ liệu

Trang 25

24

Tích hợp dữ liệu là quá trình dữ liệu từ các nguồn dữ liệu khác nhau được tích hợp thành một Dữ liệu nằm ở các định dạng khác nhau ở các vị trí khác nhau Dữ liệu có thể được lưu trữ trong cơ sở dữ liệu, tệp văn bản, bảng tính, tài liệu, khối dữ liệu, Internet, Tích hợp dữ liệu là một nhiệm vụ thực sự phức tạp và khó khắn Vì

dữ liệu từ các nguồn khác nhau sẽ không khớp với nhau Một vấn đề khác phải đối mặt là dư thừa dữ liệu Cùng một dữ liệu có thể có sẵn trong các bảng khác nhau trong cùng một cơ sở dữ liệu Hoặchậm chí trong các nguồn dữ liệu khác nhau

- Lựa chọn dữ liệu

Quá trình khai phá dữ liệu đòi hỏi có CSDL lớn để phân tích Vì vậy, thông thường kho lưu trữ dữ liệu với dữ liệu tích hợp chứa nhiều dữ liệu hơn thực tế yêu cầu Từ dữ liệu có sẵn, dữ liệu quan tâm cần phải được chọn và lưu trữ Lựa chọn dữ liệu là quá trình mà dữ liệu liên quan đến phân tích được lấy từ cơ sở dữ liệu

- Chuyển đổi dữ liệu

Chuyển đổi dữ liệu là quá trình biến đổi và hợp nhất dữ liệu thành các dạng phù hợp để tiến hành khai phá dữ liệu Chuyển đổi dữ liệu thông thường bao gồm: chuẩn hóa, tổng hợp, tổng quát hóa, …

- Khai phá dữ liệu

Khai phá dữ liệu là quá trình cốt lõi Trong nooj dung chính của đề tài cũng đề cập đến quá trình khai phá dữ liệu Đây là một số phương pháp phức tạp và thông minh được áp dụng để trích xuất các mẫu từ dữ liệu Quá trình khai phá dữ liệu bao gồm một số nhiệm vụ như liên kết, phân loại, dự đoán, phân cụm, phân tích chuỗi thời gian, …

- Đánh giá mẫu

Đánh giá mẫu nhằm xác định các mẫu thực sự thú vị, có ích, đại diện cho tổng thể Một mô hình được coi là tốt nếu nó có/có thể có khả năng hữu ích, dễ hiểu bởi con người, xác nhận một số giả thuyết rằng ai đó muốn xác nhận hoặc hợp lệ trên dữ liệu mới với một mức độ chắc chắn

- Báo cáo trực quan

Thông tin khai phá từ dữ liệu cần phải được trình bày cho người dùng theo cách hấp dẫn Các kỹ thuật biểu diễn và trực quan hóa kiến thức khác nhau được áp dụng

để cung cấp đầu ra của việc khai phá dữ liệu cho người dùng Các sơ đồ, bảng biểu là cần thiết để ban lãnh đạo các doanh nghiệp có thể nắm được trực quan kết quả của khai phá dữ liệu Qua đó xem xét các đề xuất, đưa ra các chiến lược phù hợp

2.3.2 Khai phá dữ liệu bán hàng siêu thị

Khai phá dữ liệu bán hàng siêu thị là kỹ thuật phân tích marketing, đồng thời là quá trình được các siêu thị sử dụng để biến dữ liệu thô (CSDL bán hàng) thành những thông tin hữu ích Bằng cách sử dụng phần mềm để tìm kiếm các mẫu trong

bộ dữ liệu lớn, siêu thị có thể tìm hiểu thêm về khách hàng cho mình Từ đó xây dựng và phát triển các chiến lược marketing hiệu quả hơn, tăng doanh số, giảm chi phí, tăng lợi nhuận Khai phá dữ liệu phụ thuộc vào việc thu thập dữ liệu, lưu kho cơ

sở dữ liệu, thuật toán và phần mềm xử lý hiệu quả

Như đã trình bày trong phạm vi đề tài , chúng tôi chỉ nghiên cứu các thuật toán khai phá dữ liệu trên các giỏ hàng (bao gồm định danh, giỏ hàng, có thể kèm theo trị

Trang 26

25

giá của các mặt hàng) để từ đó tìm ra được các mặt hàng/nhóm mặt hàng thường xuyên (phổ biến) với ngưỡng được qui định bởi người dùng (nhà quản lí) Qua quá trình khai phá sẽ giúp cho các nhà hoạch định siêu thị (Ban lãnh đạo, Tổng giám đóc/giám đốc/giám đốc chi nhánh, trưởng nhóm/bộ phận) có thể đề xuất hay ra quyết định nên đầu tư vào các mặt hàng/nhóm các mặt hàng nào, trong tương lai

Nội dung chính của ứng dụng các thuật toán khai phá TMTX, khai phá TMTX với trọng số thích nghi được trình bày trong chương 3 và đây cũng là nội dung chính của đề tài nghiên cứu khoa học và công nghệ của nhóm tác giả

2.4 Mô hình bài toán và thuật toán khai phá TMTX

2.4.1 Mô hình bài toán và thuật toán khai phá tập mục thường xuyên đa ngưỡng/một ngưỡng

2.4.1.1 Mô hình bài toán

Định nghĩa 1

Card(X)=1 thì X là 1-tập mục hay còn được gọi là mục đơn

hạn, tập mục {a, b, c} được viết ngắn gọn là abc

Định nghĩa 2 Một giao tác (transaction) là một bộ T = 〈TID, X〉, với TID là định

gọi là chứa tập mục Y nếu Y ⊆ T

Định nghĩa 3 CSDL giao tác (transaction database) là một tập các giao tác

Biểu diễn CSDL giao tác ngang : CSDL là một tập các giao tác Mỗi giao tác bao gồm một định danh (thứ tự) TID và một danh sách các mục

Ví dụ Trong Bảng 1 dưới đây là biểu diễn ngang của CSDL giao tác

Bảng 1 Biểu diễn ngang của CSDL giao tác

hỗ trợ (support) của X trong CSDL giao tác TDB được ký hiệu supp(X), là tỷ lệ phần trăm các giao tác trong TDB chứa X, tức là:

card(TDB)Với Card(TDB) là số các giao tác của TDB

Trang 27

26

Định nghĩa 5 Cho tập mục X ⊆ I và ngưỡng độ hỗ trợ tối thiểu minsupp

(minimum support) được xác định bởi người dùng, 0 < minsupp ≤ 1 Nếu supp(X) ≥ minsupp thì X được gọi là tập phổ biến (frequent itemset) với độ hỗ trợ tối thiểu minsupp, hay ta nói X thỏa minsupp, trường hợp ngược lại ta nói X là tập không phổ biến (infrequent itemset), hay ta nói X không thỏa minsupp

Định nghĩa 6 Cho CSDL giao tác TDB, với k ngưỡng độ hỗ trợ tối thiểu 0 <

thì bài toán trở thành khai phá TMTX một ngưỡng (gọi tắt là bài toán khai phá TMTX)

3.1.2.1 Thuật toán MFIMT khai phá tập phổ biến đa ngưỡng trong cơ sở dữ liệu giao tác

Ý tưởng của thuật toán MFIMT

Trước hết ta sắp xếp các độ hỗ trợ tối thiểu theo thứ tự tăng dần Chỉ gọi hàm Apriori một lần với ngưỡng độ hỗ trợ tối thiểu nhỏ nhất (sau khi đã sắp xếp các ngưỡng độ hỗ trợ) thu được tập các TMTX Từ các tập các TMTX thu được trước

đó ta loại trừ dần các tập mục không thỏa mãn các ngưỡng độ hỗ trợ tiếp theo của dãy tăng dần các ngưỡng độ hỗ trợ để thu được tập các TMTX tương ứng Qua trình

sẽ dùng sau khi thu được tập các TMTX với ngưỡng độ hỗ trợ lớn nhất

Hàm Apriori (thuật toán Apriori) được Agrawal R và cộng sự, thuộc Trung tâm nghiên cứu Almadel IBM (Mỹ), đề xuất vào năm 1993 Đây là thuật toán nền tảng cho phát triển nhiều thuật toán khai phá TMTX sau đó Ý tưởng của thuật toán Apriori được dựa trên cơ sở tính chất Apriori (Mọi tập con của TMTX đều là TMTX) Ở đó, để tìm ra các TMTX bằng cách tiến hành “sinh” các TMUV từ các TMTX ở bước trước, sử dụng kỹ thuật “tỉa” để loại bỏ những TMUV không thỏa mãn ngưỡng độ hỗ trợ cho trước Nghĩa là, sinh các TMUV gồm k-tập mục bằng cách kết nối các (k-1)-tập phổ biến, và loại bỏ các TMUV (nếu có) chứa bất kì một tập con nào không là TMTX

Chi tiết nội dung thuật toán Apriori có thể tham khảo trong [1], [2]

Nhận xét: Theo cách này chỉ cần gọi một lần hàm Apriori cho ngưỡng độ hỗ trợ

tối thiểu nhỏ nhất Với các ngưỡng tăng dần (tiếp theo) chỉ cần loại đi các TMTX nằm trong tập các TMTX đã tìm được trước đó mà không thỏa ngưỡng độ hỗ trợ mới Do đó, theo cách này sẽ giảm chi phí cho duyệt CSDL và kiểm tra các TMUV trong CSDL giao tác

Nội dung thuật toán MFIMT:

Algorith MFIMT;

(i=1,2, ,k)

Trang 28

27

Method:

Bước 3: For (i=2; i<=k; i++)

Bước 6: End

Trong đó:

2.4.1.2 Thuật toán BMB khai phá TMTX dựa trên ma trận nhị phân

Trong [27] đã đề xuất thuật toán BMB khai phá hiệu quả các TMTX Ý tưởng chính của thuật toán BMB gồm 2 pha:

Pha 1: Xây dựng ma trận nhị phân M tương ứng của CSDL giao tác TDB

Pha 2: Khai phá các TMTX từ ma trận nhị phân M

Xây dựng ma trận nhị phân

Giả sử, cho một CSDL TDB gồm n mục I={i1, i2, …, in} và m giao tác,

CSDL giao tác TDB như sau:

0 trường hợp ngược lại

Thuật toán khai phá các tập phổ biến từ ma trận nhị phân

Cho trước độ hỗ trợ tối thiểu minsup Các bước trong pha khai phá các TMTX được thực hiện như sau:

Bước k=1:

Tính độ hỗ trợ của từng véc tơ cột của A, tức tính các tổng sum(Aq), q=1,2,…,n

vào L1 là tập các 1-tập mục phổ biến

Nếu card(L1)>1 quá trình tìm kiếm tiếp tục

Bước k=2:

Trang 29

28

a) Tỉa ma trận A: xóa tất cả các cột của A có độ hỗ trợ <minsup Xóa các dòng của A có tổng các phần tử nhỏ hơn 2 Gọi ma trận thu được từ A sau khi rút gọn là A1

b) Lập tập C2 tất cả các tổ hợp chập chập 2 của các cột của A1 Tính độ hỗ trợ

ứng là 2-tập mục phổ biến Nạp các tập mục phổ biến này vào L2 là tập các 2-tập mục phổ biến

Nếu card(L2)>2 quá trình tìm kiếm tiếp tục

Bước k=3:

thu được từ A1 sau khi xóa các cột và các dòng rút gọn là A2

b) Lập tập C3 tất cả các tổ hợp chập chập 3 của các cột của A2 Tính độ hỗ trợ

ứng là 3-tập mục phổ biến Nạp các tập mục phổ biến này vào L3 là tập các 3-tập mục phổ biến

Nếu card(L3)>3 quá trình tìm kiếm tiếp tục

Các bước k=4,5, : được thực hiện tương tự như trên

2.4.2 Mô hình bài toán và thuật toán khai phá tập mục thường xuyên với trọng số thích nghi

2.4.2.1 Mô hình bài toán

Trong nội dung dưới đây chúng tôi trình bày mô hình bài toán khai phá TMTX với trọng số thích nghi trên dòng dữ liệu, được trình bày trong [27]

biệt được gọi là một k-tập mục hay tập mục độ dài k Để đơn giản, thay vì viết

là abc Mỗi giao tác là một bộ t=(TID,X) trong đó TID là một định danh và X là một tập mục

Một dòng dữ liệu giao tác (CSDL giao tác) DS là một dãy các giao tác, DS={ti1,ti2,…,tim,…}, trong đó tij, i=1,2,…; j=1,2,… là giao tác đến tại thời điểm thứ i

Một lô giao tác (hay một lô) là tập các giao tác nhằm phản ánh thực tế quản lí (tùy thuộc ngữ cảnh) theo một đơn vị thời gian (ngày, tháng, quí, năm, …)

Một cửa sổ W trên dòng dữ liệu giao tác được xem là một tập các lô xét tại một thời điểm

(i=1,2…; j=1,2,…,N) và mỗi mục trong mỗi lô được gán một trọng số riêng biệt, là

số thực không âm

Trang 30

Định nghĩa 8 Độ hỗ trợ với trọng số tối thiểu trên dòng dữ liệu DS, tại thời điểm

Ti, xác định bởi:

K

j=1

Ti , và minsupp là độ hỗ trợ tối thiểu cho dòng dữ liệu DS

Định nghĩa 9 Tập mục X được gọi là tập mục thường xuyên với trọng số thích

nghi trên dòng dữ liệu DS nếu độ hỗ trợ với trọng số thích nghi của X không nhỏ hơn

AWsupp(X) ≥ ξ (3)

Định nghĩa 10 Khai phá TMTX với trọng số thích nghi trên dòng dữ liệu DS sử

dụng mô hình cửa sổ trượt là tìm tập AWFI chứa tất cả các TMTX với trọng số, tức

là tìm tập:

AWFI = {X|X ⊆ I, AWsupp(X) ≥ ξ} (4)

B12, B13 với trọng số của các mục tại các lô trong Bảng 3 và độ hỗ trợ tối thiểu minsupp là 30%

Bảng 2 Dòng dữ liệu tại thời điểm T1

Trang 31

30

Bảng 3 Trọng số các mục theo lô tại thời điểm T1

Tại thời điểm T1:

Số các giao tác trong các lô là:

Trọng số của các lô tại thời điểm T1 là:

Độ hỗ trợ với trọng số thích nghi của tập mục "de" là:

2.4.2.2 Thuật toán khai phá TMTX với trọng số thích nghi

Qua ví dụ ta thấy TMTX với trọng số thích nghi trên dòng dữ liệu được định nghĩa như trên không thỏa mãn tính chất Apriori Bởi lẽ, "e" không là TMTX với trọng số thích nghi trên dòng dữ liệu nhưng tập cha của nó là "de" lại là TMTX với trọng số thích nghi trên dòng dữ liệu

Trang 32

31

Để có được tính chất Apriori, chúng tôi đưa ra khái niệm TMTX với trọng số thích nghi cực đại và sẽ chỉ ra nếu một tập mục là TMTX với trọng số thì trước hết chúng phải là TMTX với trọng số thích nghi cực đại

Định nghĩa 11 Tại thời điểm Ti, cho dòng dữ liệu DS gồm K lô và X là một tập

được gọi là độ hỗ trợ với trọng số thích nghi cực đại của X trên dòng dữ liệu DS

thứ j

Ví dụ:

Xét dòng dữ liệu tại thời điểm T1 như bảng 2 và trọng số của các mục theo lô bảng 3 Ta có, K = 3,

MAXW(1) = 0.8, MAXW(2) = 0.9, MAXW(3) = 0.8;

Tần số xuất hiện của "bd" trong lô 1, 2 và 3 lần lượt là 2, 1 và 2 Nên

MAXAWsupp(be) = 0.8 × 2 + 0.9 × 0 + 0.8 × 1 = 4.1;

Định nghĩa 12 Tại thời điểm Ti, cho dòng dữ liệu DS gồm K lô và X là một tập

nếu

MAXAWsupp(X) ≥ AWminsupp

Mệnh đề 1 TMTX với trọng số thích nghi cực đại có tính chất Apriori, nghĩa là

nếu X là một TMTX với trọng số thích nghi cực đại thì mọi tập con của nó cũng là TMTX với trọng số thích nghi cực đại

Mệnh đề 2 Cho CSDL giao tác DT và X là một tập mục Nếu X là TMTX với

trọng số thích nghi thì X phải là TMTX với trọng số thích nghi cực đại

Các Mệnh đề 1 và Mệnh đề 2 trên đây cho thấy các TMTX với trọng số thích nghi cực đại có tính chất Apriori và chúng là những ứng viên cho các TMTX với trọng số thích nghi Do đó, để khai phá các TMTX với trọng số thích nghi, chúng tôi

đề xuất thuật toán AWFIminer gồm hai công đoạn sau:

Tìm tất cả các TMTX với trọng số thích nghi cực đại,

Từ tập các TMTX với trọng số thích nghi cực đại, áp dụng công thức (1) xác định tập các TMTX với trọng số thích nghi

Để phát hiện hiệu quả các TMTX với trọng số thích nghi cực đại, chúng tôi áp dụng phương pháp của thuật toán FP-growth trong khai phá TMTX truyền thống [4,6] Trước hết cần xây dựng cho CSDL một cấu trúc cây, gọi là cây AWFI-tree, sau

đó khai phá các cây điều kiện để tìm ra các TMTX với trọng số thích nghi cực đại

Xây dựng cấu trúc cây SAWFI-tree

Sử dụng kiểu xây dựng cấu trúc cây FP-tree [7,8], SAWFI-tree bao gồm một cây

và một bảng đầu mục Để xây dựng cấu trúc cây SAWFI-tree thuật toán chỉ cần quét toàn bộ dòng dữ liệu một lần

Trang 33

32

Cây SAWFI-tree

Gồm một nút gốc gọi là nút "null" (kí hiệu là {}) và một tập các cây tiền tố là các cây con của nút gốc Các giao tác của mỗi lô trong CSDL sẽ lần lượt được chèn lên cây theo thứ tự từ điển của các mục Ngoại trừ nút gốc, mỗi nút của SAWFI-tree ghi lại tên của mục mà nó đại diện, thông tin về tần số xuất hiện của nút trong mỗi lô trên đường đi từ gốc đến nó và các con trỏ trỏ đến nút cha, nút con, nút cùng tên tiếp theo trên cây Khi một nút mới được tạo ra trên cây bởi việc chèn một giao tác từ lô thứ k của cửa sổ hiện tại gồm K lô, thì tại đó một danh sách gồm K giá trị tần số trong K lô

sẽ được khởi tạo với giá trị bằng 1 tại vị trí thứ k, giá trị bằng 0 tại tất cả các vị trí còn lại Ví dụ, nếu cửa sổ hiện tại gồm 3 lô và “b” là một nút xuất hiện lần đầu tiên trên cây do chèn một giao tác từ lô thứ hai, khi đó cấu trúc của nút “b” sẽ là b:0,1,0

Hình 1 Cây SAWFI-tree sau khi chèn 12 giao tác trong 3 lô của dòng dữ liệu

Bảng đầu mục

Bảng đầu mục lưu trữ các mục theo thứ tự từ điển, thông tin về trọng số, tần số của các mục và con trỏ trỏ đến nút cùng tên đầu tiên của SAWFI-tree Hình 1 biểu diễn cây SAWFI-tree và bảng đầu mục (để đơn giản hình chúng tôi không vẽ các con trỏ) Ta có thể dễ dàng phát hiện ra các giao tác của mỗi lô và tần số xuất hiện của các mục trong các lô của dòng dữ liệu Chẳng hạn, giao tác {b,c,d,e} xuất hiện một lần ở lô thứ ba (B13) và giao tác {b,c,d} xuất hiện hai lần: một lần ở lô thứ hai (B12)

và một lần ở lô thứ ba (B13) (nằm trên nhánh thứ tư từ phải sang) Ta cũng có số đếm

hỗ trợ của các mục trong cửa sổ khai phá lần lượt là a:4, b:7, c:8, d:9 và e:6

Thuật toán khai phá SWFI-miner

Dưới đây là một số tính chất quan trọng của SAWFI-tree được chúng tôi sử dụng trong quá trình khai phá TMTX với trọng số thích nghi trên dòng dữ liệu theo kiểu FP-growth [7,8]

Tính chất 1 Cấp cao nhất của cây SAWFP-tree bằng độ dài của giao tác dài nhất

trên dòng dữ liệu

Tính chất 2 Tổng các giá trị tần số trong các lô tại bất kỳ nút nào trên cây cũng

lớn hơn hoặc bằng tổng các giá trị tần số tại các nút con của nó

Tính chất 3 Tần số xuất hiện trong mỗi lô của một mục trên cây bằng tổng các

tần số tương ứng của các nút cùng tên

Trang 34

33

Tính chất 4 Phân bố tần số trong các lô của đường đi trên cây chính là phân bố

tần số của nút hậu tố

Tính chất 5 Cây điều kiện của mục cao nhất theo thứ tự từ điển là cây rỗng

Sử dụng cách tiếp cận FP-growth [7,8], thủ tục SWFI-miner khai phá TMTX với trọng số thích nghi trên dòng dữ liệu từ cây SAWFP-tree như sau:

Thủ tục cập nhật cây SAWFI-tree

Theo như đã trình bày ở trên, việc tổ chức lưu trữ dữ liệu dòng giao tác dưới dạng cấu trúc cây như SAWFI-tree cho phép ta có thể dễ dàng cập nhật thông tin (xóa các giao tác trong một lô cũ nhất, bổ sung các giao tác cho một lô mới nhất), đáp ứng sự biến đổi nhanh của dòng dữ liệu tại những thời điểm tiếp theo

Để xóa thông tin của lô cũ nhất trên cây SAWFI-tree, ta cần thực hiện như sau: Trong danh sách các giá trị tần số xuất hiện của mỗi nút, tại ví trí thứ j (1 < j ≤K) bằng giá trị tần số của vị trí thứ (j-1) và thay giá trị tại vị trí thứ nhất bằng 0 Tỉa tất cả nút mà tại đó mọi giá trị tần số đều bằng 0

Các giao tác của lô mới được chèn lên cây như thường lệ sau khi đã xóa bỏ thông tin của lô cũ nhất

Trang 35

34

CHƯƠNG 3: ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ

TRỢ PHÂN TÍCH CƠ SỞ DỮ LIỆU BÁN HÀNG SIÊU THỊ

3.1 Ứng dụng thuật toán khai phá tập mục thường xuyên phân tích cơ sở dữ liệu bán hàng siêu thị

3.1.1 Ứng dụng thuật toán MFIMT khai phá TMTX đa ngưỡng

- Mức độ quan trọng của mặt hàng/nhóm mặt hàng phổ biến xuất hiện đó?

Ở đây, ta hiểu ngưỡng độ hỗ trợ được qui định bởi nhà quản lí, đó là ngưỡng dùng để xác định nếu phần trăm mặt hàng/nhóm các mặt hàng nào phổ biến xuất hiện

mà lớn hơn ngưỡng độ hỗ trợ thì nhà quản lí có thể ra quyết định đầu tư cho mặt hàng/nhóm các mặt hàng đó

Bảng 4 Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng)

Tiến hành thực hiện các bước của thuật toán MFIMT theo trình tự dưới đây:

Bước 1: Sắp xếp các ngưỡng độ hỗ trợ tối thiểu theo thứ tự tăng dần ta được:

(50%)

Trang 36

35 Quá trình thực hiện thuật toán Apriori được minh họa như sau:

- Duyệt CSDL giao tác lần thứ nhất, tính độ hỗ trợ (SC) của các mục đơn

SC(a) = 0.8, SC(b) = 0.4, SC(c) = 0.8, SC(d) = 0.8, SC(e) = 0.9, SC(f) = 0.4

không bị tỉa tập mục nào

- Duyệt CSDL giao tác lần thứ hai, tính độ hỗ trợ của các 2-tập mục ứng viên

SC(ac) = 0.6, SC(ad) = 0.7, SC(ae) = 0.8, SC(cd) = 0.6, SC(ce) = 0.7, SC(de) = 0.8

không bị tỉa tập mục nào

- Duyệt CSDL giao tác lần thứ ba, tính độ hỗ trợ của các 3-tập mục ứng viên

SC(acd) = 0.5, SC(ace) = 0.6, SC(ade) = 0.7, SC(cde) = 0.6

Cuối cùng, ta thu được tập các TMTX cùng với số độ hỗ trợ tương ứng là:

Bước 3: Thực hiện chu trình lặp với i=2,3, ,k để xét cho các ngưỡng độ hỗ trợ

TMTX FP3

Tương tự với quá trình lập luận như trên Kết quả ta thu được bảng các TMTX cùng với các độ hỗ trợ tương ứng như bảng 5 dưới đây

Bảng 5 Bảng các tập TMTX tương ứng với các ngưỡng

Tập

1 FI2 FI3 FI4 FI5 FI6 FI7 FI8

Trang 37

a:0.8 c:0.8 d:0.8 e:0.9 ac:0.6 ad:0.7 ae:0.8 cd:0.6 ce:0.7 de:0.8 ace:0.6 ade:0.7 cde:0.6

a:0.8 c:0.8 d:0.8 e:0.9 ac:0.6 ad:0.7 ae:0.8 cd:0.6 ce:0.7 de:0.8 ace:0.6 ade:0.7 cde:0.6

a:0.8 c:0.8 d:0.8 e:0.9 ad:0.7 ae:0.8 ce:0.7 de:0.8 ade:0.7

a:0.8 c:0.8 d:0.8 e:0.9 ad:0.7 ae:0.8 ce:0.7 de:0.8 ade:0.7

a:0.8 c:0.8 d:0.8 e:0.9 ae:0.8 de:0.8

a:0.8 c:0.8 d:0.8 e:0.9 ae:0.8 de:0.8

e:0.9

Sau khi tiến hành mã hóa lại các mặt hàng từ bảng 5 ta thu được các bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau tương ứng với các ngưỡng (từ bảng 6 đến bảng 10)

Bảng 6 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng

Mặt hàng/nhóm hàng thường

xuyên xuất hiện

Các nhóm mặt hàng thường xuyên xuất hiện cùng nhau Bàn chải:0.8

Dầu gội, Sữa tắm:0.8

Bàn chải, Bột giặt, Dầu

Bàn chải, Bột giặt, Sữa tắm:0.6

Bàn chải, Dầu gội, Sữa tắm:0.7

Bột giặt, Dầu gội Sữa tắm:0.6

Bảng 7 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng

Mặt hàng/nhóm hàng thường

xuyên xuất hiện

Các nhóm mặt hàng thường xuyên xuất hiện cùng nhau Bàn chải:0.8

Bột giặt:0.8

Dầu gội:0.8

Bàn chải, Bột giặt:0.6 Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8

Trang 38

37 Sữa tắm:0.9

Dầu gội, Sữa tắm:0.8

Bàn chải, Bột giặt, Sữa tắm:0.6

Bàn chải, Dầu gội, Sữa tắm:0.7

Bột giặt, Dầu gội Sữa tắm:0.6

Bột giặt, Dầu gội:0.6 Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8 Bàn chải, Bột giặt, Sữa tắm:0.6 Bàn chải, Dầu gội, Sữa tắm:0.7 Bột giặt, Dầu gội Sữa tắm:0.6

Bảng 8 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng

Dầu gội, Sữa tắm:0.8

Bàn chải, Dầu gội, Sữa tắm:0.7

Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8 Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8 Bàn chải, Dầu gội, Sữa tắm:0.7

Bảng 9 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng

Bảng 10 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng

Mặt hàng/nhóm hàng thường xuyên xuất hiện

Các nhóm mặt hàng thường

xuyên xuất hiện cùng nhau

Phân tích, đánh giá kết quả khai phá

Qua quá trình khai phá dữ liệu ta thu được các bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng độ hỗ trợ tối thiểu tương ứng (từ bảng 6 đến bảng 10) và có các phân tích, đánh giá như sau:

Trang 39

+ Thu được tập 14 mặt hàng/nhóm hàng thường xuyên (cột 1 trong bảng 6)

+ Mức độ quan trọng lần lượt từ lớn nhất đến nhỏ nhất của 14 mặt hàng/nhóm hàng là: “Sữa tắm:0.9” (mức độ quan trọng nhất), tiếp đến là “Bàn chải:0.8”, “Bột giặt:0.8”, “Dầu gội:0.8”, …, “Bột giặt, Dầu gội, Sữa tắm:0.6” có mức độ quan trọng nhỏ nhất (cột 2 trong bảng 6)

+ Có 10 giỏ hàng thường xuyên có các mặt hàng xuất hiện cùng nhau là: “Bàn chải, Bột giặt”; “Bàn chải, Bột giặt, Dầu gội”; “Bàn chải, Bột giặt, Sữa tắm”; “Bột giặt, Dầu Gội, Sữa tắm”

+ Mức độ quan trọng từ lớn nhất đến nhỏ nhất của nhóm các mặt hàng thường xuyên xuất hiện cùng nhau theo trình tự là: “Bàn chải, Sữa tắm:0.8”, “Dầu gội, Sữa tắm:0.8”, …, “Bột giặt, Dầu gội Sữa tắm:0.6”

+ Mức độ quan trọng nhỏ nhất của nhóm các mặt hàng xuất hiện cùng nhau là

“Bàn chải, Bột giặt, Dầu gội:0.5”

bảng 7 nhận thấy:

+ Số các mặt hàng/nhóm hàng xuất hiện thường xuyên đều bằng nhau (là 13), số các mặt hàng/nhóm hàng xuất hiện cùng nhau thường xuyên đều bằng nhau (là 9) + Thu được tập 13 mặt hàng/nhóm hàng thường xuyên (cột 1 trong bảng 7)

+ Mức độ quan trọng lần lượt từ lớn nhất đến nhỏ nhất của của 13 mặt hàng/nhóm hàng là: “Sữa tắm:0.9”, “Bàn chải:0.8”, “Bột giặt:0.8”, “Dầu gội:0.8”, …,

“Bột giặt, Dầu gội, Sữa tắm:0.6” (cột 2 trong bảng 9)

+ Có 9 giỏ hàng thường xuyên có các mặt hàng xuất hiện cùng nhau là: “Bàn chải, Bột giặt”; “Bàn chải, Bột giặt, Dầu gội”; “Bàn chải, Bột giặt, Sữa tắm”; “Bột giặt, Dầu Gội, Sữa tắm”

+ Mức độ quan trọng lớn nhất của nhóm các mặt hàng thường xuyên xuất hiện cùng nhau là “Bàn chải, Sữa tắm:0.8” và mức độ quan trọng nhỏ nhất của nhóm các mặt hàng thường xuyên xuất hiện cùng nhau là “Bột giặt, Dầu gội Sữa tắm:0.6”

đánh giá tương tự như trên

+ Chỉ có một mặt hàng xuất hiện thường xuyên cùng độ hỗ trợ là “Sữa tắm:0.9” + Không có nhóm các mặt hàng xuất hiện cùng nhau

- Nếu ngưỡng độ hỗ trợ càng nhỏ thì mặt hàng/nhóm các mặt hàng phổ biến xuất hiện càng xuất hiện nhiều, ngược lại thì mặt hàng/nhóm các mặt hàng phổ biến xuất hiện ít đi

Trang 40

39

3.1.2 Ứng dụng thuật toán BMB khai phá TMTX

Dưới đây trình ví dụ ứng dụng của thuật toán BMB khai phá TMTX trong phân tích CSDL bán hàng siêu thị

Đặt bài toán

Giả sử siêu thị bán các mặt hàng bao gồm: Bàn chải (a), Dầu gội (b), Kem đánh răng (c), Dầu xả vải (d), Bột giặt (e), Xà phòng (f), Bàn cạo râu (g), Băng dính (h) Trong kì kinh doanh, siêu thị bán được 10 giỏ hàng, dữ liệu của các giỏ hàng bán được cho trong bảng 11 dưới đây

Bảng 11 Dữ liệu khác về các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng)

Yêu cầu: Với ngưỡng độ hỗ trợ tối thiểu minsup=4

- Mặt hàng/nhóm các mặt hàng nào thường xuyên xuất hiện cùng nhau trong các giỏ hàng?

- Mức độ quan trọng của mặt hàng/nhóm mặt hàng thường xuyên xuất hiện như thế nào?

Ứng dụng thuật toán BMB và thuật toán FP-Growth khai phá TMTX trong CSDL giao tác

Để tiến hành thực nghiệm thuật toán BMB với trường hợp nghiên cứu đặt ra ở trên, quá trình khai phá các TMTX trong CSDL bán hàng siêu thị là như sau:

Pha 1 Chuyển CSDL giao tác TDB về ma trận nhị phân A có dạng như trong

bảng 10

Bảng 12 Ma trận nhị phân A

Ngày đăng: 08/05/2022, 16:26

HÌNH ẢNH LIÊN QUAN

dụng mô hình cửa sổ trượt là tìm tập AWFI chứa tất cả cácTMTX với trọng số, tức là tìm tập: - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
d ụng mô hình cửa sổ trượt là tìm tập AWFI chứa tất cả cácTMTX với trọng số, tức là tìm tập: (Trang 30)
Bảng 3. Trọng số các mục theo lô tại thời điểm T1. - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Bảng 3. Trọng số các mục theo lô tại thời điểm T1 (Trang 31)
Hình 1. Cây SAWFI-tree sau khi chèn 12 giao tác tron g3 lô của dòng dữ liệu - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Hình 1. Cây SAWFI-tree sau khi chèn 12 giao tác tron g3 lô của dòng dữ liệu (Trang 33)
Bảng 4. Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Bảng 4. Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) (Trang 35)
Tương tự với quá trình lập luận như trên. Kết quả ta thu được bảng cácTMTX cùng với các độ hỗ trợ tương ứng như bảng 5 dưới đâỵ - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
ng tự với quá trình lập luận như trên. Kết quả ta thu được bảng cácTMTX cùng với các độ hỗ trợ tương ứng như bảng 5 dưới đâỵ (Trang 36)
Bảng 6. Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Bảng 6. Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng (Trang 37)
Sau khi tiến hành mã hóa lại các mặt hàng từ bảng 5 ta thu được các bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau tương ứng với các  ngưỡng (từ bảng 6 đến bảng 10) - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
au khi tiến hành mã hóa lại các mặt hàng từ bảng 5 ta thu được các bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau tương ứng với các ngưỡng (từ bảng 6 đến bảng 10) (Trang 37)
Bảng 8. Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Bảng 8. Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng (Trang 38)
Bảng 9. Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Bảng 9. Bảng mặt hàng/nhóm hàng thường xuyênxuất hiện và xuất hiện cùng (Trang 38)
bảng 10. - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
bảng 10. (Trang 40)
Bảng 11. Dữ liệu khác về các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Bảng 11. Dữ liệu khác về các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng) (Trang 40)
Bảng 13. Ma trận rút gọn A1 - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Bảng 13. Ma trận rút gọn A1 (Trang 41)
Bảng 15. Ma trận nhị phân thu gọn A3 - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Bảng 15. Ma trận nhị phân thu gọn A3 (Trang 42)
Bảng 14. Ma trận rút gọn A2 - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Bảng 14. Ma trận rút gọn A2 (Trang 42)
Hình 2. Cây SAWFI-tree(e) và cây điều kiện của “e” - NGHIÊN cứu ỨNG DỤNG một số THUẬT TOÁN KHAI PHÁ dữ LIỆU hỗ TRỢ PHÂN TÍCH cơ sở dữ LIỆU bán HÀNG SIÊU THỊ
Hình 2. Cây SAWFI-tree(e) và cây điều kiện của “e” (Trang 45)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w