1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo đề tài Nghiên cứu ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị

96 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo cáo đề tài Nghiên cứu ứng dụng một số thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị
Tác giả ThS. GVC. Nguyễn Hưng Long, ThS. Nguyễn Thị Vân Trang, ThS. Lê Kim Anh
Trường học Trường Đại học Thương mại
Chuyên ngành Khoa học dữ liệu và khai phá dữ liệu
Thể loại Báo cáo tổng kết nghiên cứu
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 96
Dung lượng 2,95 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • CHƯƠNG 1. TỔ NG QUAN NGHIÊN C Ứ U C ỦA ĐỀ TÀI (10)
    • 1. Tính c ấ p thi ế t c ủa đề tài (10)
    • 2. T ổ n g quan đề tài nghiên c ứ u (11)
    • 3. Mục tiêu nghiên cứu (16)
    • 4. Đối tượ ng và ph ạ m vi nghiên c ứ u (16)
    • 5. Phương pháp nghiên cứ u (16)
    • 6. Kết cấu báo cáo nghiên cứu (17)
  • CHƯƠNG 2. TỔ NG QUAN V Ề KHAI PHÁ D Ữ LI Ệ U BÁN HÀNG SIÊU TH Ị , MÔ HÌNH VÀ THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN (17)
    • 2.1. H ệ th ố ng bán hàng siêu th ị (18)
      • 2.1.1. H ệ th ố ng qu ả n lí bán hàng (18)
      • 2.1.2. Siêu thị và đặc trưng của siêu thị (18)
      • 2.1.3. Công vi ệ c và ch ức năng chính củ a siêu th ị (19)
    • 2.2. Cơ sở d ữ li ệ u bán hàng siêu th ị (20)
      • 2.2.1. Cơ sở dữ liệu và tầm quan trọng quản lí cơ sở dữ liệu (20)
      • 2.2.2. Cơ sở d ữ li ệ u bán hàng siêu th ị (22)
    • 2.3. Khai phá d ữ li ệ u và khai phá d ữ li ệ u bán hàng siêu (24)
      • 2.3.1. Khai phá d ữ li ệ u (24)
      • 2.3.2. Khai phá dữ liệu bán hàng siêu thị (25)
    • 2.4. Mô hình bài toán và thu ậ t toán khai phá TMTX (26)
      • 2.4.1. Mô hình bài toán và thuật toán khai phá tập mục thường xuyên đa ngưỡng/một ngưỡ ng (26)
      • 2.4.2. Mô hình bài toán và thuật toán khai phá tập mục thường xuyên với trọng số thích nghi (29)
  • CHƯƠNG 3: ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ D Ữ LI Ệ U BÁN HÀNG SIÊU TH Ị (17)
    • 3.1. Ứ ng d ụ ng thu ậ t toán khai phá t ậ p m ục thường xuyên phân tích cơ sở d ữ li ệ u bán hàng siêu thị (35)
      • 3.1.1. Ứ ng d ụ ng thu ậ t toán MFIMT khai phá TMTX đa ngưỡ ng (35)
      • 3.1.2. Ứ ng d ụ ng thu ậ t toán BMB khai phá TMTX (40)
      • 3.2.1. Đặ t bài toán (44)
      • 3.2.2. T ổ ch ứ c khai phá d ữ li ệ u (44)
      • 3.2.3. Nh ận xét, đánh giá kế t qu ả khai phá (47)
  • CHƯƠNG 4. KẾ T LU Ậ N, TH Ả O LU ẬN VÀ ĐỀ XU Ấ T V ẤN ĐỀ NGHIÊN C Ứ U (49)
    • 4.1. Các k ế t lu ậ n (49)
    • 4.2. Các dự báo phát triển về các vấn đề nghiên cứu (49)
    • 4.3. Các đề xu ấ t ki ế n ngh ị v ấn đề nghiên c ứ u (49)

Nội dung

- Đề xuất mô hình áp dụng một số thuật toán khai phá TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị.. Tính m ới và sáng tạo: Đề tài đã vận dụng tính khoa học của lĩnh vực Kha

TỔ NG QUAN NGHIÊN C Ứ U C ỦA ĐỀ TÀI

Tính c ấ p thi ế t c ủa đề tài

Hiện nay, cùng với xu thế hội nhập kinh tế quốc tế mở ra cho mỗi quốc gia nhiều cơ hội phát triển về kinh tế - xã hội Xét ở góc độ thị trường bán lẻ – siêu thị – quy mô, số lượng và chất lượng hàng hóa ngày càng được nâng cao; các siêu thị lớn có thể kinh doanh hàng chục nghìn mặt hàng và phục vụ hàng triệu lượt khách mỗi năm, trong khi mỗi ngày hệ thống phải xử lý hàng chục nghìn đơn hàng với đa dạng chủng loại Do đó, CSDL bán hàng của siêu thị trở nên vô cùng phức tạp và lớn về số lượng giỏ hàng (mặt hàng/nhóm hàng) được bán ra tại từng thời điểm (ngày, tuần, quý, …), đặt ra những thách thức và cơ hội cho quản trị dữ liệu, tối ưu hóa chuỗi cung ứng và nâng cao trải nghiệm khách hàng.

Hành vi khách hàng đối với siêu thị bị chi phối bởi nhiều yếu tố như nhu cầu, thời gian mua sắm, tính phổ biến của sản phẩm và các biến động xã hội hoặc chính trị Do đó, giá cả và trọng số của các mặt hàng được điều chỉnh nhằm thúc đẩy lưu thông hàng hóa nhanh hơn và tăng doanh thu cho siêu thị Việc nắm bắt các yếu tố ảnh hưởng này cho phép siêu thị xây dựng chiến lược giá, chương trình khuyến mãi và bố trí hàng hóa hợp lý để thu hút khách hàng và tối ưu vòng quay hàng tồn kho.

Trong CSDL bán hàng của siêu thị, quản lý cần xác định mặt hàng hoặc nhóm mặt hàng khách hàng thường xuyên mua cùng nhau trong giỏ hàng và phân tích mối quan hệ giữa các mặt hàng đó để hiểu hành vi mua sắm Việc nhận diện các sản phẩm đồng xuất hiện và các mối liên hệ giữa chúng cho phép xây dựng các chiến lược quảng bá và sắp xếp hàng hóa hiệu quả Dựa trên phân tích dữ liệu bán hàng, nhà quản lý có thể thiết lập kế hoạch kinh doanh nhắm tăng doanh thu và tối đa hóa lợi nhuận bằng cách triển khai các chiến lược khuyến mãi, cross-sell và upsell, đồng thời tối ưu hóa quản lý tồn kho và trải nghiệm mua sắm cho khách hàng.

Khai phá dữ liệu là lĩnh vực quan trọng của công nghệ thông tin, nhằm trích lọc những thông tin hữu ích chưa được biết ẩn chứa trong các cơ sở dữ liệu lớn Khai phá TMTX đóng vai trò then chốt trong nhiều nhiệm vụ khai phá dữ liệu, từ khám phá luật kết hợp và khám phá mẫu tuần tự đến phân tích tương quan, phân lớp và gom cụm dữ liệu, đồng thời ứng dụng rộng rãi trong khai phá web và các tác vụ phân tích dữ liệu khác.

Khai phá TMTX tiếp tục được các nhà nghiên cứu xây dựng và phát triển các công cụ, thuật toán nhằm giải quyết các bài toán kinh tế - xã hội nói chung và đặc biệt là các bài toán phân tích CSDL bán hàng siêu thị, từ đó hỗ trợ các nhà quản lý siêu thị ra quyết định đúng đắn trong chiến lược phát triển Hầu hết các thuật toán khai phá dữ liệu và khai phá TMTX do các nhà nghiên cứu đề xuất mang tính lý thuyết và ít hoặc không có mô hình ứng dụng cụ thể để hỗ trợ phân tích hoạt động kinh doanh nói chung hay phân tích CSDL bán hàng siêu thị nói riêng.

Với sự phát triển của lĩnh vực khai phá dữ liệu, yêu cầu về việc hoàn thiện, phát triển và tái cấu trúc các học phần trong chương trình đào tạo ở các trường đại học thuộc khối kinh tế—quản trị, kinh doanh, đặc biệt là Trường Đại học Thương mại với chuyên ngành Quản trị hệ thống thông tin—ngày càng được đặt ra Việc nghiên cứu và ứng dụng các công cụ và thuật toán khai phá dữ liệu vào các hoạt động kinh doanh thương mại nói chung và bán hàng siêu thị nói riêng trở nên cần thiết để nâng cao hiệu quả quản trị và tối ưu hóa các quy trình kinh doanh.

Xuất phát từ cơ sở lý luận và nhu cầu thực tiễn, trước yêu cầu đổi mới giáo dục đại học trong tình hình mới, chúng tôi lựa chọn và đề xuất đề tài “Nghiên cứu ứng dụng” nhằm xác định các phương pháp và công cụ phù hợp nhất để thúc đẩy đổi mới chương trình đào tạo, nâng cao chất lượng giảng dạy và học tập, tối ưu hóa quản trị đại học và đẩy mạnh chuyển đổi số trong giáo dục.

Bài viết trình bày 10 thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị, nhằm khám phá các thông tin hữu ích tiềm ẩn trong dữ liệu và giúp nhà quản lý đưa ra quyết định kinh doanh hiệu quả đồng thời tăng lợi nhuận cho siêu thị Việc áp dụng các thuật toán này có thể tối ưu hóa quản lý hàng tồn kho, chăm sóc khách hàng và phát triển chiến lược bán hàng dựa trên dữ liệu Đề tài cũng đóng góp vào việc bổ sung kiến thức cơ bản và cần thiết cho một số học phần thuộc chương trình đào tạo chuyên ngành Quản trị hệ thống thông tin tại Trường Đại học Thương mại.

T ổ n g quan đề tài nghiên c ứ u

Các nghiên cứu ngoài nước

Kỉ nguyên Internet bùng nổ đã góp phần cho nhiều nghiên cứu và ứng dụng của ngành công nghệ thông tin phát triển, đặc biệt là lĩnh vực khai phá dữ liệu Lĩnh vực này thu hút đông đảo các nhà khoa học trên thế giới và Việt Nam tham gia nghiên cứu và ứng dụng vào thực tiễn, nhờ tiềm năng của dữ liệu lớn để khám phá mẫu, xu hướng và đưa ra quyết định nhanh chóng và hiệu quả.

Khai phá dữ liệu là quá trình trích lọc có hệ thống những thông tin hữu ích từ CSDL, biến dữ liệu thô thành kiến thức giá trị và hành động Trong lĩnh vực khai phá dữ liệu, kỹ thuật khai phá TMTX (TMTX) được xem là một phương pháp quan trọng giúp nhận diện mẫu, mối quan hệ và quy luật ẩn ở dữ liệu lớn Bài toán khai phá dữ liệu đã được giới thiệu và phát triển từ nhiều năm trước và hiện nay tiếp tục đóng vai trò nền tảng cho các phương pháp phân tích dữ liệu, hỗ trợ ra quyết định dựa trên dữ liệu và tối ưu hóa hiệu suất kinh doanh và nghiên cứu.

Được đề xuất năm 1993 bởi Agrawal R và Srikant R tại IBM Almaden Research Center (Mỹ) nhằm phân tích CSDL bán hàng tại siêu thị và hỗ trợ nhà quản lý ra quyết định tối ưu cho hoạt động kinh doanh, thuật toán Apriori được xem là nền tảng cho khai phá dữ liệu và là một trong 10 thuật toán nổi tiếng nhất Mặc dù Apriori có hai nhược điểm là phải sinh ra khối lượng lớn các tập mục ứng viên và phải quét CSDL giao tác nhiều lần, nó vẫn được coi là cơ sở cho nhiều hướng nghiên cứu và ứng dụng thực tiễn Để khắc phục hạn chế này, Han J và cộng sự tại Trường Đại học Simon Fraser (Canada) đã đề xuất thuật toán FP-growth, một phương pháp khai phá tập mục tần suất dựa trên cấu trúc cây FP-tree: nén toàn bộ CSDL giao dịch lên FP-tree nhằm giảm chi phí duyệt và dùng chiến lược chia để trị bằng cách xây dựng các cây FP-tree có điều kiện và khai phá các tập mục trên các cây này.

Trong quá trình khai phá dữ liệu, việc phát triển khai phá cây được thực hiện theo hướng tối ưu để giảm số lượng TMUV sinh ra và rút ngắn thời gian tính toán Quá trình khai phá TMTX diễn ra theo hai pha chính: pha xây dựng cây FP-tree và pha khai phá cây FP-tree bằng thuật toán FP-growth, nhằm xác định các mẫu thường xuyên một cách hiệu quả và tối ưu hóa hiệu suất xử lý dữ liệu.

Khác với khai phá TMTX truyền thống, khai phá TMTX có trọng số không chỉ xem xét số lần xuất hiện của các tập mục trong CSDL mà còn đánh giá mức độ quan trọng của chúng thông qua trọng số riêng Mô hình khai phá TMTX có trọng số được đề xuất lần đầu vào năm 1998 bởi Cai C.H và cộng sự với thuật toán MINWAL Trong MINWAL, khái niệm DHTVTS được định nghĩa là tích của độ hỗ trợ và trọng số trung bình của các mục thành viên Hạn chế của MINWAL liên quan tới tính chất Apriori (mọi tập con của một TMTX cũng là TMTX); tính chất này bị phá vỡ khi các trọng số khác nhau được gán cho từng mục, nghĩa là các tập con không nhất thiết được xem là TMTX hợp lệ khi trọng số phân bổ không đồng nhất.

Trong khai phá TMTX, các tập con của một TMTX có trọng số không nhất thiết phải là TMTX có trọng số tương ứng Để duy trì tính chất Apriori, MINWAL đề xuất khái niệm cận k-hỗ trợ (k-support bound), sao cho độ hỗ trợ của một TMUV sinh ra ở mức k phải lớn hơn hoặc bằng cận k-hỗ trợ MINWAL dựa trên thuật toán Apriori trong khai phá TMTX truyền thống, nhưng phần lớn các TMUV phát hiện lại không phải là TMTX có trọng số Hơn nữa, theo [3], việc sử dụng cận k-hỗ trợ để tỉa không gian tìm kiếm tốn rất nhiều thời gian Sau MINWAL, một số mô hình và thuật toán khác cũng được đề xuất; phần lớn các thuật toán này dựa trên thuật toán Apriori [1][2] Trong [1], Aggarwal cùng các cộng sự đề xuất Apriori-TID như một mở rộng theo hướng tiếp cận cơ bản của Apriori: thay vì dựa vào cơ sở dữ liệu thô, Apriori-TID biểu diễn bên trong mỗi giao dịch bằng các ứng viên hiện thời Như đã thấy, Apriori đòi hỏi quét toàn bộ CSDL nhiều lần để tính độ hỗ trợ cho các TMUV ở từng bước sau, đây là một sự lãng phí lớn Dựa trên ý tưởng ước đoán và đánh giá độ hỗ trợ, Apriori-TID theo hướng chỉ quét CSDL một lần, sau đó tính độ hỗ trợ cho các tập mục Từ bước thứ hai trở đi, Apriori-TID lưu trữ song song ID của giao dịch và ID ứng viên, cho phép đánh giá ước lượng độ hỗ trợ mà không phải quét lại toàn bộ CSDL.

Trong công trình của Aggarwal và các cộng sự, thuật toán Apriori-Hybrid được đề xuất như sự kết hợp giữa Apriori và Apriori-TID Apriori-Hybrid được sử dụng khi tổ chức lặp và chuyển sang Apriori-TID khi đã chắc chắn rằng tập ứng viên mức k được nạp đầy đủ vào bộ nhớ chính Thuật toán này tận dụng ưu điểm của cả hai phương pháp, cho phép xử lý nhanh ở giai đoạn với tập ứng viên nhỏ và tiết kiệm bộ nhớ khi cần thiết Apriori-Hybrid được đánh giá là tốt hơn so với Apriori và Apriori-TID.

Additionally, there are many other algorithms that are variants of the Apriori approach, including DIC (Dynamic Itemset Counting), OCD (Offline Candidate Determination), Partition, Sampling, CARMA, AIS, SETM, Eclat, Charm, and others.

Khai phá TMTX với trọng số đã xét đến trọng số của các mục từ trước vẫn không phản ánh đầy đủ thực tế vì trọng số của mỗi mục có thể thay đổi theo thời gian (trọng số thích nghi) Khái niệm trọng số thích nghi được đề xuất lần đầu vào năm 2008 bởi Chowdhury F A và cộng sự, và các tác giả đã giới thiệu mô hình AWFPM khai phá TMTX với trọng số thích nghi — để trọng số của các mục có thể thay đổi từ lô giao tác này sang lô giao tác khác của CSDL Tập mục được gọi là TMTX với trọng số thích nghi nếu tổng trọng số hỗ trợ trong các lô lớn hơn ngưỡng đã cho AWFPM sử dụng cấu trúc cây FP-tree, và việc tỉa cây được thực hiện bằng cách sử dụng trọng số cực đại toàn cục (GMAXW) và trọng số cực đại địa phương (LMAXW) Trọng số cực đại toàn cục là trọng số lớn nhất của tất cả các mục trong CSDL khai phá, còn trọng số cực đại địa phương là trọng số lớn nhất của các mục trong một CSDL điều kiện.

Trong [6], Han cùng các cộng sự đã tổng quan về các thuật toán khai phá TMTX và chỉ ra một số định hướng phát triển

Theo tài liệu tham khảo [8], S Lu và các cộng sự đã đề xuất các thuật toán khai phá luật kết hợp có trọng số nhằm đánh giá độ hỗ trợ và độ tin cậy của các tập mục trong CSDL giao tác.

Trong [9], tác giả Nguyễn Hưng Long đề xuất AWFP-Miner, một thuật toán khai phá TMTX với trọng số thích nghi, dùng một thước đo mới để tỉa TMTX hiệu quả hơn và AWFP-Miner là một thuật toán kiểu FP-Growth Trong [12], tác giả F Tao đề xuất thuật toán WARM, giải quyết bài toán chưa thoả mãn tính chất Apriori bằng cách sử dụng một độ hỗ trợ có trọng số khác với định nghĩa trong MINWAL, từ đó phát triển tính chất Apriori Độ hỗ trợ có trọng số của tập mục “ab” trong WARM được hiểu là tỷ lệ trọng số của các giao dịch chứa cả hai phần tử a và b so với tổng trọng lượng của tất cả các giao dịch.

“a” lẫn “b” trên trọng số của tất cả các giao tác trong CSDL WARM cũng là thuật toán dựa trên Apriori

Trong nghiên cứu của W Wang và cộng sự [13], thuật toán WAR được đề xuất để khai phá luật kết hợp có trọng số WAR sinh ra các tập mục TMTX ở giai đoạn đầu mà không xét đến trọng số, và chỉ ở bước sau mới tích hợp trọng số của các tập mục để sinh luật kết hợp Như vậy, WAR không khai phá TMTX có trọng số trực tiếp mà thực hiện theo một tiếp cận hậu xử lý Ngoài ra, WAR dựa trên nền tảng của thuật toán Apriori.

Thuật toán khai phá dựa trên Apriori có hai nhược điểm chính là phải sinh và kiểm tra rất nhiều tập hợp mục và phải quét CSDL nhiều lần, nên hiệu quả khai phá thấp Thuật toán khai phá TMTX với trọng số đầu tiên và cấu trúc FP-tree được WFIM do Yun U và Leggett J J đề xuất WFIM cho phép chỉ cần hai lần quét CSDL và tránh được việc sinh ra quá nhiều ứng viên WFIM sử dụng trọng số nhỏ nhất và một khoảng biến thiên cho các trọng số; mỗi mục trong CSDL được gán một trọng số cố định thuộc khoảng biến thiên, và mỗi giao dịch được đưa lên cây FP-tree sau khi sắp xếp các mục theo thứ tự trọng số tăng dần.

Trong nghiên cứu của U Yun [13], thuật toán WIP được đề xuất để kết hợp các thế mạnh của các kỹ thuật hiện có và tạo ra các mẫu quan trọng dựa trên phản hồi của người dùng WIP sử dụng một độ đo mới mang tên độ tin cậy trọng số nhằm sinh ra các tập mục hyperclique có trọng số gần như bằng nhau Đồng thời, một khoảng giá trị trọng số và một thước đo độ tin cậy khác, gọi là độ tin cậy h, cũng được sử dụng Khoảng giá trị trọng số định ra ranh giới cho các trọng số, còn độ tin cậy h đảm bảo cho các tập mục gồm các mục có độ hỗ trợ gần như nhau WIP không chỉ cân bằng giữa trọng số và độ hỗ trợ mà còn coi trọng mối quan hệ giữa trọng số và mối quan hệ về độ hỗ trợ giữa các mục trong tập mục để tạo ra các tập mục có giá trị cao hơn.

Trong bài báo [15], U Yun xem xét lại hai ràng buộc cơ bản về trọng số và độ hỗ trợ và đề xuất thuật toán WLPMiner WLPMiner kết hợp hai ràng buộc này để tạo ra các tập mục có số lượng nhỏ hơn nhưng vẫn mang ý nghĩa Để cắt tỉa, tác giả áp dụng khái niệm WSVE (Weighted Smallest Valid Extension) cho cả ràng buộc về độ hỗ trợ giảm theo độ dài và ràng buộc trọng số, đồng thời bổ sung một khoảng trọng số để duy trì tính chất Apriori Việc kết hợp ràng buộc trọng số với ràng buộc hỗ trợ giảm theo độ dài đã cải thiện thời gian chạy và số lượng mẫu khai thác WLPMiner cũng sử dụng cấu trúc cây FP-tree để lưu trữ và khai thác dữ liệu.

Mục tiêu nghiên cứu

Đề tài tập trung nghiên cứu về các khía cạnh sau:

- Nghiên cứu lý thuyết cơ bản của khai phá dữ liệu bán hàng siêu thị, khai phá TMTX

- Xây dựng mô hình áp dụng một số thuật toán khai phá TMTX hỗ trợ phân tích CSDL bán hàng siêu thị

- Đề xuất mô hình áp dụng một số thuật toán khai phá TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị.

Đối tượ ng và ph ạ m vi nghiên c ứ u

- Lý thuyết chung về khai phá dữ liệu bán hàng siêu thị

- Một số thuật toán khai phá TMTX, TMTX với trọng số

- Bài toán phân tích cơ sở dữ liệu bán hàng siêu thị

- Áp dụng một số thuật toán khai TMTX, TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị b) Phạm vi nghiên cứu

- Nghiên cứu ứng dụng một số thuật toán KPDL (khai phá TMTX/TMTX với trọng số) nhằm hỗ trợ cho phân tích CSDL bán hàng siêu thị

Trong CSDL bán hàng siêu thị, chúng ta chỉ xét hai trường dữ liệu chính: định danh giỏ hàng và nội dung giỏ hàng Định danh giỏ hàng cho phép nhận diện duy nhất mỗi giỏ hàng tại thời điểm khách hàng mua hàng, trong khi nội dung giỏ hàng ghi lại danh sách các mặt hàng được khách hàng chọn và mua tại siêu thị Bên cạnh đó, trong quá trình nghiên cứu, một số thuật toán cũng xem xét trị giá (giá) của các mặt hàng để phân tích hành vi mua hàng và tối ưu hóa chiến lược kinh doanh.

Phương pháp nghiên cứ u

- Nghiên cứu dữ liệu thứ cấp (bài báo, đề tài NCKH, luận văn, các chương trình đào tạo, các giáo trình) liên quan đến đề tài

- Mô hình bài toán hoạt động kinh doanh thương mại siêu thị và bài toán khai phá TMTX/TMTX với trọng số

- Phân tích các thuật toán, các mô hình bài toán

Để đạt được kết quả theo yêu cầu, bài viết cần kết hợp các phương pháp một cách đồng bộ: nêu vấn đề một cách rõ ràng và súc tích để định hình mục tiêu; dùng suy luận để xây dựng các giả thuyết và kiểm chứng các kết luận; diễn giải để làm rõ ý nghĩa của dữ liệu và bối cảnh; phân tích để phân tách các yếu tố cấu thành và mối quan hệ giữa chúng; tổng hợp thông tin từ nhiều nguồn và quan điểm để tạo thành một bức tranh tổng thể; khái quát hóa các diễn biến thành các quy luật hoặc nhận định chung; và chứng minh bằng bằng chứng, dữ liệu hoặc ví dụ thực tế để tăng tính thuyết phục Quá trình này tạo ra một luồng suy nghĩ có hệ thống, giúp người đọc hiểu sâu nội dung và nhận được kết quả cuối cùng đúng với yêu cầu ban đầu.

Kết cấu báo cáo nghiên cứu

Ngoài các mục như: Mục lục, danh mục bảng biểu, hình xẽ, danh mục từ viết tắt, tài liệu tham khảo, …Báo cáo đề tài có 4 chương chính

Chương 1: Tổng quan nghiên cứu đề tài

Chương trình trình bày sơ lược về tính cấp thiết của đề tài và tình hình nghiên cứu trong nước và nước ngoài, nhằm làm rõ ứng dụng của một số thuật toán khai phá dữ liệu vào phân tích cơ sở dữ liệu bán hàng của siêu thị Mục tiêu nghiên cứu được xác định rõ ràng, đối tượng và phạm vi nghiên cứu được giới hạn ở cơ sở dữ liệu bán hàng của siêu thị và các đặc trưng liên quan Phương pháp nghiên cứu được trình bày cụ thể, kết hợp khai phá dữ liệu với các kỹ thuật phân tích thống kê để đảm bảo kết quả tin cậy và khả thi Kết cấu báo cáo nghiên cứu liên quan đến đề tài được mô tả, bao gồm nền tảng lý thuyết, thiết kế thực nghiệm, triển khai thuật toán và đánh giá kết quả ứng dụng vào phân tích cơ sở dữ liệu bán hàng tại siêu thị.

TỔ NG QUAN V Ề KHAI PHÁ D Ữ LI Ệ U BÁN HÀNG SIÊU TH Ị , MÔ HÌNH VÀ THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN

H ệ th ố ng bán hàng siêu th ị

Các nội dung trong phần này được tham khảo trong [18] - [35]

2.1.1 Hệ thống quản lí bán hàng

Quản lý bán hàng là hoạt động nghiệp vụ tập trung vào việc ứng dụng thực tế các kỹ thuật bán hàng và quản lý hoạt động bán hàng của một công ty Đây là một chức năng kinh doanh quan trọng, đóng góp vào doanh thu thuần từ việc bán sản phẩm và dịch vụ và tạo ra lợi nhuận, từ đó thúc đẩy hầu hết các hoạt động kinh doanh và thương mại Quản lý bán hàng cũng xác định các mục tiêu và chỉ số hoạt động để đo lường và cải thiện hiệu quả bán hàng.

Hệ thống quản lý bán hàng là hệ thống thông tin được sử dụng để quản trị và tiếp thị, đồng thời quản lý mối quan hệ khách hàng thông qua CRM (Customer Relationship Management) Hệ thống này tự động hóa một số chức năng bán hàng như theo dõi khách hàng, quản lý cơ hội và xử lý đơn hàng, giúp cải thiện hiệu quả bán hàng và tối ưu hóa chiến lược chăm sóc khách hàng.

2.1.2 Siêu thịvà đặc trưng của siêu thị

Siêu thị là mô hình cửa hàng hiện đại hoạt động dưới hình thức kinh doanh tổng hợp hoặc chuyên doanh, cung cấp nhiều mặt hàng với cơ cấu chủng loại phong phú và chất lượng được đảm bảo cao hơn so với các loại hình bán lẻ thông thường Bên cạnh đó, siêu thị tuân thủ các tiêu chuẩn về cơ sở hạ tầng kinh doanh, trang thiết bị kỹ thuật và trình độ quản lý, tổ chức kinh doanh, đồng thời áp dụng các phương thức phục vụ văn minh và thuận tiện nhằm đáp ứng nhu cầu tiêu dùng của đa số khách hàng và người mua sắm Siêu thị được Nhà nước cấp phép hoạt động và có đặc trưng thể hiện qua quy mô hiện đại, sự đa dạng và đồng bộ của hàng hóa, quản lý chất lượng nghiêm ngặt và hệ thống phục vụ tiện lợi.

- Đóng vai trò như một cửa hàng bán lẻ

Siêu thị thực hiện chức năng bán lẻ, bán hàng hóa trực tiếp cho người dùng để họ sử dụng chứ không bán lại cho các đối tượng khác Vì vậy, siêu thị được coi là kênh phân phối ở mức phát triển cao hơn so với các đại lý bán lẻ khác, được quy hoạch và tổ chức kinh doanh dưới hình thức các cửa hàng quy mô lớn, có trang thiết bị và cơ sở vật chất hiện đại, văn minh, do thương nhân đầu tư và quản lý.

Việc áp dụng hình thức tự phục vụ là đặc trưng nổi bật ở các siêu thị và được mở rộng áp dụng cho nhiều loại cửa hàng bán lẻ khác Đồng thời, phương thức thanh toán thuận tiện được tích hợp, giúp khách hàng dễ dàng thanh toán và tối ưu hóa trải nghiệm mua sắm.

Trong siêu thị, hàng hóa được gắn mã vạch hoặc mã số và được đưa đến quầy thanh toán ở cửa ra/vào Tại quầy, máy quét đọc mã, hệ thống tính tiền tự động xác định tổng thanh toán và in hóa đơn ngay cho khách hàng.

- Hàng hóa của siêu thị:

Hàng hóa của siêu thị chủ yếu là các mặt hàng tiêu dùng thiết yếu như thực phẩm, đồ may mặc, đồ gia dụng và điện tử, được đa dạng và phong phú về chủng loại để đáp ứng nhu cầu ngày càng đa dạng của khách hàng.

Siêu thị thuộc hệ thống các cửa hàng kinh doanh tổng hợp, cung cấp đa dạng mặt hàng và dịch vụ nhằm đáp ứng nhu cầu mua sắm của người tiêu dùng; khác với các cửa hàng chuyên kinh doanh chỉ tập trung vào một hoặc một số mặt hàng nhất định, siêu thị mang lại sự đa dạng, tiện lợi và giá cả cạnh tranh cho khách hàng trong một chuyến đi mua sắm.

2.1.3 Công việc và chức năng chính của siêu thị

Trong [18] - [35] đã chỉ ra các công việc và chức năng chính của siêu thị

Những công việc của quản lý bán hàng bao gồm:

- Thiết lập chiến lược phân phối

- Thiết lập tổ chức lực lượng bán hàng; quản lý lực lượng bán hàng, khách hàng

- Thiết lập chính sách bán hàng, Tuyển dụng

- Lập kế hoạch bán hàng

- Huấn luyện nâng cao kỹ năng

- Đo lường, đánh giá hiệu quả bán hàng

Thông thường một hệ thống quản lý bán hàng siêu thị có các chức năng sau:

- Quản lý khách hàng thân thiết, thường xuyên

- Quản lý nhập/, xuất kho

- Quản lý mặt hàng trong siêu thị

- Quản lý tài chính thu chi của siêu thị

Những chức năng chính của siêu thị bao gồm:

- Quản lý nhân viên: Để quản lý nhân viên trong hệ thống quản lý bán hàng siêu thị, thông thường các thông tin nhân viên được quản lý như: Mã số nhân viên, họ tên nhân viên, năm sinh, địa chỉ, bộ phận

- Quản lý khách hàng thân thiết, thường xuyên: Khách hàng thân thiết, thường xuyên khi mua ở siêu thị cần cung cấp thông tin: Tên khách hàng, mã số thuế, năm sinh, số điện thoại, địa chỉ nhà, Sau đó, nhân viên siêu thị nhập hóa đơn từ khách hàng và lập phiếu khách hàng thân thiết cho khách hàng

- Quản lý kho hàng: Khi nhập hoặc xuất hàng hóa trong siêu thị cần lưu thông tin: ngày tháng nhập, xuất, tổng trị giá

Hàng nhập kho được thực hiện theo hóa đơn mua hàng của công ty hoặc siêu thị và được quản lý bằng hệ thống theo dõi chi tiết Việc theo dõi bao gồm các tham số: mã hàng, loại hàng, nhóm ngành hàng, số lượng nhập, đơn vị tính và đơn giá Bên cạnh đó, báo cáo lượng nhập hàng hóa trong kỳ được lập định kỳ để đảm bảo kiểm soát tồn kho và tối ưu hóa chi phí.

Hàng xuất kho được quản lý và theo dõi chi tiết theo mã hàng, nhóm hàng, chủng loại hàng và nhóm ngành hàng, đi kèm số lượng xuất và đơn vị tính, thậm chí ghi nhận hàng xuất ra quầy Nhờ cách ghi nhận này, doanh nghiệp có thể lập báo cáo lượng hàng hóa xuất kho trong kỳ một cách chính xác và kịp thời, phục vụ cho kiểm soát tồn kho, tối ưu hóa kho bãi và ra quyết định kinh doanh.

Quản lý hàng tồn kho hiệu quả bắt đầu bằng tổng hợp đầy đủ các phát sinh xuất nhập kho trong kỳ, từ đó tạo ra các báo cáo tồn kho và giá trị tồn kho cho kỳ hiện tại Báo cáo tồn kho và giá trị tồn kho cho phép nắm vững số lượng và giá trị của hàng tồn kho, hỗ trợ quyết định về mua hàng, sản xuất và quản lý dòng tiền Báo cáo thẻ kho theo từng loại hàng tồn kho cung cấp từng mặt hàng chi tiết, theo dõi biến động tồn kho và tối ưu hóa quản lý tồn kho theo loại.

- Quản lý mặt hàng trong quầy siêu thị:

+ Mặt hàng trong siêu thị được quản lý theo những thông tin: mã mặt hàng, tên mặt hàng, loại hàng, đơn vị tính, xuất xứ,

Trong quy trình quản lý tồn kho tại quầy siêu thị, khi phát hiện số lượng tồn kho thực tế khác với số lượng ghi trên phiếu giao ca, cần điều chỉnh tồn kho tại quầy cho khớp với thực tế và in lại phiếu giao ca mới để cập nhật dữ liệu Việc này giúp theo dõi tồn kho chính xác, giảm chênh lệch và tăng cường kiểm soát tại quầy siêu thị, đồng thời đảm bảo thông tin tồn kho được cập nhật trên hệ thống.

Phiếu giao ca được dựa trên số lượng tồn đầu ca và số lượng hàng bán trong ca, nhằm đảm bảo dữ liệu chính xác cho từng ca làm việc Cuối mỗi ca, hệ thống máy tính sẽ tự động xử lý thông tin tồn kho và doanh số, sau đó in ra phiếu giao ca cho mỗi nhân viên nhận ca mới, giúp việc chuyển giao ca nhanh chóng và rõ ràng Việc tự động in phiếu giao ca không chỉ giảm thiểu sai sót mà còn tối ưu hoá quy trình quản lý kho và bán lẻ, hỗ trợ theo dõi tồn kho và doanh số theo từng ca Các từ khóa SEO được tích hợp tự nhiên như phiếu giao ca, tồn đầu ca, hàng bán trong ca, xử lý tự động, in phiếu và nhận ca mới.

- Quản lý hàng bán lẻ:

+ Lập các hóa đơn bán hàng

+ Báo cáo doanh thu theo từng ca, từng ngày,

- Quản trị hệ thống dữ liệu

+ Lưu trữ và phục hồi dữ liệu (khi cần thiết)

+ Kết thúc chương trình quản lý bán hàng

Cơ sở d ữ li ệ u bán hàng siêu th ị

Các nội dung trong phần được tham khảo trong [18], [24], [26], [33], [34] và [35]

2.2.1 Cơ sở dữ liệu và tầm quan trọng quản lí cơ sở dữ liệu

Cơ sở dữ liệu (Database)

Cơ sở dữ liệu là tập hợp các dữ liệu có liên quan với nhau, được tổ chức và lưu trữ nhằm hỗ trợ tra cứu, quản lý và phân tích thông tin Nó mô hình hóa các đối tượng của một phần thế giới thực (như công ty, doanh nghiệp, trường học) và phản ánh mối quan hệ giữa chúng để đáp ứng các nhu cầu nghiệp vụ Việc thiết kế cơ sở dữ liệu giúp dữ liệu được sắp xếp hợp lý, nhất quán và dễ dàng truy cập, từ đó tối ưu hóa quá trình ra quyết định và hiệu suất vận hành trong tổ chức.

Việc tổ chức CSDL sẽ khắc phục được những khuyết điểm của cách lưu trữ dạng file riêng lẻ:

- Giảm trùng lặp thông tin, đảm bảo tính nhất quán và toàn vẹn dữ liệu

- Cho phép dữ liệu được truy xuất theo nhiều cách khác nhau, từ nhiều người khác nhau và nhiều ứng dụng khác nhau

- Tăng khả năng chia sẻ thông tin

- Tuy nhiên việc sử dụng hệ quản trị CSDL lại có những phiền hà không hề nhỏ sau đây:

- Phải đảm bảo tính chủ quyền của dữ liệu, vì khi sử dụng có tính chất chia sẻ cao

- Bảo mật quyền khai thác thông tin

- Bảo đảm vấn đề tranh chấp dữ liệu khi xảy ra

- Đảm bảo an toàn, toàn vẹn của dữ liệu

Các tính chất của CSDL

- Một CSDL biểu diwwx khía cạnh của thế giới thực

- Một CSDL là tập hợp dữ liệu kiên kết nhau

- Một CSDL được thiết kế và được phổ biến cho một mục đích riêng

Hệ quản trịcơ sở dữ liệu và Tầm quan trọng quản lí cơ sở dữ liệu

H ệ qu ả n tr ị cơ sở d ữ li ệ u (Database Management System )

Hệ quản trị cơ sở dữ liệu (CSDL) là tập hợp các chương trình hỗ trợ người dùng tạo, bảo trì và khai thác dữ liệu trong CSDL Là hệ thống phần mềm phổ biến và dễ dùng, nó giúp định nghĩa, xây dựng và thao tác CSDL một cách hiệu quả trên nhiều ứng dụng khác nhau.

Hiểu một cách dễ dàng, hệ quản trị cơ sở dữ liệu (DBMS) là hệ thống tự động hỗ trợ người dùng kiểm soát thông tin, tạo mới, cập nhật và duy trì cơ sở dữ liệu Trong DBMS, hai thành phần chính là bộ xử lý truy vấn (bộ xử lý yêu cầu) và bộ quản lý dữ liệu, chịu trách nhiệm nhận và xử lý các yêu cầu từ người dùng đồng thời quản lý dữ liệu một cách hiệu quả.

T ầ m quan tr ọ ng qu ản lí cơ sở d ữ li ệ u

Các hệ quản trị cơ sở dữ liệu (DBMS) ra đời và đóng vai trò then chốt trong xử lý và kiểm soát nguồn thông tin của tổ chức Chúng cung cấp các chức năng thiết yếu như quản lý cấu trúc và dữ liệu, cho phép tạo, chỉnh sửa và quản trị lược đồ dữ liệu một cách hiệu quả; xử lý các câu lệnh truy vấn để trả về kết quả nhanh chóng; bảo đảm an toàn thông tin thông qua phân quyền truy cập; thực hiện sao lưu và phục hồi dữ liệu khi có sự cố; tối ưu hóa hiệu suất truy vấn và quản trị hệ thống; và đảm bảo tính toàn vẹn dữ liệu thông qua các chuẩn ACID Nói cách khác, DBMS giúp tích hợp, bảo vệ và khai thác nguồn dữ liệu một cách có hệ thống, hỗ trợ doanh nghiệp đưa ra quyết định dựa trên dữ liệu chất lượng.

Hệ quản trị cơ sở dữ liệu cung cấp môi trường để tạo lập và vận hành cơ sở dữ liệu, đồng thời cung cấp cho người dùng một ngôn ngữ định nghĩa dữ liệu để mô tả và khai báo các cấu trúc dữ liệu Nhờ ngôn ngữ này, người dùng có thể thiết kế các thành phần dữ liệu như bảng, trường và quan hệ, từ đó xây dựng cơ sở dữ liệu một cách rõ ràng và hiệu quả.

Hệ quản trị cơ sở dữ liệu (CSDL) cung cấp cho người dùng một ngôn ngữ thao tác dữ liệu để diễn đạt các yêu cầu và thực hiện các thao tác cập nhật, khai thác dữ liệu trong CSDL Các thao tác dữ liệu gồm cập nhật (nhập, sửa, xóa dữ liệu) và khai thác (tìm kiếm, kết xuất dữ liệu).

Cung cấp các công cụ kiểm soát và điều khiển truy cập vào CSDL nhằm đảm bảo thực thi các yêu cầu căn bản của hệ cơ sở dữ liệu, bao gồm: bảo mật và phát hiện, ngăn chặn truy cập bất hợp pháp; duy trì tính nhất quán của dữ liệu; tổ chức và điều khiển các truy cập một cách có trật tự; khôi phục cơ sở dữ liệu khi có sự cố về phần cứng hoặc phần mềm; và quản lý các mô tả dữ liệu để nâng cao quản trị và khai thác thông tin.

Trong nghiên cứu thị trường

Đặc điểm của công tác khảo sát và điều tra là phải làm việc với số lượng lớn mẫu theo các tiêu chí lựa chọn, đồng thời chịu áp lực từ khách hàng về việc cập nhật số liệu nhanh, chính xác và báo cáo đầy đủ trong thời gian ngắn Việc ứng dụng phần mềm quản lý dữ liệu và hệ cơ sở dữ liệu tương ứng mang lại các lợi thế như tăng tốc thu thập và xử lý dữ liệu, đảm bảo sự nhất quán và độ chính xác của thông tin, tối ưu hóa quy trình báo cáo và đáp ứng thời hạn chặt chẽ, cũng như khả năng mở rộng, tích hợp dễ dàng với các công cụ phân tích và tăng cường bảo mật dữ liệu.

- Giảm khối lượng giấy tờ cần lưu trữ

Quản lý lượng lớn kết quả khảo sát lâu dài cho cùng một khách hàng và cùng một chỉ tiêu là yếu tố cốt lõi để theo dõi hiệu quả và xu hướng theo thời gian Thống kê kết quả khảo sát qua các năm cho từng khách hàng cho phép so sánh nhanh chóng, rút ra nhận định chính xác và cung cấp báo cáo tức thì Hệ thống này cần tự động hoá nhập liệu và tổng hợp dữ liệu, đảm bảo an toàn lưu trữ, truy cập nhanh và hiển thị bảng điều khiển trực quan, giúp dễ dàng phân tích sự biến động của chỉ tiêu theo từng năm và tối ưu hoá chiến lược dựa trên dữ liệu khảo sát lịch sử.

- Một số báo cáo đơn giản được trích xuất tức thời

- Việc kiểm soát điều tra viên và độ trung thực của kết quả điều tra sẽ đơn giản hơn

- Chi phí ban đầu có thểtăng lên, nhưng chi phí triển khai lâu dài giảm xuống

Trong quản lý bán hàng

Việc nhiều bộ phận và cá nhân cùng lúc tra cứu và cập nhật thông tin về một khách hàng hoặc một đơn hàng là thực tế không thể tránh khỏi trong doanh nghiệp Hệ quản trị cơ sở dữ liệu (CSDL) giúp đồng bộ dữ liệu giữa các phòng ban, đảm bảo tính nhất quán và đầy đủ của hồ sơ, từ đó tối ưu quy trình quản lý khách hàng và đơn hàng, giảm thiểu sai sót và tiết kiệm thời gian làm việc.

Hệ thống cho phép quản lý hàng nghìn đến hàng triệu khách hàng cùng lúc, lưu trữ toàn bộ các giao dịch, đặc điểm, kết quả, trạng thái và thông tin của từng khách hàng Việc đồng bộ dữ liệu tập trung giúp doanh nghiệp nắm bắt hồ sơ khách hàng một cách toàn diện và chính xác, từ đó cải thiện trải nghiệm người dùng, tối ưu hóa quy trình chăm sóc khách hàng và tối ưu hóa các chiến lược tiếp thị dựa trên dữ liệu lịch sử giao dịch và hành vi khách hàng.

- Cùng lúc tra cứu một hoặc nhiều khách hàng có các đặc điểm theo yêu cầu

- Cập nhật cùng lúc nhiều mặt của cùng một khách hàng theo phân quyền

- Bộ phận marketing lưu trữ thông tin về các chiến dịch, danh sách khách hàng tìm kiếm được sau mỗi chiến dịch

- Phòng kinh doanh được phép sửa thông tin cơ bản, các thông tin phục vụ chăm sóc khách hàng, các đơn hàng

- Bộ phận kho, sản xuất lưu trữ thông tin các thông tin về kết quả sản xuất đơn hàng, tình trạng kho hàng

- Bộ phận kế toán lưu trữ các giao dịch liên quan đến đơn hàng, các chi phí phát sinh

Các dữ liệu rời rạc từ các bộ phận được thống nhất, kết xuất và lưu trữ xuyên suốt từ khi nhận diện dữ liệu cho khách hàng đến bán hàng, xuất hoá đơn và lưu giữ lịch sử giao dịch sau đó Quá trình này giúp giảm trùng lặp hồ sơ khách hàng, đồng thời cung cấp thêm thông tin để phân khúc khách hàng và xây dựng các chiến dịch chăm sóc khách hàng hiệu quả hơn.

Trong quản trị nhân sự

Quản trị nhân sự là một quá trình kéo dài từ trước khi xây dựng kế hoạch tuyển dụng cho đến sau khi nhân sự rời công ty, đặc biệt khi mỗi nhân sự có rất nhiều thông tin và dễ bị phân tán nếu quản lý chỉ bằng giấy tờ; việc cập nhật thông tin nhân sự có thể dẫn đến dữ liệu không khớp và thiếu đồng bộ, gây giảm hiệu quả quản trị Vì vậy, một phần mềm quản trị nhân sự phù hợp sẽ giúp ban lãnh đạo và bộ phận quản lý lưu trữ, đồng bộ và bảo mật hồ sơ, tự động hóa quy trình tuyển dụng, đào tạo, hợp đồng, lương thưởng và nghỉ phép, đồng thời tích hợp dữ liệu để ra quyết định nhanh và chính xác Nhờ đó, hoạt động của siêu thị được quản lý hiệu quả hơn, giảm thiểu sai sót, tiết kiệm thời gian và tăng cường hiệu suất làm việc của toàn bộ nguồn lực.

- Đánh giá hiệu quả của các đợt tuyển dụng,

Thông tin nhân sự được lưu trữ đồng bộ từ trước khi gia nhập cho đến suốt quá trình làm việc và sau khi kết thúc hợp đồng, bao gồm lý lịch nhân sự, các quyết định liên quan, kết quả đánh giá hiệu suất làm việc, mức lương, khen thưởng, kỷ luật, quy hoạch và thăng chức Các phần mềm quản trị nhân sự giúp quản lý thông tin nhân sự một cách bài bản và khoa học, đồng bộ dữ liệu, tăng tính nhất quán và hỗ trợ các quy trình quản trị nguồn lực nhân sự hiệu quả.

Thông tin được đảm bảo đồng bộ, sẵn sàng sử dụng và duy nhất, không trùng lặp, với quyền xem và chỉnh sửa chỉ thuộc về các bộ phận hoặc cá nhân đã được phân quyền truy cập.

Khai phá d ữ li ệ u và khai phá d ữ li ệ u bán hàng siêu

Khái niệm khai phá dữ liệu [1], [34], [35], [36]

Khai phá dữ liệu (data mining) là quá trình phát hiện tri thức từ các CSDL lớn, kết xuất các tri thức tiềm ẩn để hỗ trợ dự báo và ra quyết định trong kinh doanh, sản xuất và các lĩnh vực liên quan Quá trình này khai thác mẫu, mối quan hệ và xu hướng ẩn trong dữ liệu nhằm tối ưu hóa quy trình, nắm bắt cơ hội thị trường và nâng cao hiệu suất hoạt động So với các phương pháp truyền thống như thống kê, khai phá dữ liệu giúp giảm chi phí và thời gian thực hiện, rút ngắn chu kỳ ra quyết định và tăng độ chính xác của dự báo.

Khai phá dữ liệu là một công nghệ mới và mạnh mẽ có tiềm năng lớn, giúp các tổ chức và công ty tập trung vào thông tin quan trọng nhất từ dữ liệu thu thập về hành vi của khách hàng và khách hàng tiềm năng Nhờ các kỹ thuật phân tích dữ liệu, nó phát hiện những thông tin ẩn mà các truy vấn và báo cáo truyền thống không thể tiết lộ một cách hiệu quả, từ đó hỗ trợ tối ưu hóa chiến lược tiếp thị, quản trị quan hệ khách hàng và ra quyết định kinh doanh.

Qui trình khai phá dữ liệu [1], [34], [35], [36]

Làm sạch dữ liệu là bước đầu tiên và thiết yếu trong quá trình phân tích dữ liệu Dữ liệu từ thế giới thực thường không đầy đủ, có sai lệch và không nhất quán Nguồn dữ liệu thứ cấp có thể thiếu các giá trị thuộc tính quan trọng, chẳng hạn như giới tính hoặc độ tuổi khi bạn phân tích dữ liệu nhân khẩu học Vì vậy, dữ liệu có thể được xem là thiếu hụt Đôi khi dữ liệu chứa lỗi hoặc ngoại lệ, khiến kết quả phân tích bị lệch Khi dữ liệu chưa được làm sạch, kết quả khai phá dữ liệu sẽ không đáng tin cậy và không chính xác; làm sạch dữ liệu giúp tăng độ tin cậy và độ chính xác của các kết quả phân tích.

Làm sạch dữ liệu là quá trình áp dụng các kỹ thuật như điền thủ công các giá trị còn thiếu và kết hợp kiểm tra giữa máy tính và con người để đảm bảo tính nhất quán, đầy đủ và chính xác của tập dữ liệu Quá trình này loại bỏ dữ liệu nhiễu, chuẩn hóa định dạng và ghép nối các nguồn dữ liệu khác nhau, nhờ đó mang lại dữ liệu sạch sẵn sàng cho phân tích và mô hình hóa Đầu ra của quy trình làm sạch dữ liệu là một bộ dữ liệu sạch đầy đủ, cấu trúc và tin cậy, phục vụ cho các quyết định dựa trên dữ liệu.

Quá trình tích hợp dữ liệu là gom dữ liệu từ nhiều nguồn khác nhau và ở các định dạng, vị trí khác nhau vào một nguồn duy nhất để dễ quản lý và phân tích Dữ liệu có thể được lưu trữ trong cơ sở dữ liệu, tệp văn bản, bảng tính, tài liệu, khối dữ liệu hoặc trên Internet, khiến việc chuẩn hóa và hợp nhất trở nên khó khăn Vì dữ liệu đến từ các nguồn không đồng nhất về cấu trúc và ngữ nghĩa, dễ xảy ra sự không khớp giữa các tập dữ liệu Thêm vào đó, dư thừa dữ liệu là vấn đề phổ biến: cùng một thông tin có thể có mặt ở nhiều bảng trong cùng một cơ sở dữ liệu hoặc ở các nguồn khác nhau, làm phức tạp quá trình tích hợp và ảnh hưởng đến chất lượng phân tích.

Quá trình khai phá dữ liệu yêu cầu một CSDL lớn để phân tích, vì vậy kho lưu trữ dữ liệu thường chứa dữ liệu tích hợp với khối lượng lớn hơn nhu cầu thực tế nhằm cung cấp nguồn dữ liệu phong phú cho phân tích Từ nguồn dữ liệu sẵn có, các dữ liệu quan trọng và liên quan đến mục tiêu phân tích được chọn lọc và lưu trữ để phục vụ quá trình khai phá Quá trình lựa chọn dữ liệu là việc xác định và rút trích những dữ liệu liên quan đến phân tích từ cơ sở dữ liệu và đưa chúng vào kho dữ liệu thích hợp để phân tích hiệu quả.

Chuyển đổi dữ liệu là quá trình biến đổi và hợp nhất dữ liệu từ nhiều nguồn thành các dạng phù hợp nhằm phục vụ cho khai phá dữ liệu Quá trình này bao gồm các thao tác như chuẩn hóa dữ liệu để đảm bảo tính nhất quán, tổng hợp dữ liệu để gộp thông tin và tổng quát hóa dữ liệu để trừu tượng hóa các đặc trưng, đồng thời thực hiện làm sạch và tích hợp dữ liệu nhằm nâng cao chất lượng và khả năng phân tích.

Khai phá dữ liệu là quá trình cốt lõi của lĩnh vực này và được nhấn mạnh trong nội dung chính khi đề cập đến việc khám phá các mẫu từ dữ liệu Đây là tập hợp các phương pháp phức tạp và thông minh được áp dụng để trích xuất mẫu từ dữ liệu, biến dữ liệu thô thành thông tin có giá trị cho quyết định Quá trình khai phá dữ liệu bao gồm một số nhiệm vụ thiết yếu như liên kết dữ liệu (association), phân loại (classification), dự đoán (prediction), phân cụm (clustering) và phân tích chuỗi thời gian, cùng với các kỹ thuật phân tích dữ liệu khác Nhờ các bước này, khai phá dữ liệu giúp phát hiện mối quan hệ ẩn, xu hướng và bất thường, từ đó tối ưu hóa quy trình ra quyết định và nâng cao hiệu quả hoạt động của tổ chức.

Đánh giá mẫu nhằm xác định các mẫu thực sự thú vị, hữu ích và đại diện cho tổng thể, đảm bảo tính đại diện và giá trị cho nghiên cứu Một mô hình được xem là tốt khi nó có khả năng hữu ích, dễ hiểu đối với con người và có thể xác nhận hoặc hợp lệ hoá một số giả thuyết mà người nghiên cứu muốn kiểm chứng trên dữ liệu mới với mức độ chắc chắn tương đối.

Thông tin khai thác từ dữ liệu nên được trình bày một cách hấp dẫn cho người dùng, bằng cách ứng dụng các kỹ thuật biểu diễn và trực quan hóa kiến thức nhằm chuyển hóa kết quả khai thác dữ liệu thành nội dung dễ hiểu Sơ đồ, bảng biểu và các công cụ trực quan khác giúp ban lãnh đạo doanh nghiệp nắm bắt trực quan kết quả phân tích, từ đó xem xét các đề xuất và xây dựng các chiến lược phù hợp.

2.3.2 Khai phá dữ liệu bán hàng siêu thị

Khai phá dữ liệu bán hàng siêu thị là kỹ thuật phân tích marketing giúp biến dữ liệu thô từ cơ sở dữ liệu bán hàng thành những thông tin hữu ích cho quyết định kinh doanh Bằng cách sử dụng phần mềm phân tích và tìm kiếm mẫu trên tập dữ liệu lớn, siêu thị có thể hiểu rõ hơn về hành vi và nhu cầu của khách hàng Nhờ vậy, họ xây dựng và triển khai các chiến lược marketing hiệu quả hơn, từ đó tăng doanh số, giảm chi phí và nâng cao lợi nhuận Quá trình khai phá dữ liệu dựa trên việc thu thập dữ liệu, lưu trữ trong kho dữ liệu và áp dụng các thuật toán cùng phần mềm xử lý phù hợp để khai thác thông tin giá trị từ dữ liệu bán hàng.

Như đã trình bày trong phạm vi đề tài, chúng tôi tập trung nghiên cứu các thuật toán khai phá dữ liệu trên các giỏ hàng, gồm các yếu tố như định danh người dùng, danh sách sản phẩm trong giỏ và các thuộc tính kèm theo như giá trị đơn hàng, thời gian mua và hành vi người dùng Qua đó, chúng tôi áp dụng các phương pháp khai phá dữ liệu để rút trích mẫu hành vi, dự báo nhu cầu và đề xuất các biện pháp tối ưu hóa gợi ý sản phẩm và chiến lược tiếp thị cá nhân hóa Nghiên cứu nhấn mạnh tầm quan trọng của tiền xử lý dữ liệu, lựa chọn đặc trưng và đánh giá mô hình trên tập dữ liệu giỏ hàng nhằm đảm bảo hiệu suất, độ tin cậy và khả năng mở rộng Kết quả kỳ vọng bao gồm phát hiện quy luật mua sắm, gợi ý sản phẩm liên quan và tối ưu quy trình khuyến mãi dựa trên hành vi thực tế của người dùng.

Phân tích giá, cân bằng với xu hướng tiêu thụ của các mặt hàng giúp nhận diện những mặt hàng hoặc nhóm mặt hàng phổ biến, có ngưỡng đánh giá do người dùng hoặc nhà quản lý quy định Quá trình khai thác dữ liệu này hỗ trợ các nhà hoạch định siêu thị—ban lãnh đạo, tổng giám đốc/giám đốc chi nhánh, trưởng nhóm hoặc bộ phận—đề xuất và ra quyết định đầu tư vào các mặt hàng hoặc nhóm mặt hàng tiềm năng trong tương lai nhằm tối ưu hoạt động kinh doanh.

Nội dung cốt lõi của nghiên cứu trình bày ứng dụng các thuật toán khai phá TMTX, đặc biệt là khai phá TMTX với trọng số thích nghi, được giới thiệu trong chương 3 Đây là nội dung trọng tâm của đề tài nghiên cứu khoa học và công nghệ do nhóm tác giả thực hiện, nhằm cung cấp các giải pháp khai thác dữ liệu hiệu quả và phân tích thông tin chính xác.

ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ D Ữ LI Ệ U BÁN HÀNG SIÊU TH Ị

Ứ ng d ụ ng thu ậ t toán khai phá t ậ p m ục thường xuyên phân tích cơ sở d ữ li ệ u bán hàng siêu thị

3.1.1 Ứng dụng thuật toán MFIMT khai phá TMTX đa ngưỡng Đặt bài toán

Trong một siêu thị, các mặt hàng bàn chải (BC), kem đánh răng (KR), bột giặt (BG), dầu gội (DG), sữa tắm (ST) và xà phòng (XP) được lưu trữ trong cơ sở dữ liệu giao dịch (Bảng 4) sau khi đã mã hóa thành các ký hiệu a, b, c, d, e và f tương ứng cho BC, KR, BG, DG, ST và XP Việc mã hóa này giúp bảo mật thông tin giỏ hàng và tối ưu hóa việc truy xuất các định danh mặt hàng, đồng thời duy trì mối liên hệ rõ ràng giữa danh mục sản phẩm và các mã tương ứng để quản lý tồn kho và báo cáo doanh số hiệu quả.

Yêu cầu bài toán: Tại cùng thời điểm, với các ngưỡng độ hỗ trợ khác nhau (được qui định bởi nhà quản lí) tương ứng là: 0.85, 0.5, 0.6, 0.55, 0.65, 0.7, 0.75, 0.8

- Mặt hàng/nhóm các mặt hàng nào phổ biến xuất hiện cùng nhau trong các giỏ hàng?

Về mức độ quan trọng của mặt hàng hoặc nhóm mặt hàng phổ biến xuất hiện, ngưỡng hỗ trợ là tiêu chí do nhà quản lý định ra Ngưỡng này dùng để xác định tỷ lệ phần trăm các mặt hàng hoặc nhóm mặt hàng phổ biến xuất hiện trong dữ liệu; khi phần trăm đó vượt ngưỡng hỗ trợ, nhà quản lý có thể ra quyết định đầu tư vào mặt hàng hoặc nhóm mặt hàng đó.

Bảng 4 Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng)

Tiến hành thực hiện các bước của thuật toán MFIMT theo trình tự dưới đây:

Bước 1: Sắp xếp các ngưỡng độ hỗ trợ tối thiểu theo thứ tự tăng dần ta được: εt 1 < εt 2 < ⋯ < εt k (với k=8)

Bước 2: Thực hiện thuật toán Apriori, với ngưỡng độ hỗ trợ tối thiểu ε t 1 = 0.5(50%)

Quá trình thực hiện thuật toán Apriori được minh họa như sau:

- Duyệt CSDL giao tác lần thứ nhất, tính độ hỗ trợ (SC) của các mục đơn

Trong bài toán tối ưu này, các hệ số SC cho các phần tử a, b, c, d, e, f lần lượt là SC(a)=0.8, SC(b)=0.4, SC(c)=0.8, SC(d)=0.8, SC(e)=0.9 và SC(f)=0.4 Các tập “b” và “f” bị loại bỏ vì không thỏa mãn ε t1 = 0.5, nên tập L1 được xác định là {a, c, d, e} Việc nối L1 với chính nó cho ra tập 2-tập mục ứng viên C2 = {ac, ad, ae, cd, ce, de}.

Trong C2 không có tập nào chứa các mục đơn không phải là TMTX, do vậy C2 không bị tỉa tập mục nào

- Duyệt CSDL giao tác lần thứ hai, tính độ hỗ trợ của các 2-tập mục ứng viên

SC(ac) = 0.6, SC(ad) = 0.7, SC(ae) = 0.8, SC(cd) = 0.6, SC(ce) = 0.7, SC(de) = 0.8.

Các 2-tập mục đều thỏa ε t 1 , do vậy: L 2 = {ac, ad, ae, cd, ce, de}.

Kết nối L2 với L2 được các 3-tập mục ứng viên C3 = {acd, ace, ade, cde}.

Trong C3 không có tập nào chứa các tập mục không phải là TMTX, do vậy C3 không bị tỉa tập mục nào

- Duyệt CSDL giao tác lần thứ ba, tính độ hỗ trợ của các 3-tập mục ứng viên

SC(acd) = 0.5, SC(ace) = 0.6, SC(ade) = 0.7, SC(cde) = 0.6.

Ta được L 3 = {acd, ace, ade, cde}.

Cuối cùng, ta thu được tập các TMTX cùng với sốđộ hỗ trợtương ứng là:

FI 1 = { a: 0.8, c: 0.8, d: 0.8, e: 0.9, ac: 0.6, ad: 0.7, ae: 0.8, cd: 0.6, ce: 0.7, de: 8, acd: 0.5, ace: 0.6, ade: 0.7, cde: 0.6}.

Bước 3: Thực hiện chu trình lặp với i=2,3, ,k để xét cho các ngưỡng độ hỗ trợ tối thiểu ε t 2 , … , ε t k (k=8)

+ Với i=2: Ngưỡng độ hỗ trợ tối thiểu ε t 2 = 0.55 Từ tập FP1 loại bỏ tập mục acd:0.5 không thỏa mãn ngưỡng εt 2 , ta thu được tập các TMTX FP2

FI 2 = {a: 0.8, c: 0.8, d: 0.8, e: 0.9, ac: 0.6, ad: 0.7, ae: 0.8,cd: 0.6, ce: 0.7, de: 8, ace: 0.6, ade: 0.7, cde: 0.6 }.

Với i=3, ngưỡng độ hỗ trợ tối thiểu ε_t3 = 0.6 Từ tập FP2, các tập mục đều thỏa mãn ngưỡng ε_t3 nên không loại bỏ tập mục nào từ FP2, ta thu được tập các TMTX FP3.

FI 3 = {a: 0.8, c: 0.8, d: 0.8, e: 0.9, ac: 0.6, ad: 0.7, ae: 0.8,cd: 0.6, ce: 0.7, de: 8, ace: 0.6, ade: 0.7, cde: 0.6 }.

Tương tự với quá trình lập luận như trên Kết quả ta thu được bảng các TMTX cùng với các độ hỗ trợ tương ứng như bảng 5 dưới đây

Bảng 5 Bảng các tập TMTX tương ứng với các ngưỡng

TMTX FI 1 FI 2 FI 3 FI 4 FI 5 FI 6 FI 7 FI 8

Bài viết này Tổng hợp 36 tập mục phổ biến nhất và mức độ hỗ trợ được đánh giá để bạn có cái nhìn toàn diện về xu hướng nội dung và tối ưu hóa SEO Mỗi chủ đề được đánh dấu bằng các ký hiệu ngắn gọn (a, c, d, e và các tổ hợp như ac, ade, cde) gắn với một điểm hỗ trợ từ 0.6 đến 0.9, cho thấy mức độ quan tâm của người đọc và tiềm năng tối ưu hóa Các chủ đề có điểm cao như e (0.9) hoặc a và c (0.8–0.9) được xem là ưu tiên cho nội dung dài, bài viết hướng dẫn chi tiết hoặc bài so sánh lợi ích – nhắm tới tăng lưu lượng truy cập tự nhiên và thời gian ở trang Đối với các chủ đề có điểm thấp hơn, nội dung ngắn gọn, cập nhật tin tức hoặc bài viết FAQ có thể là lựa chọn phù hợp để duy trì sự hiện diện và hỗ trợ người đọc Trong chiến lược SEO, cần tích hợp từ khóa liên quan một cách tự nhiên, tối ưu metadata, phân bổ nội dung theo mức độ ưu tiên và liên kết nội bộ hợp lý để cải thiện xếp hạng và trải nghiệm người dùng.

Sau khi mã hóa lại các mặt hàng từ Bảng 5, ta xác định được các bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện đồng thời với nhau Các bảng này tương ứng với các ngưỡng từ Bảng 6 đến Bảng 10, cho thấy mức độ liên kết giữa các mặt hàng theo từng ngưỡng.

Trong Bảng 6, bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau được xác định với ngưỡng ϵ_t1 = 0.5 Mục đích của bảng là làm rõ các mặt hàng hoặc nhóm hàng thường xuyên xuất hiện riêng lẻ và các nhóm mặt hàng thường xuyên xuất hiện đồng thời với nhau, cho thấy mức độ liên kết giữa chúng trong dữ liệu Ví dụ điển hình cho thấy mặt hàng bàn chải có hệ số liên kết 0.8, cho thấy bàn chải thường xuất hiện cùng với các mặt hàng khác ở tần suất cao. -**Support Pollinations.AI:**🌸 **Quảng cáo** 🌸 Phân tích liên kết mặt hàng hiệu quả theo Bảng 6 cùng [Pollinations.AI](https://pollinations.ai/redirect/kofi), hỗ trợ SEO tối ưu cho nội dung của bạn!

Bàn chải, Bột giặt, Dầu gội:0.5

Bàn chải, Bột giặt, Sữa tắm:0.6

Bàn chải, Dầu gội, Sữa tắm:0.7

Bột giặt, Dầu gội Sữa tắm:0.6

Bàn chải, Bột giặt:0.6 Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8 Bột giặt, Dầu gội:0.6 Bột giặt, Sữa tắm:0.7

Dầu gội, Sữa tắm:0.8 Bàn chải, Bột giặt, Dầu gội:0.5 Bàn chải, Bột giặt, Sữa tắm:0.6

Bàn chải, Dầu gội, Sữa tắm:0.7

Bột giặt, Dầu gội Sữa tắm:0.6

Trong Bảng 7, mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau được xác định với hai ngưỡng 𝛆t2 = 0.55 và 𝛆t3 = 0.60, cho thấy các mặt hàng có mối quan hệ liên kết mạnh khi đồng xuất hiện đạt mức cao Danh sách liệt kê các nhóm mặt hàng thường xuyên xuất hiện cùng nhau, cho phép nhận diện các cặp hoặc nhóm mặt hàng đi kèm trong dữ liệu bán lẻ Ví dụ điển hình là mặt hàng bàn chải với hệ số liên kết 0.8, thể hiện mức độ đồng xuất hiện cao giữa bàn chải và các mặt hàng liên quan được nêu trong bảng Những thông tin này hỗ trợ tối ưu hóa chiến lược bán hàng, sắp xếp trưng bày và đề xuất sản phẩm dựa trên các nhóm mặt hàng thường xuyên xuất hiện.

Bàn chải, Bột giặt:0.6 Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8

Bàn chải, Bột giặt, Sữa tắm:0.6

Bàn chải, Dầu gội, Sữa tắm:0.7

Bột giặt, Dầu gội Sữa tắm:0.6

Bột giặt, Dầu gội:0.6 Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8 Bàn chải, Bột giặt, Sữa tắm:0.6 Bàn chải, Dầu gội, Sữa tắm:0.7

Bột giặt, Dầu gội Sữa tắm:0.6

Bảng 8 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆 𝐭 𝟒 = 𝟎 𝟔𝟓 𝐯à 𝛆 𝐭 𝟓 = 𝟎 𝟕 Mặt hàng/nhóm hàng thường xuyên xuất hiện

Các nhóm mặt hàng thường xuyên xuất hiện cùng nhau Bàn chải:0.8

Bàn chải, Dầu gội, Sữa tắm:0.7

Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8

Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8 Bàn chải, Dầu gội, Sữa tắm:0.7

Bảng 9 mô tả các mặt hàng và nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝜀t6 = 0.75 và 𝜀t7 = 0.8 Theo đó, mặt hàng/nhóm hàng được coi là thường xuyên xuất hiện và các nhóm mặt hàng thường xuyên xuất hiện cùng nhau; ví dụ điển hình là mặt hàng Bàn chải có hệ số 0.8.

Bàn chải, Sữa tắm:0.8 Dầu gội, Sữa tắm:0.8

Bảng 10 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭 𝟖 = 𝟎 𝟖𝟓

Mặt hàng/nhóm hàng thường xuyên xuất hiện

Các nhóm mặt hàng thường xuyên xuất hiện cùng nhau

Phân tích, đánh giá kết quả khai phá

Qua quá trình khai phá dữ liệu, ta thu được các bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng độ hỗ trợ tối thiểu tương ứng từ bảng 6 đến bảng 10 Các kết quả cho thấy sự liên kết chặt chẽ giữa một số mặt hàng nhất định và khả năng dự đoán hành vi mua hàng khi chúng xuất hiện đồng thời, làm nền tảng cho các phân tích và đánh giá về mức độ phổ biến và mức độ liên kết giữa các nhóm hàng Dựa trên những bảng này, có thể rút ra các phát hiện chính và đề xuất các chiến lược tối ưu cho quản lý tồn kho, lên kế hoạch khuyến mãi và nâng cao hiệu quả bán hàng, đồng thời cung cấp định hướng rõ ràng cho quyết định kinh doanh dựa trên dữ liệu.

- Với các ngưỡng độ hỗ trợ tối thiểu tăng dần thì số các mặt hàng/nhóm hàng xuất hiện thường xuyên là giảm dần

- Với ngưỡng độ hỗ trợ tối thiểu nhỏ nhất (ε t 1 =0.5) và kết quả trong bảng 4 nhận thấy:

+ Thu được tập 14 mặt hàng/nhóm hàng thường xuyên (cột 1 trong bảng 6)

Mức độ quan trọng của 14 mặt hàng được sắp xếp từ cao xuống thấp: Sữa tắm 0.9 là mức độ quan trọng lớn nhất; tiếp theo lần lượt là Bàn chải 0.8, Bột giặt 0.8 và Dầu gội 0.8 Các giá trị còn lại được thể hiện ở bảng 6, cột 2, trong đó nhóm Bột giặt, Dầu gội và Sữa tắm có mức độ quan trọng 0.6 là nhỏ nhất.

Trong dữ liệu phân tích, có 10 giỏ hàng thường xuyên chứa các mặt hàng xuất hiện đồng thời, cho thấy các cặp và bộ ba được người tiêu dùng ưa chuộng: bàn chải kết hợp với bột giặt; bàn chải kết hợp với bột giặt và dầu gội; bàn chải kết hợp với bột giặt và sữa tắm; và bột giặt kết hợp với dầu gội và sữa tắm Những kết quả này giúp tối ưu hóa đề xuất sản phẩm và hiển thị các mặt hàng liên quan khi người dùng duyệt mua sắm.

Mức độ quan trọng của các nhóm mặt hàng thường xuyên xuất hiện cùng nhau được sắp xếp từ lớn đến nhỏ theo trình tự nhất định, với các ví dụ điển hình là Bàn chải, Sữa tắm:0.8; Dầu gội, Sữa tắm:0.8; …; Bột giặt, Dầu gội Sữa tắm:0.6 Các mối liên kết này cho thấy sự ghép mua giữa các sản phẩm có thể được tối ưu hóa để tăng doanh số, cải thiện bố trí trưng bày và đề xuất mua hàng chéo cho khách hàng. -**Support Pollinations.AI:**🌸 **Quảng cáo** 🌸 Khám phá [Pollinations.AI](https://pollinations.ai/redirect/kofi) để tối ưu hóa đề xuất sản phẩm liên quan và tăng hiệu quả bán hàng ngay hôm nay!

+ Mức độ quan trọng nhỏ nhất của nhóm các mặt hàng xuất hiện cùng nhau là

“Bàn chải, Bột giặt, Dầu gội:0.5”

- Với hai ngưỡng độ hỗ trợ tối thiểu ε t 2 = 0.55 và ε t 3 = 0.6 và kết quả trong bảng 7 nhận thấy:

Trong phân tích dữ liệu, số mặt hàng/nhóm hàng xuất hiện thường xuyên bằng nhau (13) và số mặt hàng/nhóm hàng xuất hiện cùng nhau thường xuyên cũng bằng nhau (9); từ đó thu được tập 13 mặt hàng/nhóm hàng thường xuyên (cột 1 bảng 7).

+ Mức độ quan trọng lần lượt từ lớn nhất đến nhỏ nhất của của 13 mặt hàng/nhóm hàng là: “Sữa tắm:0.9”, “Bàn chải:0.8”, “Bột giặt:0.8”, “Dầu gội:0.8”, …,

“Bột giặt, Dầu gội, Sữa tắm:0.6” (cột 2 trong bảng 9)

Trong hệ thống giỏ hàng, có 9 giỏ hàng thường xuyên chứa các mặt hàng xuất hiện cùng nhau Các cặp và bộ ba phổ biến gồm: Bàn chải và Bột giặt; Bàn chải, Bột giặt và Dầu gội; Bàn chải, Bột giặt và Sữa tắm; Bột giặt, Dầu gội và Sữa tắm Những mẫu ghép này thể hiện xu hướng người mua ghép các sản phẩm vệ sinh cá nhân với các mặt hàng chăm sóc răng miệng và giặt giũ khi mua sắm trực tuyến.

KẾ T LU Ậ N, TH Ả O LU ẬN VÀ ĐỀ XU Ấ T V ẤN ĐỀ NGHIÊN C Ứ U

Ngày đăng: 29/10/2022, 08:06

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm