M ục tiêu: Đề tài tập trung nghiên cứu về các khía cạnh sau: Đề tài đã vận dụng tính khoa học của lĩnh vực Khai phá dữ liệu, cụ thể một số toán phân tích cơ sở dữ liệu bán hàng siêu thị
TỔ NG QUAN NGHIÊN C Ứ U C ỦA ĐỀ TÀI
Tính c ấ p thi ế t c ủa đề tài
Ngày nay, sự hội nhập kinh tế quốc tế đã mở ra nhiều cơ hội phát triển cho các quốc gia về mặt kinh tế và xã hội Trong lĩnh vực bán lẻ, các siêu thị ngày càng mở rộng về quy mô, số lượng và chất lượng, với hàng chục nghìn mặt hàng và hàng triệu lượt khách hàng mỗi năm Các siêu thị lớn phải xử lý hàng chục nghìn đơn hàng đa dạng mỗi ngày, tạo ra hệ thống dữ liệu bán hàng siêu thị phức tạp và khổng lồ về số lượng giỏ hàng theo từng thời kỳ như ngày, tuần, quý.
Khách hàng quan tâm đến siêu thị bị ảnh hưởng bởi nhiều yếu tố như nhu cầu, thời gian, tính phổ biến và các vấn đề chính trị, xã hội Do đó, giá cả của các mặt hàng bán ra thường được điều chỉnh nhằm thúc đẩy lưu chuyển hàng hóa nhanh chóng và tăng doanh thu cho siêu thị.
Nhà quản lý siêu thị cần phân tích dữ liệu bán hàng để xác định các mặt hàng hoặc nhóm mặt hàng nào được khách hàng thường xuyên mua cùng nhau trong giỏ hàng Hiểu rõ mối quan hệ giữa các mặt hàng trong các giao dịch giúp đề xuất các chiến lược bán hàng hiệu quả Từ đó, các nhà quản lý có thể xây dựng kế hoạch kinh doanh tối ưu nhằm gia tăng doanh thu và đạt lợi nhuận cao nhất cho siêu thị.
Khai phá dữ liệu là lĩnh vực nghiên cứu quan trọng trong công nghệ thông tin nhằm trích xuất thông tin hữu ích tiềm ẩn từ các cơ sở dữ liệu lớn Khai phá TMTX góp phần thiết yếu vào các nhiệm vụ như khám phá luật kết hợp, mẫu tuần tự, phân tích tương quan, phân lớp, gom cụm dữ liệu và khai phá web.
Khai phá dữ liệu TMTX đang tiếp tục được các nhà nghiên cứu phát triển các công cụ và thuật toán nhằm giải quyết các bài toán kinh tế - xã hội, đặc biệt trong phân tích dữ liệu bán hàng siêu thị Các thuật toán khai phá dữ liệu này nhằm hỗ trợ các nhà quản lý siêu thị đưa ra quyết định chính xác hơn trong chiến lược phát triển kinh doanh Tuy nhiên, phần lớn các nghiên cứu về khai phá dữ liệu TMTX hiện vẫn mang tính lý thuyết, với ít hoặc không có mô hình ứng dụng thực tiễn trong phân tích hoạt động kinh doanh hay dữ liệu bán hàng siêu thị.
Với sự phát triển của lĩnh vực khai phá dữ liệu, cần nâng cao chất lượng và đổi mới các chương trình đào tạo tại các trường đại học khối kinh tế, quản trị và kinh doanh Trường Đại học Thương mại, với chuyên ngành Quản trị hệ thống thông tin, đặc biệt chú trọng nghiên cứu ứng dụng các công cụ và thuật toán khai phá dữ liệu vào các hoạt động kinh doanh thương mại Việc này giúp thúc đẩy hiệu quả trong bán hàng siêu thị và các lĩnh vực thương mại nói chung.
Dựa trên cơ sở lý luận vững chắc và nhu cầu thực tiễn cấp thiết, phù hợp với yêu cầu đổi mới đại học trong bối cảnh hiện nay, chúng tôi đã lựa chọn và đề xuất nghiên cứu đề tài “Nghiên cứu ứng dụng” Đề tài nhấn mạnh tầm quan trọng của việc áp dụng các phương pháp mới để nâng cao chất lượng đào tạo, đồng thời góp phần thúc đẩy sự phát triển bền vững của giáo dục đại học Việc nghiên cứu này hướng tới xây dựng các giải pháp sáng tạo, phù hợp với xu hướng đổi mới toàn diện, nhằm đáp ứng tốt hơn yêu cầu của xã hội và nhu cầu của sinh viên.
Các thuật toán khai phá dữ liệu hỗ trợ phân tích cơ sở dữ liệu bán hàng siêu thị giúp khai thác các thông tin tiềm ẩn trong hệ thống dữ liệu này, từ đó hỗ trợ nhà quản lý đưa ra các quyết định kinh doanh hiệu quả và tăng lợi nhuận cho siêu thị Đồng thời, đề tài còn góp phần bổ sung kiến thức cơ bản và cần thiết cho các học phần thuộc chương trình đào tạo chuyên ngành Quản trị hệ thống thông tin tại Trường Đại học Thương mại.
T ổ n g quan đề tài nghiên c ứ u
Các nghiên cứu ngoài nước
Trong kỷ nguyên Internet bùng nổ, lĩnh vực khai phá dữ liệu đã ghi nhận sự phát triển vượt bậc, trở thành một trong những lĩnh vực trọng tâm thu hút sự quan tâm của nhiều nhà khoa học quốc tế và Việt Nam Công nghệ khai phá dữ liệu đóng vai trò quan trọng trong việc phân tích và khai thác dữ liệu lớn, góp phần nâng cao hiệu quả trong các hoạt động nghiên cứu và ứng dụng thực tiễn Sự phát triển của ngành công nghệ thông tin kéo theo những cơ hội mới cho lĩnh vực khai phá dữ liệu, thúc đẩy đổi mới sáng tạo và tạo ra giá trị gia tăng trong nhiều ngành nghề.
Khai phá dữ liệu là quá trình trích lọc những thông tin hữu ích chưa được biết từ cơ sở dữ liệu (CSDL), giúp phát hiện ra các mẫu và xu hướng ẩn Trong lĩnh vực khai phá dữ liệu, kỹ thuật khai phá TMTX (TMTX) đóng vai trò quan trọng trong việc phân tích và khai thác dữ liệu để đưa ra các kết quả giá trị Bài toán khai phá dữ liệu lần đầu tiên được giới thiệu vào năm, mở ra nhiều cơ hội ứng dụng trong các lĩnh vực như kinh doanh, chăm sóc sức khỏe, và công nghệ thông tin.
Năm 1993, Agrawal R và Srikant R thuộc Trung tâm nghiên cứu Almaden của IBM (Mỹ) đã phát triển thuật toán khám phá dữ liệu bán hàng tại siêu thị nhằm hỗ trợ nhà quản lý đưa ra các quyết định tối ưu trong hoạt động kinh doanh Thuật toán Apriori, được đề xuất trong cùng năm, mặc dù có nhược điểm là sinh ra lượng lớn các tập mục ứng viên và yêu cầu quét CSDL nhiều lần, vẫn nằm trong top 10 các thuật toán khai phá dữ liệu nổi tiếng Thuật toán này được xem như nền tảng cho nhiều nghiên cứu và phát triển các thuật toán khai phá dữ liệu cũng như ứng dụng thực tiễn của chúng Để khắc phục hạn chế của Apriori, Han J và cộng sự tại Đại học Simon Fraser (Canada) đã đề xuất thuật toán FP-growth, dựa trên các kỹ thuật chính như nén toàn bộ CSDL thành cây FP-tree nhằm giảm chi phí duyệt dữ liệu, và sử dụng phương pháp chia để trị bằng cách xây dựng các cây FP-tree có điều kiện để khai phá dữ liệu một cách hiệu quả hơn.
Quá trình khai phá cây được phát triển dần các mẫu mà không sinh ra nhiều các TMUV, giúp giảm thời gian tính toán Quá trình khai phá TMTX được thực hiện qua hai pha chính: pha xây dựng cây FP-tree và pha khai phá cây FP-tree bằng thuật toán FP-growth Việc này tối ưu hóa quy trình khai phá dữ liệu, nâng cao hiệu quả phân tích và tìm kiếm các mẫu dữ liệu đặc trưng.
Khác với khai phá TMTX truyền thống, khai phá TMTX với trọng số quan tâm đến mức độ quan trọng khác nhau của các mục trong cơ sở dữ liệu Mô hình này lần đầu tiên được đề xuất năm 1998 bởi Cai C.H và cộng sự với thuật toán MINWAL, trong đó giới thiệu khái niệm DHTVTS dựa trên tích của độ hỗ trợ và trọng số trung bình của các mục thành viên Tuy nhiên, hạn chế của thuật toán MINWAL là tính chất Apriori, vốn yêu cầu mọi tập con của TMTX cũng phải là TMTX, bị phá vỡ khi các trọng số khác nhau được áp dụng cho các mục, khiến việc khai thác các tập dữ liệu có trọng số phức tạp hơn.
Trong khai phá dữ liệu về tập con của một tập mục tiêu (TMTX), không nhất thiết các tập con phải có trọng số giống với TMTX ban đầu Để duy trì tính chất của thuật toán Apriori, MINWAL đã đề xuất khái niệm cận k-hỗ trợ (k-support bound), trong đó độ hỗ trợ của một tập hợp con sinh ra tại mức k cần phải lớn hơn hoặc bằng cận k-hỗ trợ MINWAL dựa trên thuật toán Apriori truyền thống để phát hiện các TMTX, tuy nhiên phần lớn các tập con phát hiện không phải là TMTX với trọng số Ngoài ra, theo nghiên cứu, việc sử dụng cận k-hỗ trợ để giảm phạm vi tìm kiếm tốn nhiều thời gian Sau MINWAL, các mô hình và thuật toán mới đã được đề xuất dựa trên nền tảng của thuật toán Apriori Trong đó, Aggarwal và cộng sự đã giới thiệu thuật toán Apriori-TID, mở rộng dựa trên cách tiếp cận của Apriori, giúp giảm thiểu số lần quét toàn bộ cơ sở dữ liệu bằng cách biểu diễn các ứng viên trong mỗi giao dịch, qua đó chỉ cần quét một lần để tính độ hỗ trợ, tiết kiệm đáng kể thời gian và tài nguyên.
Trong nghiên cứu của Aggarwal và cộng sự [1], thuật toán Apriori-Hybrid đã được đề xuất nhằm tối ưu hóa quy trình khai thác Frequent Itemsets Thuật toán này kết hợp đặc điểm của Apriori và Apriori-TID, chuyển đổi từ việc tổ chức lặp sang sử dụng Apriori-TID khi các tập ứng viên cấp k đã đủ lớn và vào bộ nhớ chính, giúp nâng cao hiệu quả và tốc độ xử lý dữ liệu Apriori-Hybrid được đánh giá cao hơn so với các thuật toán Apriori truyền thống và Apriori-TID, phù hợp cho các hệ thống khai thác dữ liệu lớn và phức tạp.
Various algorithms are variants of the Apriori algorithm, including DIC (Dynamic Itemset Counting), OCD (Offline Candidate Determination), Partition, Sampling, CARMA, AIS, SETM, Eclat, and Charm, among others, each improving the efficiency and effectiveness of frequent itemset mining in data analysis.
Việc khai phá TMTX với trọng số đã tính toán dựa trên trọng số của các mục trong quá trình khai phá chưa phản ánh đầy đủ thực tế khi giả thiết cho rằng trọng số của mỗi mục luôn cố định Trên thực tế, trọng số của các mục thường thay đổi theo thời gian, gọi là trọng số thích nghi, lần đầu được đề xuất vào năm 2008 bởi Chowdhury F A và cộng sự Mô hình và thuật toán AWFPM được phát triển để khai thác TMTX với trọng số thích nghi, cho phép trọng số các mục thay đổi theo thời gian qua các lô dữ liệu khác nhau trong cơ sở dữ liệu giao dịch Tập mục được gọi là TMTX với trọng số thích nghi khi tổng trọng số lớn hơn ngưỡng đã định trong các lô dữ liệu Thuật toán AWFPM sử dụng cấu trúc cây FP-tree và kỹ thuật tỉa cây dựa trên trọng số cực đại toàn cục (GMAXW) và trọng số cực đại địa phương (LMAXW), trong đó GMAXW là trọng số lớn nhất trong toàn bộ cơ sở dữ liệu, còn LMAXW là trọng số lớn nhất trong các tập con điều kiện của dữ liệu.
Trong [6], Han cùng các cộng sự đã tổng quan về các thuật toán khai phá TMTX và chỉ ra một số định hướng phát triển
Trong nghiên cứu của S Lu và cộng sự trong [8], đã đề xuất các thuật toán khai phá luật kết hợp có tích hợp trọng số nhằm đánh giá chính xác độ hỗ trợ và độ tin cậy của các tập mục trong cơ sở dữ liệu giao tác Các thuật toán này giúp nâng cao hiệu quả phát hiện các quy luật liên quan trong hệ thống dữ liệu lớn, hỗ trợ quá trình phân tích dữ liệu chính xác hơn Việc sử dụng trọng số trong khai phá luật kết hợp giúp cải thiện độ tin cậy của các quy luật được phát hiện, từ đó tối ưu hóa các ứng dụng trong phân tích dữ liệu thương mại và hệ thống đề xuất.
Trong bài viết của Nguyễn Hưng Long [9], tác giả đã đề xuất thuật toán AWFP-Miner khai phá TMTX với trọng số thích nghi, sử dụng một độ đo mới để tỉa các TMTX hiệu quả hơn trong quá trình khai phá, đồng thời AWFP-Miner là thuật toán kiểu FP-Growth Trong nghiên cứu của F Tao [12], tác giả đã đề xuất thuật toán WARM giúp giải quyết vấn đề không thỏa mãn tính chất Apriori bằng cách sử dụng một độ hỗ trợ với trọng số khác so với định nghĩa trong MINWAL, từ đó phát triển tính chất Apriori Độ hỗ trợ với trọng số của tập mục “ab” trong WARM thể hiện tỷ lệ trọng số của các giao tác chứa cả các mục này.
“a” lẫn “b” trên trọng số của tất cả các giao tác trong CSDL WARM cũng là thuật toán dựa trên Apriori
Trong nghiên cứu của W Wang và cộng sự [13], thuật toán WAR được đề xuất để khai phá luật kết hợp kết hợp với trọng số, giúp nâng cao hiệu quả phân tích dữ liệu Thuật toán này bắt đầu bằng việc sinh ra các tập mục lớn hơn mà không tính đến trọng số, sau đó mới xem xét ảnh hưởng của trọng số trong quá trình sinh luật kết hợp Do đó, WAR thực hiện khai phá các tập mục không có trọng số, theo phương pháp hậu xử lý, giúp tối ưu hóa quy trình khai thác luật kết hợp Ngoài ra, WAR dựa trên thuật toán Apriori nổi tiếng, kết hợp các bước khai thác dữ liệu truyền thống với các yếu tố mới về trọng số để nâng cao độ chính xác của kết quả.
Các thuật toán dựa trên phương pháp Apriori gặp phải nhược điểm lớn là phải sinh và kiểm tra nhiều tập mặt hàng trung tâm (TMUV), đồng thời cần quét cơ sở dữ liệu nhiều lần, dẫn đến hiệu quả khai phá thấp Thuật toán khai phá TMTX sử dụng trọng số đầu tiên và cấu trúc cây FP-tree, còn gọi là thuật toán WFIM do Yun U và Leggett J J đề xuất, giúp giảm thiểu số lần quét dữ liệu chỉ còn hai lần và tránh tạo ra quá nhiều ứng viên WFIM áp dụng cách gán trọng số cố định cho từng mục trong cơ sở dữ liệu dựa trên khoảng biến thiên, sau đó sắp xếp các mục theo thứ tự trọng số tăng dần trước khi đưa vào cây FP-tree, tăng tốc độ khai phá dữ liệu hiệu quả hơn.
U Yun tiếp tục phát triển thuật toán WIP, kết hợp ưu điểm của các kỹ thuật hiện có và dựa trên phản hồi của người dùng để tạo ra các mẫu quan trọng Thuật toán sử dụng độ đo mới gọi là độ tin cậy trọng số nhằm xác định các tập mục hyperclique có trọng số gần như nhau, giúp nâng cao độ chính xác của kết quả khai thác dữ liệu Ngoài ra, WIP còn tích hợp khoảng giá trị trọng số để xác định ranh giới cho các trọng số, cùng với độ tin cậy h nhằm đảm bảo các tập mục có độ hỗ trợ đồng đều, từ đó cải thiện tính cân đối và giá trị của các tập mục khai thác Thuật toán không chỉ chú trọng vào việc cân bằng giữa trọng số và độ hỗ trợ mà còn quan tâm đến mối quan hệ giữa các yếu tố này trong quá trình tạo ra các tập mục mang giá trị cao.
Trong nghiên cứu [15], U Yun đã xem xét lại hai ràng buộc cơ bản về trọng số và độ hỗ trợ, từ đó đề xuất thuật toán WLPMiner nhằm tạo ra các tập mục ít hơn nhưng ý nghĩa hơn nhờ sự kết hợp của hai ràng buộc này Thuật toán sử dụng khái niệm WSVE (Weighted Smallest Valid Extension) để cắt tỉa, áp dụng cho cả ràng buộc về độ hỗ trợ giảm theo độ dài và ràng buộc trọng số, đồng thời bổ sung thêm một khoảng trọng số nhằm duy trì tính chất của quy tắc Apriori Việc kết hợp ràng buộc về trọng số với độ hỗ trợ giảm theo độ dài tập mục đã nâng cao hiệu quả thời gian chạy và giảm số lượng mẫu khai thác Ngoài ra, WLPMiner còn sử dụng cấu trúc cây FP-tree để tối ưu quá trình khai thác dữ liệu.
Mục tiêu nghiên cứu
Đề tài tập trung nghiên cứu về các khía cạnh sau:
- Nghiên cứu lý thuyết cơ bản của khai phá dữ liệu bán hàng siêu thị, khai phá TMTX
- Xây dựng mô hình áp dụng một số thuật toán khai phá TMTX hỗ trợ phân tích CSDL bán hàng siêu thị
- Đề xuất mô hình áp dụng một số thuật toán khai phá TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị.
Đối tượ ng và ph ạ m vi nghiên c ứ u
- Lý thuyết chung về khai phá dữ liệu bán hàng siêu thị
- Một số thuật toán khai phá TMTX, TMTX với trọng số
- Bài toán phân tích cơ sở dữ liệu bán hàng siêu thị
- Áp dụng một số thuật toán khai TMTX, TMTX với trọng số hỗ trợ phân tích CSDL bán hàng siêu thị b) Phạm vi nghiên cứu
- Nghiên cứu ứng dụng một số thuật toán KPDL (khai phá TMTX/TMTX với trọng số) nhằm hỗ trợ cho phân tích CSDL bán hàng siêu thị
Cơ sở dữ liệu bán hàng siêu thị tập trung chủ yếu vào các trường như định danh giỏ hàng và nội dung giỏ hàng, gồm các mặt hàng mà khách hàng đã mua tại siêu thị trong một thời điểm cụ thể Ngoài ra, trong quá trình nghiên cứu các thuật toán phân tích, giá trị của các mặt hàng cũng được xem xét để tối ưu hoá quá trình xử lý dữ liệu và nâng cao hiệu quả bán hàng.
Phương pháp nghiên cứ u
- Nghiên cứu dữ liệu thứ cấp (bài báo, đề tài NCKH, luận văn, các chương trình đào tạo, các giáo trình) liên quan đến đề tài
- Mô hình bài toán hoạt động kinh doanh thương mại siêu thị và bài toán khai phá TMTX/TMTX với trọng số
- Phân tích các thuật toán, các mô hình bài toán
Trong quá trình viết bài, cần kết hợp các phương pháp như nêu vấn đề, suy luận, diễn giải, phân tích, tổng hợp, khái quát hóa và chứng minh để đảm bảo nội dung rõ ràng, logic và thuyết phục Việc sử dụng đa dạng các phương pháp này giúp trình bày các kết quả một cách chính xác, đầy đủ và phù hợp với yêu cầu của bài viết, đồng thời nâng cao hiệu quả truyền tải thông điệp đến độc giả.
Kết cấu báo cáo nghiên cứu
Ngoài các mục như: Mục lục, danh mục bảng biểu, hình xẽ, danh mục từ viết tắt, tài liệu tham khảo, …Báo cáo đề tài có 4 chương chính
Chương 1: Tổng quan nghiên cứu đề tài
Chương trình trình bày tổng quát về tính cấp thiết của đề tài, đồng thời phân tích tình hình nghiên cứu trong nước và quốc tế liên quan đến lĩnh vực này Mục tiêu nghiên cứu chính là phát triển các thuật toán khai phá dữ liệu nhằm hỗ trợ phân tích cơ sở dữ liệu bán hàng trong siêu thị một cách hiệu quả Đối tượng và phạm vi nghiên cứu tập trung vào các dữ liệu bán hàng siêu thị và các kỹ thuật khai phá dữ liệu phù hợp Phương pháp nghiên cứu sử dụng các thuật toán khai phá dữ liệu tiên tiến để xử lý và phân tích dữ liệu lớn Báo cáo nghiên cứu có cấu trúc rõ ràng, trình bày các bước thực hiện và kết quả đạt được trong việc ứng dụng các thuật toán để nâng cao khả năng phân tích dữ liệu bán hàng siêu thị, góp phần tối ưu hóa các quyết định kinh doanh.
TỔ NG QUAN V Ề KHAI PHÁ D Ữ LI Ệ U BÁN HÀNG SIÊU TH Ị , MÔ HÌNH VÀ THUẬT TOÁN KHAI PHÁ TẬP MỤC THƯỜNG XUYÊN
H ệ th ố ng bán hàng siêu th ị
Các nội dung trong phần này được tham khảo trong [18] - [35]
2.1.1 Hệ thống quản lí bán hàng
Quản lý bán hàng là hoạt động nghiệp vụ tập trung vào ứng dụng các kỹ thuật bán hàng và quản lý hoạt động bán hàng của công ty, đóng vai trò quan trọng trong việc thúc đẩy doanh thu thuần từ sản phẩm và dịch vụ Chức năng này giúp tăng lợi nhuận, góp phần vào sự phát triển bền vững của doanh nghiệp Các mục tiêu và chỉ số hoạt động của quản lý bán hàng phản ánh hiệu quả trong việc đạt được mục tiêu kinh doanh và tối ưu hóa lợi nhuận cho công ty.
Hệ thống quản lý bán hàng là hệ thống thông tin quan trọng giúp tự động hóa các chức năng quản lý bán hàng và tiếp thị Đây còn là công cụ hỗ trợ quản lý mối quan hệ khách hàng (CRM - Customer Relationship Management), nâng cao hiệu quả trong hoạt động kinh doanh Bên cạnh đó, hệ thống này giúp tối ưu hóa quá trình theo dõi và chăm sóc khách hàng, từ đó thúc đẩy doanh số bán hàng và xây dựng mối quan hệ khách hàng bền vững.
2.1.2 Siêu thịvà đặc trưng của siêu thị
Siêu thị là cửa hàng hiện đại, kinh doanh tổng hợp hoặc chuyên doanh đa dạng mặt hàng với cơ cấu chủng loại phong phú và đảm bảo chất lượng cao hơn so với các hình thức bán lẻ thông thường Nhờ đáp ứng các tiêu chuẩn về cơ sở hạ tầng, trang thiết bị kỹ thuật và quản lý chuyên nghiệp, siêu thị mang lại dịch vụ phục vụ văn minh, thuận tiện, từ đó thỏa mãn tốt hơn nhu cầu tiêu dùng của khách hàng Ngoài ra, hoạt động của siêu thị được cấp phép bởi Nhà nước, đảm bảo tính hợp pháp và an toàn cho người tiêu dùng Đây là đặc trưng nổi bật của loại hình cửa hàng này, góp phần nâng cao trải nghiệm mua sắm cho người tiêu dùng.
- Đóng vai trò như một cửa hàng bán lẻ
Siêu thị thực hiện chức năng bán lẻ bằng cách bán hàng hóa trực tiếp cho người tiêu dùng để sử dụng, không nhằm bán lại cho đối tượng khác Do đó, siêu thị được xem là kênh phân phối phát triển cao hơn so với các đại lý bán lẻ khác, được quy hoạch và tổ chức kinh doanh theo mô hình cửa hàng quy mô lớn, trang bị thiết bị hiện đại và cơ sở vật chất văn minh, do thương nhân đầu tư và quản lý.
Áp dụng hình thức tự phục vụ là đặc trưng nổi bật của các siêu thị, giúp khách hàng dễ dàng lựa chọn và mua sắm Phương thức thanh toán thuận tiện góp phần nâng cao trải nghiệm mua sắm, đồng thời tiết kiệm thời gian cho khách hàng Điều này tạo ra môi trường mua sắm hiện đại, nhanh chóng và hiệu quả, phù hợp với thói quen tiêu dùng ngày càng tiện lợi của người tiêu dùng Việt Nam.
Hàng hóa trong siêu thị được gắn mã vạch, giúp dễ dàng quản lý và kiểm tra giá cả Khi mua hàng, khách hàng đưa sản phẩm đến quầy thanh toán, nơi các nhân viên sử dụng máy quét mã vạch để đọc thông tin và tính toán tiền tự động Hệ thống thanh toán tự động này giúp nâng cao trải nghiệm mua sắm tiện lợi và nhanh chóng, đồng thời in hóa đơn tự động cho khách hàng.
- Hàng hóa của siêu thị:
Hàng hóa của siêu thị chủ yếu gồm các mặt hàng thiết yếu như thực phẩm, đồ may mặc, đồ gia dụng và điện tử, đảm bảo đa dạng và phong phú để đáp ứng nhu cầu tiêu dùng của khách hàng.
Siêu thị là một phần trong hệ thống các cửa hàng kinh doanh tổng hợp, nhằm cung cấp đa dạng mặt hàng cho khách hàng Không giống như các cửa hàng chuyên doanh chỉ tập trung vào một hoặc một số mặt hàng nhất định, siêu thị mang đến các sản phẩm phong phú để đáp ứng nhu cầu tiêu dùng của mọi người Với quy mô lớn và đa dạng hàng hóa, siêu thị giúp khách hàng dễ dàng lựa chọn và mua sắm mọi thứ trong một nơi duy nhất.
2.1.3 Công việc và chức năng chính của siêu thị
Trong [18] - [35] đã chỉ ra các công việc và chức năng chính của siêu thị
Những công việc của quản lý bán hàng bao gồm:
- Thiết lập chiến lược phân phối
- Thiết lập tổ chức lực lượng bán hàng; quản lý lực lượng bán hàng, khách hàng
- Thiết lập chính sách bán hàng, Tuyển dụng
- Lập kế hoạch bán hàng
- Huấn luyện nâng cao kỹ năng
- Đo lường, đánh giá hiệu quả bán hàng
Thông thường một hệ thống quản lý bán hàng siêu thị có các chức năng sau:
- Quản lý khách hàng thân thiết, thường xuyên
- Quản lý nhập/, xuất kho
- Quản lý mặt hàng trong siêu thị
- Quản lý tài chính thu chi của siêu thị
Những chức năng chính của siêu thị bao gồm:
Trong hệ thống quản lý bán hàng siêu thị, quản lý nhân viên hiệu quả bắt đầu từ việc lưu trữ các thông tin cơ bản như mã số nhân viên, họ tên, năm sinh, địa chỉ và bộ phận Việc quản lý chính xác các dữ liệu này giúp nâng cao hiệu suất công việc, tăng cường kiểm soát và phát triển nguồn nhân lực phù hợp Các nhà quản lý có thể dễ dàng theo dõi và cập nhật thông tin nhân viên để đảm bảo hoạt động vận hành suôn sẻ và đáp ứng các yêu cầu của hệ thống bán hàng hiện đại.
Quản lý khách hàng thân thiết, thường xuyên là yếu tố quan trọng để nâng cao trải nghiệm mua sắm tại siêu thị Khi khách hàng mua sắm, họ cần cung cấp thông tin cá nhân như tên, mã số thuế, năm sinh, số điện thoại và địa chỉ nhà để tạo hồ sơ khách hàng thân thiết Nhân viên siêu thị sẽ nhập hóa đơn và lập phiếu khách hàng thân thiết dựa trên thông tin này, giúp quản lý dữ liệu chính xác và thúc đẩy chương trình khách hàng thân thiết hiệu quả.
- Quản lý kho hàng: Khi nhập hoặc xuất hàng hóa trong siêu thị cần lưu thông tin: ngày tháng nhập, xuất, tổng trị giá
Hàng nhập kho được theo dõi dựa trên hóa đơn mua hàng của công ty hoặc siêu thị, đảm bảo quản lý chính xác các mặt hàng Thông tin nhập kho gồm mã hàng, chủng loại, nhóm ngành hàng, số lượng, đơn vị tính và đơn giá, giúp kiểm soát chặt chẽ số lượng và giá trị hàng hóa Báo cáo lượng nhập kho trong kỳ sẽ cung cấp cái nhìn toàn diện về lượng hàng tồn kho, từ đó hỗ trợ quản lý tồn kho hiệu quả và tối ưu hóa hoạt động kinh doanh.
Hàng xuất kho được theo dõi chặt chẽ theo mã hàng, nhóm hàng, chủng loại hàng và nhóm ngành hàng để đảm bảo quản lý chính xác Báo cáo lượng hàng hóa xuất kho trong kỳ cung cấp thông tin về số lượng xuất, đơn vị tính và giúp doanh nghiệp kiểm soát tồn kho hiệu quả Việc theo dõi hàng xuất kho là yếu tố quan trọng để nâng cao quản lý kho và tối ưu hóa quá trình xuất hàng.
Quản lý hàng tồn kho hiệu quả bao gồm việc tổng hợp các phát sinh về xuất nhập kho trong kỳ, giúp đảm bảo chính xác số lượng và giá trị tồn kho Báo cáo hàng tồn kho cung cấp thông tin chi tiết về số lượng và giá trị hàng tồn trong kỳ, hỗ trợ đưa ra các quyết định kinh doanh phù hợp Báo cáo thẻ kho theo từng loại hàng tồn kho giúp theo dõi chính xác dòng chảy của từng loại hàng, nâng cao hiệu quả quản lý và kiểm soát tồn kho doanh nghiệp.
- Quản lý mặt hàng trong quầy siêu thị:
+ Mặt hàng trong siêu thị được quản lý theo những thông tin: mã mặt hàng, tên mặt hàng, loại hàng, đơn vị tính, xuất xứ,
Điều chỉnh hàng tồn kho tại quầy siêu thị nếu phát hiện số lượng tồn kho thực tế khác so với số lượng ghi nhận trong phiếu giao ca Sau đó, in lại phiếu giao ca mới để đảm bảo chính xác về số lượng hàng hóa, giúp quản lý tồn kho hiệu quả và tránh sai sót trong quá trình nhập hàng.
Phiếu giao ca cần dựa trên số lượng tồn kho đầu ca và số hàng bán trong ca Sau mỗi ca, hệ thống máy tính sẽ tự động xử lý dữ liệu và in phiếu giao ca cho nhân viên nhận ca mới Điều này giúp đảm bảo quản lý kho hàng chính xác và tối ưu hóa quá trình phân chia công việc.
- Quản lý hàng bán lẻ:
+ Lập các hóa đơn bán hàng
+ Báo cáo doanh thu theo từng ca, từng ngày,
- Quản trị hệ thống dữ liệu
+ Lưu trữ và phục hồi dữ liệu (khi cần thiết)
+ Kết thúc chương trình quản lý bán hàng
Cơ sở d ữ li ệ u bán hàng siêu th ị
Các nội dung trong phần được tham khảo trong [18], [24], [26], [33], [34] và [35]
2.2.1 Cơ sở dữ liệu và tầm quan trọng quản lí cơ sở dữ liệu
Cơ sở dữ liệu (Database)
Cơ sở dữ liệu là tập hợp các dữ liệu có liên quan, được tổ chức một cách có hệ thống để mô phỏng các đối tượng trong thế giới thực như công ty, doanh nghiệp hay trường học Việc quản lý dữ liệu hiệu quả giúp nâng cao khả năng truy xuất thông tin, hỗ trợ ra quyết định nhanh chóng và chính xác Các hệ thống cơ sở dữ liệu hiện nay đóng vai trò quan trọng trong việc tối ưu hóa hoạt động của doanh nghiệp và tổ chức.
Việc tổ chức CSDL sẽ khắc phục được những khuyết điểm của cách lưu trữ dạng file riêng lẻ:
- Giảm trùng lặp thông tin, đảm bảo tính nhất quán và toàn vẹn dữ liệu
- Cho phép dữ liệu được truy xuất theo nhiều cách khác nhau, từ nhiều người khác nhau và nhiều ứng dụng khác nhau
- Tăng khả năng chia sẻ thông tin
- Tuy nhiên việc sử dụng hệ quản trị CSDL lại có những phiền hà không hề nhỏ sau đây:
- Phải đảm bảo tính chủ quyền của dữ liệu, vì khi sử dụng có tính chất chia sẻ cao
- Bảo mật quyền khai thác thông tin
- Bảo đảm vấn đề tranh chấp dữ liệu khi xảy ra
- Đảm bảo an toàn, toàn vẹn của dữ liệu
Các tính chất của CSDL
- Một CSDL biểu diwwx khía cạnh của thế giới thực
- Một CSDL là tập hợp dữ liệu kiên kết nhau
- Một CSDL được thiết kế và được phổ biến cho một mục đích riêng
Hệ quản trịcơ sở dữ liệu và Tầm quan trọng quản lí cơ sở dữ liệu
H ệ qu ả n tr ị cơ sở d ữ li ệ u (Database Management System )
Hệ quản trị Cơ sở dữ liệu (CSDL) là tập hợp các chương trình hỗ trợ người dùng trong việc tạo, bảo trì và khai thác dữ liệu hiệu quả Đây là hệ thống phần mềm phổ biến, giúp đơn giản hóa quá trình định nghĩa, xây dựng và thao tác CSDL Hệ quản trị CSDL đa dạng, phù hợp với nhiều ứng dụng khác nhau, đảm bảo tính linh hoạt và tiện lợi trong quản lý dữ liệu.
Hệ quản trị cơ sở dữ liệu (Hệ quản trị CSDL) là hệ thống tự động giúp người dùng kiểm soát, tạo lập, cập nhật và duy trì các cơ sở dữ liệu một cách dễ dàng và hiệu quả Thành phần chính của hệ quản trị CSDL bao gồm Bộ xử lý truy vấn, chịu trách nhiệm xử lý các yêu cầu từ người dùng, và Bộ quản lý dữ liệu, giúp tổ chức và quản lý dữ liệu một cách có hệ thống Hệ quản trị CSDL đóng vai trò quan trọng trong việc tối ưu hóa quá trình quản lý dữ liệu, đảm bảo tính nhất quán và an toàn thông tin cho doanh nghiệp và người dùng.
T ầ m quan tr ọ ng qu ản lí cơ sở d ữ li ệ u
Các hệ quản trị cơ sở dữ liệu (Hệ quản trị CSDL) ra đời và đóng vai trò quan trọng trong việc xử lý và kiểm soát nguồn thông tin Hệ quản trị CSDL giúp tổ chức, quản lý dữ liệu một cách hiệu quả, đảm bảo độ bảo mật và truy cập dễ dàng Các chức năng chính của hệ quản trị CSDL bao gồm quản lý dữ liệu, bảo vệ dữ liệu, đảm bảo tính toàn vẹn dữ liệu và cung cấp các công cụ tìm kiếm, truy vấn thông minh để hỗ trợ quyết định của doanh nghiệp Nhờ đó, hệ quản trị CSDL góp phần nâng cao hiệu suất làm việc và tối ưu hóa nguồn tài nguyên thông tin của tổ chức.
Hệ quản trị cơ sở dữ liệu (CSDL) đóng vai trò quan trọng trong việc cung cấp môi trường tạo lập và quản lý dữ liệu Nó cho phép người dùng sử dụng ngôn ngữ định nghĩa dữ liệu để mô tả và khai báo các cấu trúc dữ liệu một cách chính xác và hiệu quả Việc này giúp đảm bảo sự tổ chức rõ ràng và dễ dàng truy cập, quản lý thông tin trong hệ thống cơ sở dữ liệu.
Hệ quản trị Cơ sở dữ liệu (CSDL) cung cấp cho người dùng ngôn ngữ thao tác dữ liệu để dễ dàng cập nhật và khai thác dữ liệu một cách hiệu quả Các thao tác dữ liệu bao gồm việc cập nhật dữ liệu như nhập, sửa, xóa, cũng như khai thác dữ liệu để tìm kiếm và kết xuất thông tin một cách nhanh chóng và chính xác.
Các công cụ kiểm soát và điều khiển truy cập vào cơ sở dữ liệu đóng vai trò quan trọng trong việc đảm bảo an ninh, phát hiện và ngăn chặn các truy cập trái phép Ngoài ra, chúng giúp duy trì tính nhất quán của dữ liệu, tổ chức và kiểm soát các truy cập hợp lý Hệ thống cũng có khả năng khôi phục cơ sở dữ liệu nhanh chóng khi gặp sự cố về phần cứng hoặc phần mềm, đồng thời quản lý các mô tả dữ liệu một cách hiệu quả.
Trong nghiên cứu thị trường
Việc khảo sát, điều tra với số lượng lớn mẫu theo các tiêu chí chọn lọc đòi hỏi phần mềm và hệ cơ sở dữ liệu hỗ trợ hiệu quả để đảm bảo thu thập dữ liệu nhanh chóng và chính xác Các giải pháp này giúp cập nhật số liệu kịp thời, báo cáo đầy đủ, đáp ứng yêu cầu gắt gao của khách hàng về tốc độ và độ tin cậy trong quá trình phân tích dữ liệu Nhờ đó, các công cụ phần mềm hỗ trợ nâng cao hiệu quả khảo sát, giảm thiểu sai sót, và thúc đẩy ra quyết định chính xác dựa trên dữ liệu cập nhật liên tục.
- Giảm khối lượng giấy tờ cần lưu trữ
Quản lý lượng lớn kết quả khảo sát lâu dài trở nên dễ dàng và hiệu quả nhờ vào hệ thống thống kê tự động Việc theo dõi kết quả khảo sát qua các năm của cùng một khách hàng và theo cùng một chỉ tiêu giúp tối ưu quá trình phân tích dữ liệu, đưa ra quyết định chính xác nhanh chóng Công cụ này tiết kiệm thời gian và nâng cao hiệu quả quản lý, đảm bảo thông tin luôn được cập nhật và sẵn sàng cho các chiến lược phát triển dài hạn.
- Một số báo cáo đơn giản được trích xuất tức thời
- Việc kiểm soát điều tra viên và độ trung thực của kết quả điều tra sẽ đơn giản hơn
- Chi phí ban đầu có thểtăng lên, nhưng chi phí triển khai lâu dài giảm xuống
Trong quản lý bán hàng
Việc nhiều bộ phận và cá nhân cùng lúc tra cứu, cập nhật thông tin về khách hàng hoặc đơn hàng là điều không thể tránh khỏi Hệ quản trị cơ sở dữ liệu (CSDL) giúp đơn giản hóa công tác quản lý khách hàng, nâng cao hiệu quả và hạn chế sai sót trong quá trình xử lý dữ liệu Sử dụng hệ thống quản trị CSDL tối ưu hóa quy trình làm việc, tăng khả năng truy cập nhanh chóng và chính xác thông tin khách hàng, đồng thời giảm thiểu thời gian xử lý công việc Đây là giải pháp thiết yếu để các doanh nghiệp nâng cao hiệu suất quản lý khách hàng và cải thiện dịch vụ khách hàng một cách hiệu quả.
Hệ thống quản lý khách hàng cho phép xử lý hàng nghìn đến triệu khách hàng cùng lúc, đảm bảo lưu trữ toàn diện các giao dịch, đặc điểm, kết quả, trạng thái và thông tin chi tiết của từng khách hàng Tối ưu hóa quản lý dữ liệu khách hàng giúp doanh nghiệp nâng cao hiệu quả phục vụ và đưa ra các chiến lược tiếp thị chính xác Với khả năng xử lý và lưu trữ dữ liệu lớn, hệ thống hỗ trợ quản lý khách hàng một cách hiệu quả và đáng tin cậy, góp phần thúc đẩy sự phát triển bền vững của doanh nghiệp.
- Cùng lúc tra cứu một hoặc nhiều khách hàng có các đặc điểm theo yêu cầu
- Cập nhật cùng lúc nhiều mặt của cùng một khách hàng theo phân quyền
- Bộ phận marketing lưu trữ thông tin về các chiến dịch, danh sách khách hàng tìm kiếm được sau mỗi chiến dịch
- Phòng kinh doanh được phép sửa thông tin cơ bản, các thông tin phục vụ chăm sóc khách hàng, các đơn hàng
- Bộ phận kho, sản xuất lưu trữ thông tin các thông tin về kết quả sản xuất đơn hàng, tình trạng kho hàng
- Bộ phận kế toán lưu trữ các giao dịch liên quan đến đơn hàng, các chi phí phát sinh
Dữ liệu rời rạc từ các bộ phận được thống nhất, kết xuất và lưu trữ xuyên suốt quá trình từ khi khách hàng được tìm thấy đến khi bán hàng, xuất hóa đơn và ghi nhận các lịch sử giao dịch sau này Việc này giúp giảm thiểu tình trạng trùng lặp thông tin khách hàng, cung cấp dữ liệu đầy đủ để phân nhóm khách hàng chính xác hơn Nhờ đó, doanh nghiệp có thể xây dựng các chiến dịch chăm sóc khách hàng hiệu quả, nâng cao trải nghiệm và tăng doanh số bán hàng.
Trong quản trị nhân sự
Quản trị nhân sự là quá trình liên tục bắt đầu từ khi xây dựng kế hoạch tuyển dụng cho đến khi nhân viên rời khỏi công ty, đòi hỏi sự quản lý chặt chẽ và hiệu quả Việc lưu trữ và cập nhật dữ liệu nhân sự trên giấy tờ hay file dễ gây ra tình trạng dữ liệu không đồng bộ, gây khó khăn trong việc theo dõi và quản lý thông tin nhân viên Sử dụng phần mềm quản lý nhân sự phù hợp sẽ giúp ban lãnh đạo và bộ phận quản lý doanh nghiệp nắm bắt dễ dàng các thông tin nhân sự, nâng cao hiệu quả quản lý và giảm thiểu sai sót Công nghệ số hóa dữ liệu nhân sự góp phần tối ưu hóa quy trình tuyển dụng, quản lý chấm công, lương thưởng và phát triển nhân viên toàn diện.
- Đánh giá hiệu quả của các đợt tuyển dụng,
Hệ thống quản trị nhân sự lưu trữ đồng bộ thông tin nhân sự từ trước, trong quá trình làm việc và sau khi rời khỏi công ty, bao gồm lý lịch nhân sự, các quyết định liên quan, kết quả đánh giá hiệu suất, mức lương, khen thưởng, kỷ luật, quy hoạch, thăng chức, Giải pháp phần mềm quản trị nhân sự giúp quản lý dữ liệu nhân sự một cách bài bản, khoa học và dễ dàng truy cập.
Thông tin được đảm bảo đồng bộ, sẵn sàng và duy nhất, không trùng lặp để duy trì tính nhất quán trong hệ thống Chỉ những bộ phận hoặc cá nhân đã được phân quyền mới có quyền xem hoặc sửa đổi dữ liệu, giúp bảo vệ tính bảo mật và integrity của thông tin quan trọng.
Khai phá d ữ li ệ u và khai phá d ữ li ệ u bán hàng siêu
Khái niệm khai phá dữ liệu [1], [34], [35], [36]
Khai phá dữ liệu là quá trình phát hiện tri thức tiềm ẩn trong các cơ sở dữ liệu lớn, giúp nâng cao khả năng dự báo trong kinh doanh và sản xuất Quá trình này giảm thiểu thời gian và công sức so với phương pháp truyền thống như thống kê, mang lại lợi ích về hiệu quả và chi phí.
Khai phá dữ liệu là công nghệ mới, mạnh mẽ với tiềm năng lớn trong lĩnh vực phân tích dữ liệu Công nghệ này giúp các tổ chức và doanh nghiệp tập trung vào những thông tin quan trọng nhất từ dữ liệu thu thập về hành vi khách hàng và khách hàng tiềm năng Nhờ khai phá dữ liệu, các công ty có thể phát hiện những insights quan trọng mà các truy vấn và báo cáo truyền thống không thể tiết lộ một cách hiệu quả.
Qui trình khai phá dữ liệu [1], [34], [35], [36]
Làm sạch dữ liệu là bước quan trọng hàng đầu trong quá trình phân tích dữ liệu để đảm bảo độ chính xác và độ tin cậy của kết quả Dữ liệu thực tế thường gặp phải tình trạng thiếu sót, chứa lỗi hoặc ngoại lệ, đồng thời không luôn nhất quán, gây ảnh hưởng đến chất lượng phân tích Ví dụ, dữ liệu nhân khẩu học của khách hàng có thể thiếu các thuộc tính như giới tính hoặc độ tuổi, làm cho dữ liệu trở nên không đầy đủ Nếu dữ liệu không sạch, các kết quả khai phá dữ liệu sẽ không chính xác và khó tin cậy, do đó việc xử lý dữ liệu trước khi phân tích là rất cần thiết để đảm bảo dữ liệu đáp ứng các yêu cầu phân tích và SEO.
Làm sạch dữ liệu là quá trình sử dụng các kỹ thuật như điền vào các giá trị còn thiếu bằng tay hoặc kết hợp kiểm tra của máy móc và con người để đảm bảo dữ liệu chính xác Mục tiêu của quy trình này là tạo ra dữ liệu sạch và đầy đủ, giúp nâng cao hiệu quả phân tích và ra quyết định dựa trên dữ liệu.
Tích hợp dữ liệu là quá trình hợp nhất dữ liệu từ nhiều nguồn khác nhau thành một hệ thống thống nhất, giúp đảm bảo tính toàn vẹn và nhất quán dữ liệu Quá trình này gặp nhiều thách thức như dữ liệu có định dạng và vị trí khác nhau, tồn tại trong các cơ sở dữ liệu, tệp văn bản, bảng tính, hoặc trên internet Một trong những vấn đề lớn là dữ liệu không phù hợp hoặc trùng lặp, gây ra dư thừa và khó khăn trong việc quản lý và phân tích Vì vậy, tích hợp dữ liệu đóng vai trò quan trọng trong việc tối ưu hóa quản lý và khai thác thông tin hiệu quả.
Quá trình khai phá dữ liệu yêu cầu một cơ sở dữ liệu lớn để phân tích hiệu quả Thường thì kho lưu trữ dữ liệu chứa lượng dữ liệu vượt quá yêu cầu thực tế, nhằm đảm bảo khả năng linh hoạt trong phân tích Từ dữ liệu có sẵn, việc chọn lọc dữ liệu quan trọng giúp tập trung vào những thông tin cần thiết cho quá trình phân tích Quá trình lựa chọn dữ liệu liên quan đến việc xác định và trích xuất dữ liệu liên quan từ cơ sở dữ liệu để đạt được hiệu quả tối ưu trong khai thác dữ liệu.
Chuyển đổi dữ liệu là quá trình biến đổi và hợp nhất dữ liệu thành các dạng phù hợp để phục vụ khai phá dữ liệu hiệu quả Quá trình này thường bao gồm các bước như chuẩn hóa dữ liệu để đảm bảo tính nhất quán, tổng hợp dữ liệu để tóm tắt thông tin quan trọng, và tổng quát hóa nhằm giảm độ phức tạp của dữ liệu Việc chuyển đổi dữ liệu đúng cách giúp nâng cao chất lượng phân tích và hỗ trợ ra quyết định chính xác hơn trong hệ thống khai phá dữ liệu.
Khai phá dữ liệu là quá trình cốt lõi trong phân tích dữ liệu, giúp trích xuất các mẫu và kiến thức hữu ích từ dữ liệu phức tạp Các phương pháp khai phá dữ liệu hiện đại bao gồm liên kết, phân loại, dự đoán, phân cụm và phân tích chuỗi thời gian, nhằm tối ưu hóa quá trình ra quyết định và dự báo kết quả Quá trình này ứng dụng các kỹ thuật thông minh và phức tạp để khai thác giá trị ẩn chứa trong dữ liệu, hỗ trợ các doanh nghiệp và tổ chức trong việc đưa ra các chiến lược dựa trên dữ liệu chính xác và kịp thời.
Đánh giá mẫu nhằm xác định những mẫu thực sự thú vị và hữu ích, đồng thời đảm bảo chúng đại diện chính xác cho tổng thể dữ liệu Một mô hình được xem là tốt nếu nó có khả năng cung cấp những thông tin hữu ích, dễ hiểu cho con người và có thể xác nhận hoặc làm rõ các giả thuyết mong muốn với mức độ chắc chắn cao Quá trình này giúp đảm bảo tính hợp lệ của mô hình khi áp dụng trên dữ liệu mới, nâng cao khả năng dự đoán và ra quyết định chính xác.
Thông tin khai phá từ dữ liệu phải được trình bày một cách hấp dẫn và dễ hiểu cho người dùng Các kỹ thuật biểu diễn và trực quan hóa kiến thức đa dạng được áp dụng để chuyển đổi kết quả khai thác dữ liệu thành các sơ đồ, bảng biểu dễ nhìn Điều này giúp lãnh đạo doanh nghiệp nắm bắt rõ ràng các kết quả phân tích dữ liệu, từ đó dễ dàng xem xét các đề xuất và đưa ra các chiến lược phù hợp với mục tiêu kinh doanh.
2.3.2 Khai phá dữ liệu bán hàng siêu thị
Khai phá dữ liệu bán hàng siêu thị là kỹ thuật phân tích marketing quan trọng giúp các siêu thị biến dữ liệu thô thành những thông tin hữu ích để hiểu rõ hơn về khách hàng Bằng cách sử dụng phần mềm phân tích dữ liệu lớn, các siêu thị có thể phát hiện các mẫu hành vi, từ đó xây dựng chiến lược marketing hiệu quả hơn để tăng doanh số, giảm chi phí và tối đa hóa lợi nhuận Quá trình này phụ thuộc vào việc thu thập dữ liệu chính xác, lưu trữ dữ liệu trong hệ thống cơ sở dữ liệu và áp dụng các thuật toán xử lý dữ liệu phù hợp để khai thác thông tin giá trị.
Trong bài viết này, chúng tôi tập trung nghiên cứu các thuật toán khai phá dữ liệu liên quan đến giỏ hàng điện tử, bao gồm các yếu tố như định danh khách hàng, các giỏ hàng đã lưu trữ và các thông tin đi kèm như giá trị mua hàng Các thuật toán này giúp phân tích hành vi người tiêu dùng và khám phá các mẫu mua sắm tiềm năng, từ đó tối ưu hóa chiến lược marketing và nâng cao trải nghiệm khách hàng Việc áp dụng khai phá dữ liệu trên giỏ hàng không chỉ giúp xác định các sản phẩm phổ biến mà còn hỗ trợ đề xuất sản phẩm phù hợp, góp phần tăng doanh số bán hàng trực tuyến.
Quá trình khai phá dữ liệu về giá cả các mặt hàng giúp xác định các mặt hàng hoặc nhóm mặt hàng thường xuyên xuất hiện phổ biến theo ngưỡng do nhà quản lý đặt ra Dữ liệu này hỗ trợ các nhà hoạch định siêu thị (Ban lãnh đạo, Tổng giám đốc, Giám đốc chi nhánh, trưởng nhóm/bộ phận) đưa ra các đề xuất và quyết định đầu tư phù hợp vào các mặt hàng hoặc nhóm mặt hàng tiềm năng trong tương lai.
Chương 3 trình bày nội dung chính về các thuật toán khai phá TMTX, đặc biệt là khai phá TMTX với trọng số thích nghi Đây là phần cốt lõi của đề tài nghiên cứu khoa học và công nghệ do nhóm tác giả thực hiện.
ỨNG DỤNG MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU HỖ TRỢ PHÂN TÍCH CƠ SỞ D Ữ LI Ệ U BÁN HÀNG SIÊU TH Ị
Ứ ng d ụ ng thu ậ t toán khai phá t ậ p m ục thường xuyên phân tích cơ sở d ữ li ệ u bán hàng siêu thị
3.1.1 Ứng dụng thuật toán MFIMT khai phá TMTX đa ngưỡng Đặt bài toán
Trong một siêu thị kinh doanh các mặt hàng như bàn chải (BC), kem đánh răng (KR), bột giặt (BG), dầu gội (DG), sữa tắm (ST) và xà phòng (XP), dữ liệu về các giỏ hàng được lưu trữ trong hệ thống cơ sở dữ liệu giao tác Các thông tin trong cơ sở dữ liệu đã được mã hóa để bảo vệ danh tính từng mặt hàng, với các mã hóa tương ứng là a, b, c, d, e và f Việc mã hóa này giúp đảm bảo an toàn và bảo mật dữ liệu của khách hàng khi quản lý các giao dịch mua bán.
Yêu cầu bài toán: Tại cùng thời điểm, với các ngưỡng độ hỗ trợ khác nhau (được qui định bởi nhà quản lí) tương ứng là: 0.85, 0.5, 0.6, 0.55, 0.65, 0.7, 0.75, 0.8
- Mặt hàng/nhóm các mặt hàng nào phổ biến xuất hiện cùng nhau trong các giỏ hàng?
Trong quản lý tồn kho, mức độ quan trọng của mặt hàng hoặc nhóm mặt hàng phổ biến xuất hiện là yếu tố quyết định Ngưỡng độ hỗ trợ được quy định bởi nhà quản lý nhằm xác định mức độ phổ biến của các mặt hàng, dựa trên tỷ lệ phần trăm xuất hiện của chúng Nếu phần trăm các mặt hàng hoặc nhóm mặt hàng vượt quá ngưỡng độ hỗ trợ này, nhà quản lý có thể đưa ra quyết định đầu tư vào các mặt hàng đó nhằm tối ưu hóa lợi nhuận và đảm bảo nguồn cung phù hợp.
Bảng 4 Dữ liệu các giỏ hàng bán ra của siêu thị (sau mã hóa tên hàng)
Tiến hành thực hiện các bước của thuật toán MFIMT theo trình tự dưới đây:
Bước 1: Sắp xếp các ngưỡng độ hỗ trợ tối thiểu theo thứ tự tăng dần ta được: εt 1 < εt 2 < ⋯ < εt k (với k=8)
Bước 2: Thực hiện thuật toán Apriori, với ngưỡng độ hỗ trợ tối thiểu ε t 1 = 0.5(50%)
Quá trình thực hiện thuật toán Apriori được minh họa như sau:
- Duyệt CSDL giao tác lần thứ nhất, tính độ hỗ trợ (SC) của các mục đơn
Dựa trên các chỉ số SC (Silhouette Coefficient), đem loại bỏ các tập "b" và "f" vì không đáp ứng tiêu chuẩn ε t 1 = 0.5, ta thu được tập L 1 gồm các phần tử {a, c, d, e} Sau đó, tiến hành kết nối L 1 với chính nó để tạo thành tập các cặp 2-tập mục tiêu C 2 gồm các phần tử {ac, ad, ae, cd, ce, de}.
Trong C2 không có tập nào chứa các mục đơn không phải là TMTX, do vậy C2 không bị tỉa tập mục nào
- Duyệt CSDL giao tác lần thứ hai, tính độ hỗ trợ của các 2-tập mục ứng viên
SC(ac) = 0.6, SC(ad) = 0.7, SC(ae) = 0.8, SC(cd) = 0.6, SC(ce) = 0.7, SC(de) = 0.8.
Các 2-tập mục đều thỏa ε t 1 , do vậy: L 2 = {ac, ad, ae, cd, ce, de}.
Kết nối L2 với L2 được các 3-tập mục ứng viên C3 = {acd, ace, ade, cde}.
Trong C3 không có tập nào chứa các tập mục không phải là TMTX, do vậy C3 không bị tỉa tập mục nào
- Duyệt CSDL giao tác lần thứ ba, tính độ hỗ trợ của các 3-tập mục ứng viên
SC(acd) = 0.5, SC(ace) = 0.6, SC(ade) = 0.7, SC(cde) = 0.6.
Ta được L 3 = {acd, ace, ade, cde}.
Cuối cùng, ta thu được tập các TMTX cùng với sốđộ hỗ trợtương ứng là:
FI 1 = { a: 0.8, c: 0.8, d: 0.8, e: 0.9, ac: 0.6, ad: 0.7, ae: 0.8, cd: 0.6, ce: 0.7, de: 8, acd: 0.5, ace: 0.6, ade: 0.7, cde: 0.6}.
Bước 3: Thực hiện chu trình lặp với i=2,3, ,k để xét cho các ngưỡng độ hỗ trợ tối thiểu εt 2 , … , εt k (k=8)
+ Với i=2: Ngưỡng độ hỗ trợ tối thiểu ε t 2 = 0.55 Từ tập FP1 loại bỏ tập mục acd:0.5 không thỏa mãn ngưỡng εt 2 , ta thu được tập các TMTX FP2
FI 2 = {a: 0.8, c: 0.8, d: 0.8, e: 0.9, ac: 0.6, ad: 0.7, ae: 0.8,cd: 0.6, ce: 0.7, de: 8, ace: 0.6, ade: 0.7, cde: 0.6 }.
Với i=3, ngưỡng độ hỗ trợ tối thiểu εt3 được đặt là 0.6 Từ tập FP2, tất cả các tập mục đều đáp ứng ngưỡng εt3 này nên không có tập mục nào bị loại bỏ Điều này dẫn đến việc thu được tập các tập mục mới gọi là TMTX FP3, phản ánh các quy tắc kết hợp thỏa mãn tiêu chuẩn hỗ trợ tối thiểu đề ra.
FI 3 = {a: 0.8, c: 0.8, d: 0.8, e: 0.9, ac: 0.6, ad: 0.7, ae: 0.8,cd: 0.6, ce: 0.7, de: 8, ace: 0.6, ade: 0.7, cde: 0.6 }.
Tương tự với quá trình lập luận như trên Kết quả ta thu được bảng các TMTX cùng với các độ hỗ trợ tương ứng như bảng 5 dưới đây
Bảng 5 Bảng các tập TMTX tương ứng với các ngưỡng
TMTX FI 1 FI 2 FI 3 FI 4 FI 5 FI 6 FI 7 FI 8
Bài viết giới thiệu 36 nhóm phổ biến và mức độ hỗ trợ của chúng, giúp hiểu rõ các yếu tố ảnh hưởng đến quá trình chọn lựa Các nhóm này có mức độ hỗ trợ đa dạng từ 0.6 đến 0.9, phù hợp với nhiều mục đích sử dụng khác nhau Các nhóm A, C, D, E đều cung cấp các hỗ trợ mạnh mẽ, với mức độ hỗ trợ từ 0.8 đến 0.9, đảm bảo tính ổn định và hiệu quả cao Sự phối hợp giữa các nhóm như ACE, ADE, CDE cho thấy sự đa dạng và linh hoạt trong việc tối ưu hóa kết quả Việc hiểu rõ các nhóm phổ biến cùng mức độ hỗ trợ giúp người dùng lựa chọn phù hợp, nâng cao hiệu suất hoạt động Trong đó, các nhóm như AE, DE, và E đều thể hiện mức hỗ trợ cao, từ 0.8 đến 0.9, phù hợp cho các nhu cầu cần sự tối ưu và mạnh mẽ nhất.
Sau quá trình mã hóa các mặt hàng từ bảng 5, chúng ta đã xác định được các nhóm hàng thường xuyên xuất hiện và các mặt hàng xuất hiện cùng nhau, dựa trên các ngưỡng đã thiết lập trong các bảng từ 6 đến 10 Phân tích này giúp làm rõ các xu hướng mua hàng phổ biến, từ đó tối ưu hóa chiến lược bán hàng và tăng cường hiệu quả tiếp thị Việc xác định các mặt hàng liên quan cùng nhau cung cấp dữ liệu quý báo để đề xuất các chương trình khuyến mãi phù hợp, nâng cao trải nghiệm khách hàng và thúc đẩy doanh thu.
Dựa trên Bảng 6, các mặt hàng hoặc nhóm hàng thường xuyên xuất hiện với nhau, trong đó mặt hàng bàn chải có tần suất xuất hiện cao nhất với hệ số 0.8, cho thấy sự liên kết mạnh mẽ giữa các sản phẩm này Đây là thông tin quan trọng giúp hiểu rõ hơn về thói quen tiêu dùng và xu hướng mua sắm của khách hàng Việc phân tích các nhóm mặt hàng thường xuyên xuất hiện cùng nhau có thể hỗ trợ doanh nghiệp trong việc lập kế hoạch kinh doanh, phân phối hàng hóa và tối ưu chiến lược marketing để tăng doanh số.
Bàn chải, Bột giặt, Dầu gội:0.5
Bàn chải, Bột giặt, Sữa tắm:0.6
Bàn chải, Dầu gội, Sữa tắm:0.7
Bột giặt, Dầu gội Sữa tắm:0.6
Bàn chải, Bột giặt:0.6 Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8 Bột giặt, Dầu gội:0.6 Bột giặt, Sữa tắm:0.7
Dầu gội, Sữa tắm:0.8 Bàn chải, Bột giặt, Dầu gội:0.5 Bàn chải, Bột giặt, Sữa tắm:0.6
Bàn chải, Dầu gội, Sữa tắm:0.7
Bột giặt, Dầu gội Sữa tắm:0.6
Bảng 7 trình bày các mặt hàng hoặc nhóm hàng thường xuyên xuất hiện cùng nhau dựa trên ngưỡng 𝛆𝐭 𝟐 = 0.55 và 𝛆𝐭 𝟑 = 0.60, cho thấy các sản phẩm như bàn chải có mức độ xuất hiện cùng nhau cao trên 0.8 Các nhóm mặt hàng này thường xuyên xuất hiện cùng nhau, phản ánh mối liên hệ và xu hướng tiêu dùng phổ biến trong dữ liệu Việc phân tích các mặt hàng thường xuyên xuất hiện cùng nhau giúp doanh nghiệp hiểu rõ hơn về thói quen mua sắm của khách hàng để tối ưu hóa chiến lược tiếp thị và lưu kho.
Bàn chải, Bột giặt:0.6 Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8
Bàn chải, Bột giặt, Sữa tắm:0.6
Bàn chải, Dầu gội, Sữa tắm:0.7
Bột giặt, Dầu gội Sữa tắm:0.6
Bột giặt, Dầu gội:0.6 Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8 Bàn chải, Bột giặt, Sữa tắm:0.6 Bàn chải, Dầu gội, Sữa tắm:0.7
Bột giặt, Dầu gội Sữa tắm:0.6
Bảng 8 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆 𝐭 𝟒 = 𝟎 𝟔𝟓 𝐯à 𝛆 𝐭 𝟓 = 𝟎 𝟕 Mặt hàng/nhóm hàng thường xuyên xuất hiện
Các nhóm mặt hàng thường xuyên xuất hiện cùng nhau Bàn chải:0.8
Bàn chải, Dầu gội, Sữa tắm:0.7
Bàn chải, Dầu gội:0.7 Bàn chải, Sữa tắm:0.8
Bột giặt, Sữa tắm:0.7 Dầu gội, Sữa tắm:0.8 Bàn chải, Dầu gội, Sữa tắm:0.7
Dưới đây là các mặt hàng/nhóm hàng thường xuyên xuất hiện cùng nhau dựa trên ngưỡng 𝛆 𝑡 6 = 0.75 và 𝛆 𝑡 7 = 0.8 Trong số đó, bàn chải là mặt hàng phổ biến, thường xuyên xuất hiện cùng các nhóm mặt hàng khác, cho thấy mối liên hệ chặt chẽ trong thói quen tiêu dùng Việc xác định các mặt hàng này giúp doanh nghiệp tối ưu hóa chiến lược bán hàng và tiếp thị dựa trên hành vi mua sắm của khách hàng.
Bàn chải, Sữa tắm:0.8 Dầu gội, Sữa tắm:0.8
Bảng 10 Bảng mặt hàng/nhóm hàng thường xuyên xuất hiện và xuất hiện cùng nhau với ngưỡng 𝛆𝐭 𝟖 = 𝟎 𝟖𝟓
Mặt hàng/nhóm hàng thường xuyên xuất hiện
Các nhóm mặt hàng thường xuyên xuất hiện cùng nhau
Phân tích, đánh giá kết quả khai phá
Trong quá trình khai phá dữ liệu, chúng tôi đã xác định các bảng mặt hàng và nhóm hàng thường xuyên xuất hiện cùng nhau dựa trên ngưỡng độ hỗ trợ tối thiểu từ bảng 6 đến bảng 10 Các phân tích này giúp hiểu rõ hơn về mối liên hệ giữa các mặt hàng, từ đó nâng cao hiệu quả chiến lược marketing và tối ưu hóa quản lý tồn kho Kết quả thu được cung cấp những thông tin giá trị để phát triển các chiến lược bán hàng phù hợp, đồng thời giúp doanh nghiệp nắm bắt xu hướng tiêu dùng một cách chính xác hơn.
- Với các ngưỡng độ hỗ trợ tối thiểu tăng dần thì số các mặt hàng/nhóm hàng xuất hiện thường xuyên là giảm dần
- Với ngưỡng độ hỗ trợ tối thiểu nhỏ nhất (ε t 1 =0.5) và kết quả trong bảng 4 nhận thấy:
+ Thu được tập 14 mặt hàng/nhóm hàng thường xuyên (cột 1 trong bảng 6)
Trong phân tích mức độ quan trọng của các mặt hàng, sữa tắm chiếm vị trí quan trọng nhất với điểm số 0.9, tiếp theo là bàn chải và bột giặt cùng đạt 0.8, cũng như dầu gội với mức độ quan trọng tương tự Trong khi đó, các mặt hàng như bột giặt, dầu gội, và sữa tắm có mức độ quan trọng thấp nhất, cùng đạt 0.6, được thể hiện rõ trong bảng 6.
Trong các giỏ hàng mua sắm phổ biến, có 10 cụm mặt hàng thường xuyên xuất hiện cùng nhau, nổi bật nhất là “Bàn chải, Bột giặt”, tiếp theo là các bộ sản phẩm kết hợp như “Bàn chải, Bột giặt, Dầu gội” và “Bàn chải, Bột giặt, Sữa tắm” Ngoài ra, các mặt hàng như “Bột giặt, Dầu gội, Sữa tắm” cũng thường xuyên xuất hiện cùng nhau trong các giỏ hàng mua sắm của người tiêu dùng Những xu hướng này phản ánh sự liên kết giữa các sản phẩm vệ sinh cá nhân và gia đình, giúp các nhà bán lẻ hiểu rõ hơn về hành vi mua sắm để tối ưu hoá chiến lược tiếp thị.
Các mặt hàng thường xuyên xuất hiện cùng nhau theo thứ tự mức độ quan trọng từ lớn nhất đến nhỏ nhất bao gồm "Bàn chải và Sữa tắm" với chỉ số liên kết 0.8, tiếp theo là "Dầu gội và Sữa tắm" cũng có chỉ số 0.8, và cuối cùng là "Bột giặt, Dầu gội và Sữa tắm" với chỉ số liên kết 0.6, thể hiện mức độ phổ biến và tương tác cao giữa các mặt hàng này trong các giao dịch mua sắm.
+ Mức độ quan trọng nhỏ nhất của nhóm các mặt hàng xuất hiện cùng nhau là
“Bàn chải, Bột giặt, Dầu gội:0.5”
- Với hai ngưỡng độ hỗ trợ tối thiểu ε t 2 = 0.55 và ε t 3 = 0.6 và kết quả trong bảng 7 nhận thấy:
Trong phân tích dữ liệu, số các mặt hàng hoặc nhóm hàng xuất hiện thường xuyên đều bằng nhau, với con số là 13, cho thấy sự đồng đều trong tần suất xuất hiện của các mặt hàng này Ngoài ra, số các mặt hàng hoặc nhóm hàng xuất hiện cùng nhau thường xuyên cũng đều bằng nhau, với tổng cộng là 9, phản ánh mối liên hệ chặt chẽ giữa các nhóm hàng trong tập dữ liệu Kết quả thu được từ phân tích cho thấy tập hợp gồm 13 mặt hàng hoặc nhóm hàng thường xuyên (được thể hiện trong cột 1 của bảng 7), góp phần cung cấp cái nhìn rõ nét về các xu hướng mua sắm phổ biến của người tiêu dùng.
+ Mức độ quan trọng lần lượt từ lớn nhất đến nhỏ nhất của của 13 mặt hàng/nhóm hàng là: “Sữa tắm:0.9”, “Bàn chải:0.8”, “Bột giặt:0.8”, “Dầu gội:0.8”, …,
“Bột giặt, Dầu gội, Sữa tắm:0.6” (cột 2 trong bảng 9)
Trong dữ liệu mua hàng thường xuyên, có 9 giỏ hàng phổ biến với các mặt hàng xuất hiện cùng nhau, điển hình như bộ đôi "Bàn chải và Bột giặt", bộ ba gồm "Bàn chải, Bột giặt và Dầu gội", hoặc "Bàn chải, Bột giặt và Sữa tắm" Ngoài ra, còn có các lần ghép mặt hàng như "Bột giặt, Dầu Gội và Sữa tắm" giúp hiểu rõ xu hướng mua sắm của người tiêu dùng và tối ưu hóa chiến lược bán hàng Những kết hợp này thể hiện mối liên hệ chặt chẽ giữa các sản phẩm trong hành vi tiêu dùng hàng ngày.