1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng công cụ hỗ trợ kinh doanh tại siêu thị miễn thuế thế kỷ vàng

10 275 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 10
Dung lượng 272 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Có thể nói sự thành công của khám phá dữ liệu chính là sự kết hợp các kỹ thuật từ những lĩnh vực khác như trí tuệ nhân tạo, học máy, xác xuất thống kê, lý thuyết thông tin, cơ sở dữ liệu

Trang 1

Tóm tắt luận văn thạc sĩ CNTT

Tên đề tài:

Xây dựng công cụ hỗ trợ kinh doanh tại siêu thị miễn thuế Thế Kỷ Vàng

Học viên: Phan Mạnh Thường khóa:1

Người hướng dẫn: TS.Trần Hành

Nội dung:

1 Tổng quan:

Khám phá dữ liệu hay còn được gọi là khám phá tri thức từ dữ liệu đã thu hút sự quan tâm trong giới khoa học máy tính và công nghệ tri thức Nhiều kết quả nghiên cứu được áp dụng hiệu quả vào thực tế cho thấy đây là một việc làm thiết thực chứ không đơn thuần là lý thuyết Có thể nói sự thành công của khám phá dữ liệu chính là sự kết hợp các kỹ thuật từ những lĩnh vực khác như trí tuệ nhân tạo, học máy, xác xuất thống kê, lý thuyết thông tin, cơ sở dữ liệu và tính toán hiệu xuất cao Nhiệm vụ của khám phá dữ liệu rất rộng lớn bao gồm việc phân lớp, dự báo, gom nhóm, khám phá những quy luật kết hợp, khám phá mẫu tuần tự Những lĩnh vực được áp dụng khám phá dữ liệu thì rất nhiều bao gồm các ứng dụng trong thương mại, tài chính, ngân hàng, sinh học, y khoa, giáo dục, truyền thông và cả quân sự…

Bên cạnh yếu tố về con người thì những thông tin, quy luật rút ra được từ việc phân tích và xử lý dữ liệu trong kinh doanh đóng vai trò rất quan trọng liên quan đến thành công hoặc thất bại của một doanh nghiệp Việc nắm bắt kịp thời những thông tin thị trường sẽ giúp cho doanh nghiệp chủ động trong việc tìm ra những chiến lược, kế hoạch kinh doanh phù hợp và đem lại hiệu quả cao Siêu thị miễn thuế Thế Kỷ Vàng là một trong các siêu thị trực thuộc của Cty TNHH Thương mại Duy Anh, trụ sở chính đặt tại 202 Hoàng Văn Thụ, Q.Phú Nhuận,

Trang 2

TP HCM Ban quản lý siêu thị luôn có sự quan tâm đặt mục tiêu nâng cao doanh số và phát hiện, chăm sóc tốt các khách hàng tiềm năng của mình, tuy nhiên họ còn thiếu những thông tin hỗ trợ cho việc này

Nguồn dữ liệu kinh doanh trực tiếp của siêu thị được quản lý bởi hệ thống phần mềm bán hàng tại các quầy hàng và cơ sở dữ liệu lưu trữ trên các máy chủ, nguồn dữ liệu này rất lớn và liên tục gia tăng theo thời gian Tuy nhiên hệ thống phần mềm này lại không có chức năng phân tích dữ liệu tốt, do đó nhu cầu về một công cụ có khả năng khai phá những thông tin quý giá từ nguồn dữ liệu trên để hỗ trợ cho kinh doanh là rất cần thiết

Kỹ thuật khai phá luật kết hợp có khả năng áp dụng tốt trong việc khai

phá mối liên hệ giữa các mặt hàng trong dữ liệu giao tác qua đó thể hiện xu hướng và thị hiếu tiêu dùng chung của đa số khách hàng Những thông tin khai phá được sẽ giúp ích cho nhiều vấn đề, ví dụ như cải thiện cách thức trưng bày, giới thiệu hàng hoá trong siêu thị, kế hoạch nhập xuất kho, khuyến mãi …

2 Vấn đề giải quyết:

Xử lý khối lượng dữ liệu lớn: Hiện tại, siêu thị có khoảng 10000 mặt hàng

các loại, mỗi tháng số hoá đơn bán ra trung bình khoảng 200000 hoá đơn Sau khi lọc bỏ bớt những mặt hàng không thông dụng (dựa trên một truy vấn SQL theo doanh số và số lượng) thì còn khoảng từ 2000 đến 3000 mặt hàng trong các giao tác Với số lượng item và giao tác như trên nếu dùng thuật toán dựa trên Apriori hoặc thuật toán khác nhưng phải qua giai đoạn phát sinh tập ứng viên sẽ không hiệu quả do hiện tượng bùng nổ tổ hợp

Dữ liệu có các thuộc tính số và phân loại: cụ thể là các thuộc tính như: số

lượng, doanh thu, phân loại mặt hàng, giới tính, độ tuổi… Vì thế việc áp dụng thuật toán khai phá luật kết hợp nhị phân sẽ khó khăn, hơn nữa các luật tìm được có thể không chính xác do vấn đề rời rạc hoá dữ liệu gây nên Thêm

Trang 3

vào đó, các luật này quá cụ thể và không hàm chứa ý nghĩa giải thích (dễ hình dung, dễ hiểu với người dùng)

Khai phá luật kết hợp: như vấn đề đã nêu, do khối lượng dữ liệu lớn và

bao gồm các thuộc tính số, phân loại nên việc chọn một thuật toán khai phá phù hợp và hiệu quả là vấn đề cần quan tâm khi ứng dụng vào thực tế Đối với các thuộc tính phân loại, ta có thể dùng kỹ thuật tổng quát hoá để xử lý, tuy nhiên việc này có thể dẫn đến gia tăng kích thước dữ liệu và khó khăn khi chọn phân loại để tổng quát Đối với các thuộc tính số, nếu áp dụng các phương pháp rời rạc hoá dữ liệu sẽ dẫn đến một số vấn đề như: kích thước dữ liệu gia tăng do số item gia tăng theo các khoảng chia rời rạc của thuộc tính số, các luật tìm được có độ chính xác không cao và quan trọng hơn là nó không mang yếu tố ngữ nghĩa, khó hiểu với người dùng không chuyên Vấn đề này có thể được giải quyết khi sử dụng kỹ thuật khai phá luật kết hợp mờ, kỹ thuật này sẽ cho ra các luật có độ chính xác tương đối, dễ hiểu, dễ giải thích do việc sử dụng các nhãn để rời rạc hoá dữ liệu và chứa đựng thông tin thú vị, hữu ích

3 Cách giải quyết:

Khai phá luật kết hợp tổng quát mờ

o Ứng dụng lý thuyết tập mờ trong việc rời rạc hoá dữ liệu số có giá trị liên tục

o Trình bày thuật toán khai phá luật kết hợp tổng quát mờ với cải tiến dựa trên cấu trúc cây FP nhằm gia tăng hiệu quả của thuật toán Việc sử dụng cấu trúc cây FP giúp cô đọng thông tin trong database đồng thời cũng cho phép tìm kiếm các tập phổ biến mà không cần phải qua giai đoạn phát sinh các ứng viên Hơn nữa việc sử dụng cây

Trang 4

FP giúp giảm thiểu tối đa số lần phải duyệt database làm tăng hiệu quả thực thi

4 Các đóng góp chính của luận văn:

Áp dụng các kỹ thuật khai phá dữ liệu trong việc xây dựng triển khai cài đặt ứng dụng khai phá dữ liệu dựa trên dữ liệu kinh doanh của siêu thị miễn thuế Thế Kỷ Vàng (Golden Century) thuộc công ty TNHH Duy Anh

Ngoài ra luận văn cũng đề xuất một thuật toán cải tiến cho việc khai khoáng các mẫu phổ biến mà không cần phát sinh ứng viên nhằm gia tăng hiệu quả thực thi Thuật toán này sử dụng cấu trúc cây Frequent Pattern (FP-tree) , nó là một cấu trúc cây tiền tố mở rộng để lưu trữ cô đọng các thông tin chủ yếu về các mẫu phổ biến và phát triển một phương pháp hiệu quả là FP-Growth để khai khoáng tập đầy đủ các mẫu phổ biến bằng cách đệ quy gia tăng chiều dài mẫu Hiệu quả của thuật toán được thể hiện qua các yếu tố :

o Thu gọn cơ sở dữ liệu lớn nhằm giảm chi phí khi lặp lại quá trình duyệt cơ sở dữ liệu

o Khai phá dựa trên cây FP làm theo phương pháp gia tăng độ dài các mẫu để tránh chi phí phát sinh một số lượng lớn các tập ứng viên

o Phương pháp phân chia để tách công việc khai khoáng thành một tập các công việc nhỏ hơn để khai khoáng các mẫu có ràng buộc trong các cơ sở dữ liệu có điều kiện

Trang 5

5 Phần cài đặt:

Một số thông tin kỹ thuật liên quan đến chương trình cài đặt được liệt kê trong bảng 1 bên dưới

Bảng 1 : Thông tin chương trình cài đặt

Thơng tin chương trình cài đặt

Cơng cụ phát triển MS Visual Studio IDE 6.0

Cấu hình máy chạy (tối thiểu) PC CPU 1.2GHz, RAM 256MB, HDD 10GB…

Dựa vào CSDL bán hàng của Siêu thị miễn thuế Thế Kỷ Vàng, xây dựng công cụ khai phá luật kết hợp mờ với một số giao diện chức năng:

Giao diện chính

Trang 6

Giao diện hiệu chỉnh cấu trúc phân cấp Taxonomy

Giao diện khai báo hàm thành viên

Trang 7

Giao diện khai phá luật kết hợp

Giao diện kết quả

Trang 8

6 Tài liệu tham khảo:

Tiếng việt

[1] Hồng Kiếm, Đỗ Văn Nhơn, Đỗ Phúc (2002), Các Hệ Cơ sở tri thức [2] Đỗ Phúc (2004), Giáo trình Data warehouse – Data mining,

TTCNTT-ĐHQG TPHCM

[3] Phạm Thị Bạch Huệ (2001), Khai khống dữ liệu- Tìm luật cĩ hiệu quả ứng dụng cao từ tập luật kết hợp, Luận văn Thạc sĩ Tin Học, Trường Đại

học KHTN, TP.HCM

[4] Nguyễn Hà Giang (2004), Khám phá luật kết hợp mờ và ứng dụng, Luận

văn Thạc sĩ Tin học, Trường Đại học Khoa học Tự Nhiên.

[5] Lê Thanh Minh (2002), Khai khống dữ liệu phục vụ giáo dục và đào tạo tại Kiên Giang, Luận văn Thạc sĩ Tin học, Trường Đại học KHTN,

TP.HCM

[6] Nguyễn Quốc Thơng (2002), Phát triển một số ứng dụng khai thác dữ liệu vào giáo dục đào tạo, Luận văn Thạc sĩ Tin học, trường Đại học

KHTN, TP.HCM.

[7] Nguyễn Đăng Tỵ (2001), Ứng dụng khai khống dữ liệu trong phân tích

dữ liệu thống kê, Luận văn Thạc sĩ Tin học, Trường Đại học KHTN,

TP.HCM.

[8] Hồ Anh Tài (2004), Ứng dụng kỹ thuật khai thác dữ liệu trong nghiệp vụ

xử lý cước điện thoại tại bưu điện tỉnh Ninh Thuận, Luận văn Thạc sĩ Tin

học, trường Đại học KHTN, TP.HCM.

Trang 9

Tiếng Anh

[9] Berry, J.A., & Linoff, G (1997) Data mining techniques: For marketing, sales, and customer support New York: Wiley

[10] Berry, J.A., & Linoff, G (2000) Mastering data mining: the art and science of customer relationship management New York: Wiley.

[11] Berson, A., Smith, K., & Thearing, K (2000) Building data mining applications for CRM New York: McGraw-Hill.

[12] Han, J., & Fu, Y (1995) Discovery of multiple-level association rules from large database Proceedings of the International Conference on very large Data Bases.

[13] Han, J., & Kamber, M (2001) Data mining: concepts and techniques Loas Altos, CA: Morgan Kaufmann.

[14] Piatetsky-Shapiro, G.Frawley, WJ (1991), “Knowledge discovery in Databases“, AAAI Press/The MIT Press, Menlo Park, California, USA [15] R.Agrawal, T Imielienski, and A Swami (1993), “Mining Association

Rules between Sets of items in Large Databases”, proc Conf on management of data, ACM Press, New York, pp 207 – 216.

[16] R Agrawal and R Srikant (June 1994), “Fast algrorithms for mining

association rules in large database’ Research Report RJ 9839, IBM Almaden Research center, San Jose, California.

[17] Keith C.C Chan and W.H.Au (1997), “Mining Fuzzy Association

Rules”, in Proc Of the 6th Int’l Conf on Information and Knowledge Management, Las Vegas, Nevada, pp 209-215

[18] Fu, A.et al.(1998), “Finding fuzzy sets for the mining of association rules

for numerical attributes”, in Proceeding of 1st Intl Symposium on Intelligent Data Engineering and Learning (IDEAL’98), pp 263-268

Trang 10

[19] Attila Gyenesei (2000), “A fuzzy approach for mining quantitative association rules”, TUCS technical report 336, University of Turku, Department of Computer Science, Lemminkisenkatu 14, Finland

[20] Tzung-Pei Hong, K.Y.L., S.L.W.(2003), “Fuzzy data mining for interesting generalized association rules”, Fuzzy Sets and Systems 138, pp.255-269

[21] J Han, J Pei, and Y Yin: “Mining frequent patterns without candidate

generation” In Proc ACM-SIGMOD’2000, pp 1-12, Dallas, TX, May

2000

[22] Cheung, W., and Osmar, R.Z Incremental mining of frequent patterns without candidate generation or support constraint In proc of 7th

IDEAS’03, Hong Kong, 2003, pp 111-116

[23] Wang, J., Han, J., Lu, Y and Tzvetkov, P TFP: An efficient algorithm for mining top-k frequent closed itemsets In proc of IEEE Knowledge

an Data Engineering, vol 17, no.5, 2005, pp 652-663

[24] Hirate, Y., Iwahashi, E., and Yamana, H TF2P-Growth: An efficient algorithm for mining frequent patterns without any thresholds In proc.

of ICDM 2004

[25] Quang, T.M., Oyanagi, S., and Yamazaki, K Mining the k-most interesting frequent patterns In proc of Information Processing Society

of Japan, 68th National Conference, Tokyo, Japan, 2006

[26] Hima Vallikona (December 2003), Association Rule Mining over Multiple Database: Partitioned and Incremental Approaches Master thesis The University of Texas at Arlington

Ngày đăng: 19/04/2017, 11:41

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w