Bài viết này xin được tập giới thiệu việc xây dựng một hệ hỗ trợ ra quyết định linh hoạt xử lý dữ liệu thời gian thực cho tất cả người dùng dù người đó đã đăng ký sử dụng dịch vụ trên cá
Trang 1Xây dựng hệ hỗ trợ ra quyết định dựa trên kỹ thuật khai phá hành vi
của người sử dụng web trong lĩnh vực thương mại điện tử
Ths.Trần Thị Huế - Học viện Ngân hàng Ths Nguyễn Thanh Thụy – Học viện Ngân hàng Tóm tắt
Các tổ chức thương mại điện tử đang phát triển một cách rất nhanh chóng theo thời gian cả về số lượng dịch vụ cũng như lượng dữ liệu Rất nhiều tổ chức đặt niềm tin vào một số website để thu hút khách hàng, sau một thời gian sử dụng họ sẽ lựa chọn giữ lại một trong số đó làm kênh giao dịch chính Trong quá trình vận hành các file log có thể được sử dụng nhằm lưu trữ lại thông tin của khách hàng sau mỗi lần truy cập Việc sử dụng các kỹ thuật khai phá dữ liệu web cơ bản nhằm đánh giá và tìm kiếm các thông tin tiềm ẩn Bài viết này xin được tập giới thiệu việc xây dựng một hệ hỗ trợ ra quyết định linh hoạt xử lý dữ liệu thời gian thực cho tất cả người dùng dù người đó đã đăng ký sử dụng dịch vụ trên các trang web thương mại điện tử hay chưa Hoạt động của hệ thống này được dựa trên kỹ thuật hỗ trợ ra quyết định truyền thống sử dụng các mẫu thử để triết xuất ra những quy luật cần thiết, từ đó khách hàng sẽ được gợi ý sử dụng các dịch vụ phù hợp với mong muốn của họ Tính hiệu quả của hệ thống hỗ trợ này được xác định bằng việc thu tập dữ liệu thương mại điện tử thời gian thực và so sánh tính hiệu quả của hệ thống trong quá trình vận hành Kết quả chứng minh rằng hệ hỗ trợ ra quyết định mà chúng tôi giới thiệu đã nâng cao được tính chính xác và giảm thiểu sự hạn chế của các hệ trợ ra quyết định truyền thống
Từ khóa: log file, thương mại điện tử, hệ hỗ trợ ra quyết định, khai phá dữ liệu.
1 Giới thiệu
Ngày nay, số lượng người dùng Internet truy cập các trang web nhằm tìm kiếm và đặt hàng các dịch vụ ngày càng tăng Một số lượng đáng chú ý các doanh nghiệp đang thiên về việc sử dụng Internet để bán các sản phẩm hoặc dịch vụ của họ [1] Đây là một cuộc cánh mạng khiến thương mại điện tử thay đổi, tiện dụng hơn trong việc kinh doanh Điều đó đã khiến số lượng các doanh nghiệp và khách hàng trong thị trường này đều tăng lên Tuy nhiên, khách hàng đang bị quá tải trong việc lựa chọn hàng hóa, khiến kết quả lựa chọn của họ có thể không như mong đợi Một câu hỏi được đặt ra cho các nhà quản lý web rằng liệu các sản phẩm hoặc dịch vụ họ đang cung cấp có nằm trong nhu cầu của khách hàng hay không Do đó, một chiến lược marketing được đưa ra để giới thiệu trực tiếp sản phẩm tới khách hàng thông qua việc quản lý những lựa chọn yêu thích của tất cả
Trang 2các khách hàng trước đó Một giải pháp hiệu quả để giải quyết vấn đề này là đưa ra những gợi ý trực tiếp cho khách hàng dựa trên sản phẩm được các cá nhân trước đó lựa chọn như dựa vào những sản phẩm cùng loại với sản phẩm mà khách hàng đang quan tâm Đến một ngày nào đó khi dữ liệu đủ lớn hệ hỗ trợ ra quyết định sẽ được hoàn thành Các hệ hỗ trợ ra quyết định có thể phân chia làm 2 loại đó là các hệ thống dựa trên ngữ cảnh và các hệ thống lọc kết hợp Những hệ thống dựa trên ngữ cảnh lựa chọn những đặc điểm của sản phẩn để cung cấp các gợi ý Còn các hệ thống lọc cộng tác dựa trên sự tương tác với sản phẩm của khác hàng và bỏ qua những yếu tố khác để cung cấp những gợi ý [4, 5] Mặc dù mức ý nghĩa và sự phổ biến của việc sử dụng hệ thống gợi ý dựa trên những thông tin hữu hạn Đầu tiên chúng ta tập trung vào khả năng mở rộng của hệ thống Do số lượng khách hàng và các dịch vụ tăng khiến việc chọn lựa các sản phẩm lân cận chậm hơn theo từng giây và một điểm nữa là hầu hết các hệ hỗ trợ đều sử dụng dữ liệu nhị phân, ví dụ như việc khách hàng có đặt hàng một sản phẩm nào đó hay không Tuy nhiên, rất nhiều lần họ đã không thể khai thác được các đặc điểm nội tại của bộ dữ liệu để cung cấp những gợi ý tốt hơn Một hạn chế khác của hệ hỗ trợ ra quyết định thông thường đó là mục tiêu cung cấp cho khách hàng những sản phẩm tương tự sản phẩm đã được khách hàng đặt mua Nghiên cứu trong [6] đã chỉ ra rằng dữ liệu hành vi trên mạng
có thể được sử dụng như một giải pháp hiệu quả để giải quyết các vấn của hệ hỗ trợ ra quyết định truyền thống
Bài báo này trình bày một kỹ thuật xây dựng hệ hỗ trợ ra quyết định dựa trên bộ
dữ liệu thi thập về hành vi của người sử dụng Web, hệ thống này liên hệ với người dùng,
dữ liệu bán hàng nhằm tạo ra một hệ hỗ trợ ra quyết định hiệu quả hơn Nghiên cứu này cung cấp một hệ hỗ trợ ra quyết định cho tất cả người dùng của hệ thống các trang thương mại điện tử Mục 2 sẽ trình bày chi tiết hệ thống Mục 3 tập trung vào các kết quả
và thảo luận
2 Mô hình hoạt động của hệ thống
Trong hệ thống đề xuất người dùng tương tác với hệ thống web và dữ liệu click được lưu trữ trên file log ban đầu Công việc tiền xử lý và làm sạch dữ liệu sẽ trích xuất thông tin cần thiết và đưa chúng về dạng có cấu trúc Dữ liệu đã được làm sạch được sử dụng cho những pha tiếp theo nhằm gợi ý những luật ẩn và cung cấp tốp n sản phẩm được tất cả những người sử dụng thương mại điện tử quan tâm Chúng ta có thể nhìn thấy
mô hình hoạt động của hệ thống được biểu diễn trong Hình 1
Trang 3Hình 1 Cấu trúc Hệ hỗ trợ ra quyết định đề xuất
2.1 Thu thập dữ liệu
Trong giai đoạn này, dữ liệu click bao gồm tất cả các trang web đã được khách hàng ghé thăm Mô hình đề xuất sử dụng dữ liệu đã được định dạng lại, các thuộc tính quan trọng gồm địa chỉ IP, thời gian sử dụng, mã trạng thái, phương thức (GET và POST), thông tin người dùng và đường dẫn liên quan được lưu trữ và sử dụng trong việc phân tích Thông tin sơ cấp ban đầu thường không ở dạng có cấu trúc nên chúng cần được trải qua giai đoạn tiền xử lý trước khi đưa vào phân tích
2.2 Tiền xử lý dữ liệu
Nguồn dữ liệu đầu vào tốt rất cần thiết để mang lại quá trình phân tích tốt Dữ liệu
dư thừa được loại bỏ theo từng bước như trong Hình 2 Giai đoạn tách các trường dữ liệu tập trung vào việc phân biệt thuộc tính này với các thuộc tính khác bằng các ký hiệu đặc biệt như khoảng trắng giữa các từ Trong giai đoạn làm sạch dữ liệu, chúng ta lọc lấy những dữ liệu tóm tắt, kiểm tra các hậu tố trong đường dẫn URL Nội dung các file log
có hậu tố của các tên tệp như gif, jpeg, tif, jpg được xem xét Tất cả các bản ghi có trạng thái http không chính xác sẽ được loại bỏ Ví dụ, mã trạng thái chỉ được cho phép ở khoảng 200- 299 Trong giai đoạn phân biệt người dùng, chúng ta sẽ gán một mã người dùng (ID) cho mỗi địa chỉ IP để phân biệt một người dùng nào đó với các người dùng còn lại Cuối cùng cùng ta xây dựng các phiên trong giai đoạn xác định phiên làm việc Trong giai đoạn phân lớp các phiên làm việc chúng ta nhóm các phiên làm việc của cùng một người dùng lại với nhau Phiên làm việc cung cấp cho chúng ta đầy đủ các hoạt động được thực hiện bởi người dùng trong một khoảng thời gian Cuối cùng chúng ta thu được thông tin định dạng dưới dạng bảng
Trang 4FIELD
SEPARATION CLEANING DIFFERENTIATION USER IDENTIFICATION SESSION CLUSTERING SESSION FORMATING DATA
Hình 2 Các bước trong giai đoạn tiền xử lý dữ liệu
Dữ liệu sau khi được thu thập thì cần được đưa về dạng có cấu trúc Có tất cả 3 thông tin về hành vi của người dùng được hệ thống đặc biệt quan tâm: lịch sử chọn lựa (dựa trên mỗi lần click chọn xem sản phẩm), nơi mua hàng và sản phẩm đặt mua
Chuyển dữ liệu ban đầu về bảng
Trong mỗi phiên làm việc s chúng ta xây dựng một đối tượng Đối tượng này sẽ lưu giữ thông tin của toàn bộ các sản phận trong phiên làm việc nó phụ trách như tên sản phẩm (p_id), tên nhóm sản phẩm (c_id), tần suất (f) chứa thông tin về số lần sản phẩm được xem và thời gian xem trên một trang (tsp)
Hình 3 Mẫu chuỗi thông tin ban đầu được thu lượm Trong dòng thông tin được lưu ý màu đỏ: 31.33 là tên đối tượng, 31 là p_id, 33 là c_id, 0.52 là thời gian xem trên một trang (tsp)
2.3 Khai thác thông tin từ bộ dữ liệu, xây dựng danh sách thông tin cần gợi ý
Dựa trên thông tin thu thập từ người dùng trước, chúng ta trích xuất được một số tham số làm cơ sở để đặt các sản phẩm vào danh sách gợi ý
Độ quan tâm của người dùng (µ): tham số này để xác định xem người dùng có quan
tâm tới sản phẩm hay không, nó được tính toán dựa trên thời gian người dùng hoạt động trên trang
Độ quantâm của ngườidùng ( μ )={1 nếu tsp ≥ 0.05 0 nếu tsp<0.05 (1)
Mức độ thường xuyên (f): sản phẩm có mức độ thườn xuyên cao sẽ được đặt danh sách
gợi ý Nếu hai sản phẩm có giá trị về mức độ thường xuyên giống nhau thì chúng ta kiểm tra tsp Do đó nếu f p1>f p2 thì sản phẩm p1 sẽ được đặt vào danh sách gợi ý
Trang 5Độ hy vọng trong danh sách đệm
(ɳ¿={1, nếu xuất hiệntrong danh sáchkỳ vọng ,thêm vào danh sách gợi ý 0, nếu không xuất hiện (2)
Dựa vào các tham số ở trên chúng ta xây dựng danh sách các sản phẩm gợi ý dựa trên sanh mục và đặc điểm chi tiết của sản phẩm Chúng ta cũng tính toán độ tương tự giữa sản phẩm này với chuỗi thông tin sản phẩm chúng ta có trong Hình 3
Độtương tự = giátrị lớn nhất của sản phẩn trong phiên(s1, s2)
tổng số lượng sản phẩm trong mỗi phiên (3) Cách làm việc của các hệ thống này được giới thiệu trong hình 4 Phương pháp tiếp cận này phụ thuộc vào loại của khách hàng (đã đăng ký hay chưa) tương ứng với các thành phần tham gia Những tham số khác nhau như thời gian hoạt động trên trang, số lần, danh sách đợi những sản phẩm kỳ vọng, độ tương tự giữa các sản phẩm được đề xuất danh sách gợi ý động này sẽ thay đổi liên tục dựa trên hành vi của người dùng trong phiên làm việc hiện tại
Trang 6For each id_addr||u_id thuộc log file
đưa s_id theo thứ tự giảm dần theo TS (với người dùng chưa đăng ký, đưa 3
session cuối cùng
Count =0
For each s_id
Retrive p_ip in (1:n) (trong đó N là lần truy cập sản phẩm cuối cùng trong
session) For each sản phẩm p, kiểm tra f
Frequency.p1 > frequency.p2
Frequency.p1 ==
frequency.p2
Max.pst(p1,p2) Đưa vào danh sách gợi ý
Danh sách gợi ý <10
Fetch relate product ret_prod từ danh sách gợi ý dựa trên c_id, m_id hoặc
session cuối Trả về danh sách gợi ý
Sản phẩm được đặt trong bộ đệm mong muốn
Đưa sản phẩm ra khỏi danh sách gợi ý và
fetch related product Nếu sản phẩm được đặt mua Count = count+1
Yes
Yes
No
Yes No
Yes
Hình 4 Hoạt động của hệ hỗ trợ ra quyết định
3 Kết quả và thảo luận.
Mô hình đề xuất được cài đặt thử nghiệm trên máy chủ XAMPP, php MyAdmin,
và sử dụng Subline Text 3IDE Mô phỏng trên hệ thống OpenCart với nền tảng MVC Để kiểm nghiệm mô hình đề xuất, cổng Web được phát triển cung cấp các mặt hàng điện tử khác nhau cho khách hàng Dữ liệu gồm có 1200 bản ghi lưu trong hệ thống thời gian thực Hình 5 trình bày màn hình tương tác người dùng, trong đó hệ thống đang giới thiệu
Trang 7cho khách hàng nhiều sản phẩm khác nhau Trong Hình 6, một file log mẫu chưa được làm sạch chứa dữ liệu điều hướng Hình 7 giới thiệu dữ liệu ở file log ở Hình 6 sau khi đã được làm sạch dưới dạng có cấu trúc
Hình 5 Màn hình tương tác của hệ thống gợi ý
Hình 6 File log chưa được làm sạch
Trang 8Hình 7 Dữ liệu Log ở dạng có cấu trúc
Để đánh giá chất lượng của hệ thống hỗ trợ ra quyết định, chúng tôi thu thập ý kiến phản hồi từ khách hàng trong quá trình họ lựa chọn sản phẩm Kết quả thu thập được ngoài thực tế đã chứng minh khoảng hơn 80% khách hàng đăng ký là thành viên đã nhận xét rằng họ quan tâm tới những sản phẩm chúng tôi gợi ý và có ý định mua thêm một vài sản phẩm trong số đó, và khoảng 65% khách hàng ko đăng ký nói rằng họ có quan tâm Tuy không phải là con số tuyệt đối nhưng chúng ta có thể nhận định rằng hệ thống gợi ý sản phẩm đã nâng cao đáng kể doanh số của các tổ chức tham gia vào lĩnh vực thương mại điện tử
Trang 9Tài liệu tham khảo
[1] Y Cho, and J Kim, “Application of Web usage mining and product taxonomy to
collaborative recommendations in e-commerce”, Expert systems with Applications, vol
26, no 2, pp 233-246, February 2004
[2] Q Song, M Shepperd “Mining web browsing patterns for E-commerce” Computers
in Industry, 57 (7) (2006), pp 622–630 Article | PDF (337 K) | View Record in Scopus | Citing articles (43)
[3] Y Cho, J Kim, and S Kim, “A personalized recommender system based on web usage mining and decision tree induction”, Expert Systems with Applications, vol 23,
no 3, pp 329-342, October 2002
[4] Z Huang, D Zeng, and H Chen, “A comparative study of recommendation algorithms in e-commerce applications”, IEEE Intelligent Systems vol 22, no 5 pp
68-78, 2007
[5] J Lee, M Sun, G Lebanon PREA: Personalized recommendation algorithms toolkit.” The Journal of Machine Learning Research, 13 (1) (2012), pp 2699–2703 View Record
in Scopus | Citing articles (6)
[6] B Mobasher, R Cooley, J Srivastava Automatic personalization based on Web usage mining” Communications of the ACM, 43 (8) (2000), pp 142–151 View Record in Scopus | Full Text via CrossRef | Citing articles (637)
[7] Y.M Huang, Y.H Kuo, J.N Chen, Y.L Jeng NP-miner: A real-time recommendation algorithm by using web usage mining” Knowledge-Based Systems, 19 (4) (2006), pp 272–286 Article | PDF (394 K) | View Record in Scopus | Citing articles (22)
[8] C.R Varnagar, N.N Madhak, T.M Kodinariya, and J N Rathod, “Web usage mining: A review on process, methods and techniques”, Information Communication and Embedded Systems (ICICES), International Conference on IEEE, pp 40-46, 2013 [9] P Nithya, and P Sumathi, “Novel pre-processing technique for web log mining by removing global noise and web robots.” In Computing and Communication Systems (NCCCS) IEEE, pp 1-5,2012.R Cooley, B Mobasher, J Srivastava, “Data preparation for mining world wide web browsing patterns”, Knowledge and information systems, vol.1, pp 5-32, 1999
Trang 10[10] M Khosravi, and M J Tarokh, “Dynamic mining of user's interest navigation patterns using naive Bayesian method.” In Intelligent Computer Communication and Processing (ICCP), IEEE International Conference on, pp 119-122, 2010
[11] B Devi, Y Devi, B Rani, and R Rao, “Design and Implementation of Web Usage Mining Intelligent System in the Field of e-commerce.” Procedia Engineering, vol 30,
pp 20-27, 2012
[12] P Lopes, B Roy Recommendation System using Web Usage Mining for users of E-commerce site” International Journal of Engineering Research & Technology, 3 (7) (2014)
[13] “OPENCART”, [ONLINE].Available:http://www.opencart.com, 2013