ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRƯƠNG THỊ MINH NGỌC TƯ VẤN TRONG THƯƠNG MẠI ĐIỆN TỬ DỰA TRÊN PHÂN TÍCH MẪU PHỔ BIẾN TỪ DỮ LIỆU NHẬT KÝ TRUY CẬP CỦA KHÁCH HÀNG LUẬN
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRƯƠNG THỊ MINH NGỌC
TƯ VẤN TRONG THƯƠNG MẠI ĐIỆN TỬ DỰA TRÊN PHÂN TÍCH MẪU PHỔ BIẾN TỪ DỮ LIỆU NHẬT KÝ TRUY CẬP
CỦA KHÁCH HÀNG
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRƯƠNG THỊ MINH NGỌC
TƯ VẤN TRONG THƯƠNG MẠI ĐIỆN TỬ DỰA TRÊN PHÂN TÍCH MẪU PHỔ BIẾN TỪ DỮ LIỆU NHẬT KÝ TRUY CẬP
CỦA KHÁCH HÀNG
Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 01 04
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS PHAN XUÂN HIẾU
Hà Nội – 2015
Trang 3LỜI CẢM ƠN
Để đi cả quãng đường này, lời đầu tiên tôi xin được gửi lời biết ơn chân thành
và sâu sắc tới thầy Ts Phan Xuân Hiếu, một người thầy, người anh cả vô cùng nhiệt thành đã dẫn dắt, truyền nhiệt huyết cho tôi trong toàn bộ quá trình, giúp tôi vững vàng và trưởng thành trong con đường nghiên cứu và học tập
Thời gian qua là một khoảng kỷ niệm cực kỳ sâu sắc với tôi, khi được học tập tham gia nghiên cứu tại trường, phòng thí nghiệm công nghệ tri thức (KT Lab) và Trung tâm Công nghệ tích hợp liên ngành Giám sát hiện trường (FIMO) Xin được gửi lời cảm
ơn tới tất cả các thầy cô và các bạn học đã luôn sẵn sàng hỗ trợ và giúp đỡ tôi
Tôi xin bày tỏ lòng biết ơn chân thành tới Thầy, Cô giáo các anh chị và các bạn trong bộ môn Hệ thống thông tin, Khoa Công nghệ thông tin, những người đã nhiệt tình giúp tôi mở rộng kiến thức về Công nghệ thông tin nói chung và Hệ thống thông tin nói riêng, đó là những kiến thức quý báu và sẽ rất có ích với tôi trong giai đoạn hiện tại và tương lai
Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu Nhà trường, Phòng Đào tạo sau đại học, Đại học Công nghệ - Đại học Quốc gia Hà Nội đã tạo điều kiện tốt nhất giúp tôi trong suốt quá trình học tập
Qua tất cả tôi gửi đến gia đình thân yêu mọi tình cảm của mình, cảm ơn bố mẹ
đã luôn luôn tin tưởng, luôn luôn là chỗ dựa vững chắc, cảm ơn các anh chị em đã dành mọi điều kiện để giúp tôi tập trung vào nghiên cứu
Hà Nội, ngày 30 tháng 10 năm 2015
Học viên
Trương Thị Minh Ngọc
Trang 42
LỜI CAM ĐOAN
Tôi xin cam đoan nội dung trình bày trong luận văn này là do tôi tự nghiên cứu tìm hiểu dựa trên các tài liệu và tôi trình bày theo ý hiểu của bản thân dưới sự hướng dẫn trực tiếp của Thầy TS Phan Xuân Hiếu Các nội dung nghiên cứu, tìm hiểu và kết quả thực nghiệm là hoàn toàn trung thực
Luận văn này của tôi chưa từng được ai công bố trong bất cứ công trình nào
Trong quá trình thực hiện luận văn này tôi đã tham khảo đến các tài liệu của một số tác giả, tôi đã ghi rõ tên tài liệu, nguồn gốc tài liệu, tên tác giả và tôi đã liệt kê trong mục “DANH MỤC TÀI LIỆU THAM KHẢO” ở cuối luận văn
Học viên
Trương Thị Minh Ngọc
Trang 5MỤC LỤC
CHƯƠNG 1 KHÁI QUÁT BÀI TOÁN TƯ VẤN SẢN PHẨM THƯƠNG MẠI
Error! Bookmark not defined.
1.1 Tổng quan bài toán tư vấn trong thương mại điện tửError! Bookmark not
defined.
1.2 Các hướng tiếp cận và các mô hình trong hệ gợi ýError! Bookmark not defined.
1.3 Thách thức của hệ gợi ý Error! Bookmark not defined.
1.4 Đánh giá và ứng dụng hệ gợi ý Error! Bookmark not defined.
1.4.1.Đánh giá một hệ gợi ý Error! Bookmark not defined.
1.4.2.Thiết kế ứng dụng cho một hệ thống gợi ý thựcError! Bookmark not defined.
CHƯƠNG 2 LÝ THUYẾT KHAI PHÁ MẪU PHỔ BIẾN VÀ LUẬT KẾT HỢP
Error! Bookmark not defined.
2.1 Những định nghĩa chung trong bài toán tìm mẫu phổ biến và luật kết hợp Error!
Bookmark not defined.
2.2 Những hướng tiếp cận trong khai phá mẫu phổ biến, luật kết hợp Error!
Bookmark not defined.
2.2.1.Những hướng tiếp cận luật kết hợp Error! Bookmark not defined.
2.2.2.Những thuật toán cơ bản Error! Bookmark not defined.
2.3 Luật kết hợp trong hệ gợi ý Error! Bookmark not defined.
2.4 Thuật toán tìm kiếm tập phổ biến và luật kết hợpError! Bookmark not defined.
2.4.1.Thuật toán FP-Growth Error! Bookmark not defined.
2.4.2.Thuật toán FPClose Error! Bookmark not defined.
2.4.3.Thuật toán FIN Error! Bookmark not defined.
CHƯƠNG 3 ỨNG DỤNG MẪU PHỔ BIẾN VÀ LUẬT KẾT HỢP ĐỂ GỢI Ý SẢN
PHẨM TRONG THƯƠNG MẠI ĐIỆN TỬ Ở VIỆT NAMError! Bookmark not
defined.
3.1 Bài toán gợi ý sản phẩm bằng tìm kiếm mẫu phổ biến và luật kết hợp Error!
Bookmark not defined.
3.2 Gợi ý sản phẩm dựa trên mẫu phổ biến Error! Bookmark not defined.
3.3 Gợi ý sản phẩm dựa trên luật kết hợp Error! Bookmark not defined.
3.4 Mô tả dữ liệu Error! Bookmark not defined.
3.5 Mô tả hệ thống gợi ý cho người dùng Error! Bookmark not defined.
CHƯƠNG 4 THỰC NGHIỆM, PHÂN TÍCH VÀ ĐÁNH GIÁError! Bookmark not defined.
4.1 Kết quả chạy các thuật toán tìm kiếm tập phổ biến.Error! Bookmark not defined.
Trang 64
4.2 Kết quả của gợi ý sản phẩm cho từng người dùngError! Bookmark not defined.
CHƯƠNG 5 KẾT LUẬN Error! Bookmark not defined.
5.1 Những vấn đề được giải quyết trong luận văn này.Error! Bookmark not defined.
5.2 Hướng đi hay hướng áp dụng cho đề tài luận văn.Error! Bookmark not defined.
CÁC CÔNG TRÌNH KHOA HỌC VÀ SẢN PHẨM ĐÃ CÔNG BỐ Error!
Bookmark not defined.
TÀI LIỆU THAM KHẢO 9
Trang 7DANH MỤC HÌNH VẼ
Hình 3.1 Gợi ý tại Amazon Error! Bookmark not defined Hình 3.2 Phân bố dữ liệu sản phẩm thu thập được Error! Bookmark not defined Hình 3.3 Ví dụ về thông tin sản phẩm item Error! Bookmark not defined.
Hình 3.4 Ví dụ về các transaction – các lượt truy cập từng người dùng Error!
Bookmark not defined.
Hình 3.5 Quy trình giải quyết bài toán Error! Bookmark not defined Hình 3.6 Mô hình bước tiền xử lý Error! Bookmark not defined Hình 3.7 Mô hình bước tìm mẫu phổ biến và luật kết hợpError! Bookmark not defined.
Hình 3.8 Định dạng những tập phổ biến tìm được Error! Bookmark not defined Hình 3.9 Định dạng luật kết hợp tìm được Error! Bookmark not defined Hình 3.10 Định dạng đầu ra các tập phổ biến được đánh chỉ mụcError! Bookmark not defined.
Hình 3.11 Định dạng đầu ra phần Y của luật được đánh chỉ mụcError! Bookmark not
defined.
Hình 3.12 Mô hình bước gợi ý cho người dùng Error! Bookmark not defined Hình 4.1 So sánh thời gian chạy các thuật toán Error! Bookmark not defined Hình 4.2 Thống kê thời gian trung bình chạy các thuật toánError! Bookmark not
defined.
Hình 4.3 So sánh bộ nhớ tối đa sử dụng Error! Bookmark not defined Hình 4.4 Thống kê bộ nhớ tối đa sử dụng của các thuật toánError! Bookmark not
defined.
Hình 4.5 Thống kê số tập phổ biến tìm được Error! Bookmark not defined Hình 4.6 Giao diện gợi ý cho người dùng Error! Bookmark not defined Hình 4.7 Gợi ý cho người dùng theo một sản phẩm mẹ và béError! Bookmark not
defined.
Hình 4.8 Gợi ý cho mặt hàng phụ kiện công nghệ Error! Bookmark not defined Hình 4.9 Gợi ý cho mặt hàng đồ gia dụng Error! Bookmark not defined Hình 4.10 Gợi ý cho mặt hàng đồng hồ Error! Bookmark not defined.
Trang 86
DANH MỤC TỪ VIẾT TẮT
CSDL (DB) Cơ sở dữ liệu (database)
DANH MỤC TỪ KHÓA
Recommender system Hệ gợi ý Association rule Luật kết hợp Frequent pattern Mẫu phổ biến
Trang 9MỞ ĐẦU
Những tác giả đầu ngành mở đầu cho bài toán tìm mẫu phổ biến [1] từ năm
1993 là Jiawei Han và Charu C Aggarwal đã tổng hợp những vấn đề về các hướng tiếp cận, phương pháp các thuật toán, dành cho nhiều loại dữ liệu của rất nhiều công trình nghiên cứu tại “Frequent pattern mining” [2] xuất bản năm 2014 Cho thấy sức hấp dẫn của đề tài này xong suốt hơn 20 năm qua
Ứng dụng cho bài toán maketing tìm kiếm mẫu phổ biến trên tập dữ liệu mua hàng của khách, tìm ra những sản phẩm hay được mua cùng nhau nhất, hay gợi ý nếu xem sản phẩm này sẽ xem sản phẩm nào tiếp theo Thử đặt ra giả thiết nếu như khi một người xem đang nhấp chuột tìm kiếm hoặc xem một sản phẩm về thời trang như
„đầm xòe nơ‟ mà họ đang quan tâm trên một website, thì website đó sẽ gợi ý „đầm kim
sa nhũ‟ hoặc/và „đầm dự tiệc sang trọng‟ hoặc/và „giầy cao gót dây thanh lịch‟
hoặc/và „ví xách trang nhã‟ với giải thích là những sản phẩm này thường được nhiều
người dùng khác xem với nhau rất nhiều lần, có thể nhận thấy ngữ cảnh xem hàng này người dùng đang muốn tìm kiếm trang phục dự tiệc, những gợi ý về sản phẩm đồng bộ theo loại sản phẩm này rất phù hợp, và gợi ra được nhiều liên quan giữa các sản phẩm này không chỉ tính đến chúng thuộc cùng chủng loại, cùng nội dung
Đặc biệt khi gợi ý trong thương mại điện tử tại Việt Nam, lý do để chọn hướng tiếp cận tìm tập phổ biến là vì phụ thuộc vào tập dữ liệu thu thập được từ khách hàng
Dữ liệu mà luận văn thu thập được từ một website thương mại tại Việt Nam, với số lượng các mặt hàng lên tới hơn 238.000 sản phẩm chủ yếu về các mặt hàng thời trang, gia dụng, thực phẩm, phụ kiện công nghệ …
Hướng tiếp cận cũ như hướng lọc nội dung (content-based) dù cũng có kết quả tốt nhưng không đủ tinh tế để hiểu người dùng, thường gợi ý ra được rất nhiều sản phẩm nếu số lượng sản phẩm liên quan với nhau lớn, mà theo tâm lý người dùng việc gợi ý ra nhiều sẽ không gây được kết quả tốt [3], xem xét những gợi ý phù hợp và thú
vị cho người dùng mới là vấn đề cần nghiên cứu Những công trình được nghiên cứu cho thế hệ gợi ý mới đã có nhiều bước tiến vượt trội, nhiều phương pháp mang lại hiệu quả cao và đang là xu hướng hiện nay như là hướng lọc cộng tác (collaborative
filtering) dựa vào cộng đồng người dùng sử dụng dữ liệu đánh giá (rating) của họ về
sản phẩm Nhưng quay trở về áp dụng cho người dùng tại Việt Nam với sản phẩm thương mại thì rất khó khăn trong việc thu thập dữ liệu, lý do là người dùng tại Việt
Nam thường rất ít có thói quen đánh giá (rating) hay bình luận (comment) về sản
phẩm, đây là kết quả thực tế khi thu thập dữ liệu được từ website thương mại mà luận văn làm thực nghiệm Hơn nữa hành vi chủ yếu của người dùng là tìm kiếm thông tin của sản phẩm, hành vi mua trực tuyến là khá ít dẫn đến khó khăn khi thu thập và khai phá trên dữ liệu của kiểu hành vi này, theo khảo sát của Google vào năm 2015 [4] trong số 73% người dùng xem hàng chỉ có 17% quyết định mua hàng trực tuyến còn
Trang 108
lại là thực hiện mua bán ngoại tuyến Ngoài ra theo trang alexa.com1 trang chuyên thống kê các website khắp thế giới về các mức độ người truy cập, số lượng tìm kiếm, đánh giá năm 2015 đã thống kê những website thương mại điện tử đứng đầu ở Việt Nam như vatgia.com, 5giay.vn, lazada.vn, chotot.vn…có rất ít đánh giá rating cho những sản phẩm được mua và dùng bởi người dùng Với hướng tìm kiếm tập phổ biến
để gợi ý, luận văn có tham khảo một trong những trang web về thương mại điện tử thành công nhất trên thế giới là Amazon2
(theo alexa3), dựa trên tìm những luật kết hợp và xếp chúng theo độ tin cậy, tìm những biến thể khác như đo độ không thích hoặc quan hệ của người dùng Điều này tùy thuộc vào các dữ liệu lấy được, có thể hay không thu được mức độ xem hoặc quan tâm từ những rating, hành vi hoặc những phản hồi ẩn của khách hàng, những dữ liệu này đều thu thập được tại website làm thực nghiệm
Với hướng đi ứng dụng tập phổ biến và luật kết hợp vào trong bài toán gợi ý sản phẩm thương mại, luận văn đã tìm hiểu và nghiên cứu những vấn đề liên quan đến khâu xây dựng và ứng dụng như là xác định đối tượng gợi ý, đối tượng dữ liệu có thể thu thập được từ nhật ký phiên truy cập người dùng trong một trang thương mại điện
tử ở Việt Nam; khảo sát các phương pháp để khai phá mẫu phổ biến và luật kết hợp, tìm hiểu vấn đề độ đo, chọn ngưỡng, những khó khăn thách thức khi triển khai; đến vấn đề đánh giá dữ liệu, chất lượng tập phổ biến và luật kết hợp, và hiển thị ra gợi ý,… Luận văn cũng tập trung giải quyết các khâu trong thực nghiệm, nhận định vấn đề và những khó khăn gặp phải như vấn đề bộ nhớ sử dụng, thời gian chạy, phân hoạch bộ
dữ liệu gốc, đánh chỉ mục ngược cho tập phổ biến và tập luật tìm được, đưa ra gợi ý cho từng cá nhân người dùng, đưa ra giải thích cho các gợi ý đó Sau đó là tìm ra các phương hướng giải quyết, rút ra những bài học kinh nghiệm có được
Hy vọng từ việc khai thác những dữ liệu thực tế và áp dụng các phương pháp
kỹ thuật được công bố bởi những nhà nghiên cứu uy tín trên toàn thế giới sẽ đưa lại kết quả có ý nghĩa, có thể đóng góp một phần nào đó để triển khai ứng dụng thương mại điện tử Việt Nam nói riêng và ứng dụng công nghệ thông tin vào đời sống nói chung
Luận văn sẽ chia nội dung ra làm năm chương chính:
Chương 1: Khái quát bài toán tư vấn sản phẩm thương mại Ở chương đầu tiên
mở đầu này sẽ nêu tổng quan về bài toán gợi ý, những hướng tiếp cận, phương pháp giải quyết, thách thức và cả những đánh giá ứng dụng, đặc biệt là cho thương mại điện
tử
Chương 2: Lý thuyết mẫu phổ biến và luật kết hợp Có nội dung chính là nêu những định nghĩa chung của bài toán tìm kiếm tập phổ biến, những hướng tiếp cận,
1
http://www.alexa.com/topsites/countries/VN
2 www.amazon.com
3 http://www.alexa.com/topsites/category/Top/Shopping
Trang 11những ứng dụng phương pháp khai phá tập phổ biến và luật kết hợp vào bài toán gợi ý thương mại Trong đó còn nêu chi tiết 3 thuật toán sẽ được áp dụng trong luận văn
Chương 3: Ứng dụng khai phá mẫu phổ biến để gợi ý những sản phẩm được xem cùng nhau trong thương mại điện tử ở Việt Nam Chương này là chương chính của luận văn phát biểu bài toán cụ thể mà luận văn cần giải quyết, sau đó là đưa ra mô hình giải quyết bài toán
Chương 4: Thực nghiệm đánh giá Đây là phần nêu lên kết quả đạt được trong suốt quá trình thực hiện, ngoài ra còn đề cập đến những khó khăn vấn đề vướng mắc phát sinh Sau đó là đánh giá những kết quả đạt được chi tiết ở từng bước thực hiện
Chương 5: Kết luận Tổng kết lại những nội dung chính của luận văn, đưa ra hướng đi và hướng áp dụng thực tế
Trang 1210
TÀI LIỆU THAM KHẢO
[1] R Agrawal, T Imieliński, and A Swami, “Mining association rules between
sets of items in large databases,” ACM SIGMOD Record, vol 22, no 2 pp 207–
216, 1993
[2] J H Charu C Aggarwal, “Frequently partern mining.” Springer, New York, 2014 [3] M G D Bollen, BP Knijnenburg, MC Willemsen, “Understanding choice overload in recommender systems.” RecSys ‟10, pp 63–70, 2010
[4] “The consumer barometer survey 2015.” Google, 2015
[5] J Leskovec, R Anand, and J Ullman, “Recommendation Systems,” Mining of
Massive Datasets pp 305–339, 2011
[6] F Ricci, L Rokach, B Shapira, and P B Kantor, “Recommender Systems Handbook.” Springer, New York, pp 27–46, 2011
[7] J L Herlocker, J a Konstan, L G Terveen, and J T Riedl, “Evaluating
collaborative filtering recommender systems,” ACM Transactions on
Information Systems (TOIS), vol 22, no 1 pp 5–53, 2004
[8] J J Sandvig, B Mobasher, and R Burke, “Robustness of collaborative
recommendation based on association rule mining,” RecSys ’07 Proc 2007
ACM Conf Recomm Syst., no October 2015, pp 105–112, 2007
[9] B Joseph, P Ii, D Peppers, M Rogers, and N M Tichy, “Do you want to keep
your customers forever,” HarvardBusinessReview, no June, 2012
[10] “Báo cáo thương mại điện tử Việt Nam 2014,” Cục Thương mại điện tử và Công
nghệ thông tin - Bộ Công Thương, p 53, 2014
[11] N Tintarev and J Masthoff., “Effective explanations of recommendations: user-centered design.” Proceedings of the 2007 ACM conference on Recommender systems, pp 153–156, 2007
[12] P Pu and L Chen, “Trust Building with Explanation Interfaces,” Proc 11th Int
Conf Intell user interfaces - IUI ’06, pp 93–100, 2006
[13] L Chen and P Pu, “A cross-cultural user evaluation of product recommender
interfaces,” Proc 2008 ACM Conf Recomm Syst - RecSys ’08, p 75, 2008 [14] P Melville and V Sindhwani, “Recommender Systems,” Encyclopedia of
Machine Learning, vol 1 pp 1–21, 2010
[15] T Di Noia, R Mirizzi, V C Ostuni, D Romito, and M Zanker, “Linked open
data to support content-based recommender systems,” Proc 8th Int Conf
Semant Syst - I-SEMANTICS ’12, no December 2015, p 1, 2012
[16] G Adomavicius and a Tuzhilin, “Toward the Next Generation of Recommender
Systems: a Survey of the State of the Art and Possible Extensions,” IEEE Trans
Knowl Data Eng., vol 17, no 6, pp 734–749, 2005
[17] A M Rashid, I Albert, D Cosley, S K Lam, S M McNee, J a Konstan, and
J Riedl, “Getting to Know You: Learning New User Preferences in