Nghiên cứu của luận văn tập trung vào mô hình biểu diễn vectơ sản phẩm giàu thông tin để làm đầu vào cho các bài toán học máy ứng dụng trong thương mại điện tử.. Mô hình sẽ biểu diễn sản
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 3VIETNAM NATIONAL UNIVERSITY, HANOIUNIVERSITY OF ENGINEERING AND TECHNOLOGY
Tran Minh Tuan
A PROPOSED MODEL FOR VECTOR REPRESENTATION OFE-COMMERCE PRODUCTS BASED ON GRAPH EMBEDDING
THE MASTER THESISMajor: Computer Science
Supervisor: Dr Vo Dinh Hieu
HANOI - 2020
Trang 4Lời cam đoan
Tôi là Trần Minh Tuấn, học viên cao học lớp K26-KHMT, ngành Khoa học thôngtin Tôi xin cam đoan luận văn “Xây dựng mô hình biểu diễn vectơ sản phẩmthương mại điện tử dựa trên phương pháp khai phá đồ thị” là công trình nghiêncứu, xây dựng của riêng mình Các nội dung nghiên cứu, kết quả trong luận văn
là xác thực
Các thông tin sử dụng trong luận văn là có cơ sở và không có nội dung nào saochép từ các tài liệu mà không ghi rõ trích dẫn tham khảo Tôi xin chịu trách nhiệm
về lời cam đoan này
Hà Nội, ngày tháng năm 2020
Học viên cao học
Trần Minh Tuấn
Trang 5Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới thầy TS Võ ĐìnhHiếu, người đã tận tình hướng dẫn và chỉ bảo tôi trong suốt thời gian học tập bốnnăm đại học, hai năm cao học và đặt biệt là thời gian thực hiện luận văn thạc sỹ.Tôi cũng xin chân thành cảm ơn các thầy, cô trong trường Đại học Công Nghệ và
sự hỗ trợ của đề tài QG.18.61 của Đại học Quốc gia Hà Nội đã tạo mọi điều kiệnthuận lợi cho tôi học tập và nghiên cứu
Tôi cũng xin cảm ơn đồng nghiệp tại Công ty Cổ phần Khoa học Dữ liệu đã hỗtrợ thiết bị phần cứng, đóng góp dữ liệu cho đề tài này
Tôi xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạn trong phòng thí nghiệmcủa bộ môn Công nghệ phần mềm đã hỗ trợ tôi rất nhiều về kiến thức chuyên môntrong quá trình thực hiện luận văn
Tôi xin cảm ơn các bạn trong lớp K26 đã ủng hộ và khuyến khích tôi trong suốtquá trình học tập tại trường
Cuối cùng, tôi xin được gửi cám ơn vô hạn tới gia đình, người thân và bạn bè,những người đã luôn bên cạnh, giúp đỡ và động viên tôi trong những năm thánghọc tập nghiên cứu và trong cuộc sống
Hà Nội, ngày tháng năm 2020
Học viên
Trần Minh Tuấn
Trang 6Tóm tắt
Tóm tắt:
Những năm gần đây, các hoạt động trong lĩnh vực thương mại điện tử ngày càng phát triển tại Việt Nam và quốc tế Các nền tảng website thương mại điện tử đang nỗ lực đem lại trải nghiệm tốt hơn cho người mua sắm Một trong những yếu tố quan trọng của lĩnh vực này là khả năng xử lý dữ liệu khi số lượng sản phẩm và giao dịch gia tăng mỗi ngày Các dữ liệu này sẽ được ứng dụng trong bài toán như gợi ý sản phẩm, phân loại sản phẩm, trích xuất thông tin, tìm kiếm sản phẩm.
Nghiên cứu của luận văn tập trung vào mô hình biểu diễn vectơ sản phẩm giàu thông tin
để làm đầu vào cho các bài toán học máy ứng dụng trong thương mại điện tử Mô hình này sử dụng đặc trưng của thuộc tính sản phẩm và dữ liệu mối quan hệ Nghiên cứu sử dụng phương pháp "graph embedding" - học không giám sát các thuộc tính của sản phẩm
từ đồ thị quan hệ Nghiên cứu cũng chỉ ra sự hiệu quả của mô hình khi thực nghiệm với
dữ liệu đồ thị sản phẩm hàng chục triệu đỉnh và trăm triệu cạnh quan hệ.
Từ khóa: thương mại điện tử, khai phá đồ thị, vectơ hóa sản phẩm, mạng nơ-ron tích chập
Trang 7Abstract: In recent years, activities in the field of e-commerce have been increasingly developing in Vietnam and internationally E-commerce website platforms are striving to bring a better experience to shoppers One of the key factors of this area is the ability to process data as the number of products and transactions increases every day These data will be applied in problems such as product suggestions, product classification, information extraction, product search.
The thesis’s research focuses on constructing the model product vector representation as
an input to the applied many tasks in e-commerce This model uses the characteristics of product attributes and the relationship between them Research using the method graph embedding - unsupervised learning of product attributes from the e-commerce graph The research also shows the effectiveness of the model when experimenting with millions of product vertices and hundreds of millions of edges.
Keywords: e-commerce, graph embedding, product embedding, convolution neural work
Trang 8net-Mục lục
1.1 Lý do chọn đề tài 1
1.2 Các nghiên cứu liên quan 3
1.3 Mục tiêu của luận văn 7
1.4 Cấu trúc luận văn 8
Kết luận chương 1 8
Chương 2 Cơ sở lý thuyết và khảo sát các phương pháp 9 2.1 Cơ sở lý thuyết 9
2.1.1 Phương pháp biểu diễn dữ liệu ảnh 9
2.1.2 Phương pháp biểu diễn nội dung văn bản 11
2.1.3 Phương pháp biểu diễn dữ liệu đồ thị 15
2.2 Khảo sát các phương pháp biểu diễn vectơ sản phẩm 18
2.2.1 Phân tích đặc điểm dữ liệu thương mại điện tử 18
2.2.2 Biểu diễn sản phẩm bằng nhúng tên sản phẩm 19
2.2.3 Biểu diễn sản phẩm bằng hình ảnh 21
Kết luận chương 2 25
Trang 9Chương 3 Mô hình biểu diễn vector sản phẩm bằng phương pháp
3.1 Định nghĩa bài toán 26
3.2 Mô tả phương pháp 29
3.3 Đánh giá phương pháp 32
3.3.1 Phương pháp đánh giá mô hình 32
3.3.2 Điểm mạnh của phương pháp 33
3.3.3 Hạn chế của phương pháp 33
Kết luận chương 3 34
Chương 4 Thực nghiệm và đánh giá kết quả 35 4.1 Phương pháp và dữ liệu thực nghiệm 35
4.2 Xây dựng hệ thống trong thực tế với dữ liệu lớn 37
4.3 Kết quả thực nghiệm và phân tích 41
Kết luận chương 4 42
Trang 10Danh mục các từ viết tắt và thuật ngữ
2 GMV Gross Merchandise Value Tổng giá trị giao dịch
6 CNN Convolution Neuron Network Mạng nơ-ron tích chập
7 SVM Support Vector Machine Máy vectơ hỗ trợ
8 API Application Programming
Trang 11Danh sách hình vẽ
2.1 Kiến trúc mô hình mạng nơ-ron tích chập Alexnet 10
2.2 Khối residual block trong mô hình mạng ResNet 11
2.3 Kiến trúc mô hình mạng ResNet 11
2.4 Kiến trúc mô hình mạng Inception 12
2.5 Mô hình word2vec kiến trúc CBOW và Skip-gram 13
2.6 Sơ đồ kiến trúc Transformer kết hợp với cơ chế attention 14
2.7 Ví dụ về kết quả thuật toán Random Walk 16
2.8 Ví dụ về kết quả thuật toán Random Walk trong mô hình Metapath2Vec 17 2.9 Mô hình học sâu cơ bản và mô hình có sử dụng lớp embedding 19
2.10Mô hình biểu diễn vectơ bằng dữ liệu tên sản phẩm 20
2.11Mô hình biểu diễn vectơ bằng dữ liệu ảnh sản phẩm 22
2.12So sánh độ chính xác phân loại ảnh giữa các mô hình nhúng ảnh (image embedding) 24
3.1 Ví dụ đồ thị quan hệ sản phẩm thương mại điện tử 28
3.2 Quá trình mô hình xếp hạng điểm của các cạnh quan hệ 31
3.3 Mô hình nhúng đồ thị TransE 32
4.1 Thống kê sản phẩm theo ngành hàng 35
4.2 Ví dụ bản ghi dữ liệu sản phẩm thương mại điện tử 36
4.3 Biểu đồ dòng chảy hệ thống biểu diễn vectơ sản phẩm 38
4.4 Kết quả sản phẩm gợi ý lựa chọn khác 42
Trang 12Danh sách bảng
1.1 Các yếu tố ảnh hưởng đến quyết định mua hàng trực tuyến 2
1.2 Các thành phần dữ liệu trong thương mại điện tử 4
2.1 Ánh xạ dữ liệu đồ thị và mô hình ngôn ngữ tự nhiên 16
3.1 Thông tin của đỉnh trong dữ liệu đồ thị TMĐT 27
3.2 Thông tin các quan hệ trong dữ liệu đồ thị TMĐT 27
3.3 Hàm biến đổi của mô hình RESCAL, DistM ult, T ransE, và ComplEx 29 4.1 So sánh kết quả Hits@10, Hits@50 giữa các mô hình khai phá đồ thị TMĐT 41
Trang 13Chương 1
Đặt vấn đề
Trong chương này sẽ giới thiệu về lý do chọn đề tài Tiếp đó luận văn sẽ trình bàycác nghiên cứu liên quan về biểu diễn sản phẩm và nghiên cứu về khai phá đồ thị.Nhiệm vụ của luận văn sẽ được trình bày trong phần cuối của chương
1.1 Lý do chọn đề tài
Ngành thương mại điện tử (TMĐT) toàn cầu đang tăng trưởng mạnh mẽ và sẽđạt 6.54 tỉ đô vào năm 2022 [5] Tại Việt Nam doanh thu ngành TMĐT đang tăng9.0% hàng năm và dự đoán năm 2024 tỉ lệ người tham gia mua sắm trực tuyến lêntới 66.6%1 Những nền tảng mua sắm trực tuyến quốc tế như Amazon, eBay và ởViệt Nam như Tiki, Shopee, Lazada tham gia với mô hình thị trường B2C hoặcC2C đang có hàng triệu lượt truy cập mỗi ngày Các nền tảng TMĐT luôn cố gắngcải tiến dịch vụ để đem lại trải nghiệm tốt hơn khi mua sắm Số đơn vị tham giabán hàng ngày càng gia tăng và có đến hàng chục triệu sản phẩm được đăng bán,các nền tảng phải đối mặt với việc làm thế nào để phân phối đúng sản phẩm đếnđúng người dùng và đúng thời điểm Việc này đòi hỏi bộ phận phát triển phầnmềm dành phải nhiều nỗ lực bởi dữ liệu sản phẩm đa dạng trường thông tin chưachuẩn hóa, số lượng rất lớn và không thể thao tác xử lý thủ công
Những yếu tố ảnh hưởng đến quyết định mua sắm trực tuyến có thể kể là tính tincậy, tương tác ứng dụng, tính an toàn và dịch vụ chăm sóc khách hàng (bảng 1.1).Trong đó yếu tố trải nghiệm mua sắm trên website và ứng dụng điện thoại ảnhhưởng rất nhiều đến việc ra quyết định mua hàng
Để nâng cao chất lượng dịch vụ, các nền tảng thương mại điện tử cần tập trungnâng cao trải nghiệm mua sắm và giải quyết vấn đề về dữ liệu Bằng việc áp dụngphương pháp học máy, một số công việc này đã được xử lý tự động hoặc bán tựđộng Gần đây nhiều công bố nghiên cứu về kĩ thuật học sâu (Deep learning) từ
1 https://www.thinkwithgoogle.com/intl/en-apac/trends-and-insights/
e-conomy-sea-unlocking-200b-digital-opportunity
Trang 14Bảng 1.1: Các yếu tố ảnh hưởng đến quyết định mua hàng trực tuyếnNhóm yếu tố Yếu tố
Tính tin cậy
Nhận đúng sản phẩm khi muaGiao hàng đúng hẹn
Chất lượng sản phẩm đúng mô tả
UI/UX của Website và App
Cung cấp đầy đủ thông tin mô tả sản phẩmCung cấp đầy đủ đánh giá, phí vận chuyển
Dễ dàng tương tác với ứng dụngTốc độ phản hồi
Thao tác mua hàng đơn giảnKết quả sản phẩm đúng ý muốn tìm kiếm
Cá nhân hóa nội dung và trải nghiệm
Trang 15trường đại học và công ty công nghệ [22, 30, 33] đã ứng dụng cho nhiều bài toánlĩnh vực thương mại điện tử Những mô hình đó thường có lớp đầu vào là các đặctrưng mức dữ liệu thô (ví dụ: tên sản phẩm, giá sản phẩm, ảnh ) Sau đó mô hình
sẽ biến đổi ma trận qua các lớp tích chập và hàm kích hoạt (activation function),cuối cùng đến lớp đầu ra Quá trình học có giám sát này sẽ giúp mô hình cập nhậtlại giá trị ma trận của các lớp trong mạng học sâu Đây là cách tiếp cận phổ biếncho các bài toán như phân loại danh mục sản phẩm, phân loại quan điểm đánh giácủa người dùng và đã có những kết quả đáng kể Tuy nhiên hạn chế của mô hình
sử dụng đặc trưng mức thấp là yêu cầu thời gian huấn luyện dài để mô hình "học"được thông qua nhiều vòng lặp "epochs" Nếu dữ liệu trong pha huấn luyện quá
ít, mô hình sẽ không học được những đặc trưng thô này và làm giảm chất lượng.Trong lĩnh vực xử lý ảnh, xử lý âm thanh và xử lý ngôn ngữ tự nhiên, mô hình họcsâu có sử dụng thêm lớp pretrain (Lớp được huấn luyện từ tập dữ liệu lớn trướcđó) cho kết quả tốt hơn mô hình dùng đặc trưng mức thấp Cụ thể các bài toán
xử lý ảnh, mô hình pretrain[28, 34] (ResNet, Efficient Net) thực nghiệm bằng dữliệu imagenet [7] (gồm hơn 14 triệu ảnh được gán nhãn) đã giúp tăng độ chínhxác phân loại ảnh từ 50% lên tới 88.5% Mô hình ngôn ngữ [1, 19, 31] (Word2Vec,fastText, BERT) áp dụng cho bài toán phân loại chủ đề tin tức [6] đã giúp giảm
tỉ lệ lỗi từ 14% xuống 4.4% Trong lĩnh vực thương mại điện tử, thông tin của sảnphẩm là đầu vào rất quan trọng cho bài toán học máy Luận văn tập trung nghiêncứu mô hình biểu diễn vectơ sản phẩm để áp dụng cho các lớp bài toán học máyTMĐT Mô hình sẽ biểu diễn sản phẩm thông quan phương pháp khai phá đồ thị
dữ liệu lớn mà các cạnh là quan hệ của sản phẩm với các thành phần khác nhưngành hàng, thương hiệu, màu sắc, kích thước, số đánh giá, số lượng đã bán
1.2 Các nghiên cứu liên quan
Nghiên cứu của luận văn tập trung vào phương pháp biểu diễn sản phẩm dướidạng dữ liệu đồ thị Mục tiêu của mô hình nghiên cứu giúp tăng hiệu quả cho đadạng bài toán học máy của lĩnh vực thương mại điện tử Thành phần dữ liệu trongthương mại điện tử rất đa dạng như dữ liệu về sản phẩm, thông tin giao dịch, hoạtđộng tương tác, thông tin cá nhân (hình 1.2)
Vectơ biểu diễn sản phẩm là nguyên liệu quan trọng trong các bài toán học máy như
Trang 16Bảng 1.2: Các thành phần dữ liệu trong thương mại điện tử
Nhóm dữ liệu Thông tin
Dữ liệu sản phẩm
Tên sản phẩmThương hiệuĐịa điểmNgành hàngThuộc tính (xuất xứ, dung lượng, kích thước)Các lựa chọn loại mặt hàng (màu sắc, kích cỡ)
Thông tin giao dịch
Danh sách sản phẩm đơn hàng
Số lượngPhí vận chuyểnThông tin người mua, người bánĐịa chỉ lấy hàng, nhận hàng
Dữ liệu hoạt động tương tác
Thông tin View, Click trên Web/AppHoạt động thêm sản phẩm yêu thíchTheo dõi sản phẩm và giảm giá
Dữ liệu hội thoại, hỏi đáp
Dữ liệu đánh giá sản phẩm của người mua
Thông tin cá nhân
Họ tên, số điện thoại
Độ tuổi, nghề nghiệp, trường họcDanh sách bạn bè, người theo dõiLiên kết mạng xã hội
Trang 17hệ khuyến nghị sản phẩm, hệ thống tìm kiếm sản phẩm, phân loại sản phẩm Mỗidạng biểu diễn dữ liệu của sản phẩm sẽ có những ưu điểm và hạn chế Tùy thuộcvào từng bài toán và trường hợp cụ thể, mô hình sẽ lựa chọn tiếp cận dạng biểudiễn khác nhau Mô hình biểu diễn vectơ sản phẩm có thể phân loại thành 3 nhómchính gồm dữ liệu dạng nội dung (content–based), dạng hình ảnh (image-based)
và dạng đồ thị (graph-based)
a) Mô hình biểu diễn dữ liệu dạng nội dung
Nội dung của sản phẩm gồm: tên sản phẩm, mô tả ngắn, thông số kĩ thuật, chitiết sản phẩm Dữ liệu này được sử dụng nhiều nhất để xây dựng chức năng tìmkiếm sản phẩm Khi người dùng phát sinh tìm kiếm, hệ thống tìm kiếm sẽ xếphạng kết quả dựa trên thông tin (tên sản phẩm, mô tả) để chọn sản phẩm tươngđồng với nội dung tìm kiếm nhất Phương pháp này đang được sử dụng phổbiến cho những website TMĐT quy mô nhỏ và trung bình [13] bởi tính dễ triểnkhai tích hợp Hạn chế của phương pháp tìm kiếm fulltext-search này là kếtquả khó sắp xếp theo tiêu chí nâng cao cũng như không hoạt động tốt khi tênsản phẩm chỉ chứa từ khóa đồng nghĩa Để khắc phục vấn đề này, mô hình họcmáy dựa trên phương pháp nhúng từ (word embedding), nhúng câu (sentenceembedding) đã cho kết quả tốt hơn Ý tưởng này cũng được sàn thương mạiđiện tử lớn nhất của Indonesia (Tokopedia2) áp dụng [26] Bước đầu tiên tênsản phẩm sẽ được chuẩn hóa: chuyển tên sản phẩm về chữ thường, sau đó loại
bỏ ký tự không phải chữ, số và cuối cùng loại bỏ các từ xuất hiện ít hơn 5 lần
Mô hình biểu diễn nhúng từ word embedding theo hai phương pháp CBOW
và Skip-gram Phương pháp này được trình bày lần đầu tiên trong mô hìnhword2vec [19] Mô hình CBOW sẽ cố gắng dự đoán từ trung tâm dựa vào các
từ bên cạnh, trong khi đó phương pháp Skip-gram sẽ cố gắng dự đoán từ bêncạnh dựa vào từ trung tâm Trong nghiên cứu này, Tokopedia đã huấn luyện dữliệu của 25 triệu tên sản phẩm và đo bằng định tính với 4000 cặp tên sản phẩmtương đồng Đầu ra của mô hình pre-train này là vectơ biểu diễn các token từđiển Tên sản phẩm là tập hợp của các token Vectơ sản phẩm được tính bằngcách lấy trung bình giá trị các token Giá trị của vectơ biểu diễn sản phẩm đóđược làm đầu vào của bài toán phân loại danh mục (category classification) đạt
độ chính xác 86.71% Phương pháp này có ưu điểm nổi bật là biểu diễn sản
2 https://www.tokopedia.com
Trang 18phẩm đa dạng tên hiển thị (tên viết tắt, đồng nghĩa) Tuy nhiên hạn chế củacách biểu diễn này là không quan tâm đến thứ tự của các từ Tên sản phẩm cóthể bao gồm nhiều stop-word trong ngành như các cụm từ: "chất lượng", "giảmgiá", "khuyến mại", "bán chạy" Những từ này sẽ làm giảm độ chính xác nếutên sản phẩm xuất hiện nhiều thông tin nhiễu, sai chính tả.
b) Mô hình biểu diễn dữ liệu dạng hình ảnh
Hình ảnh trong lĩnh vực thương mại điện tử bao gồm: danh sách các ảnh mô
tả và ảnh chụp thực tế từ sản phẩm người mua Những mặt hàng ngành thờitrang sẽ không dễ dàng để gọi tên sản phẩm, bởi thế ý trải nghiệm của ngườidùng khi tìm kiếm sản phẩm là chụp hình và tìm ảnh tương tự Chức năng tìmkiếm hình ảnh đã được các công ty lớn như Google, Pinterest, Bing, Alibaba,v.v xây dựng sản phẩm (hình )
Biểu diễn hình ảnh sản phẩm là đầu vào của các bài toán tìm kiếm hình ảnh,gợi ý sản phẩm thời trang Mô hình cơ bản nhất là thông qua lớp pre-trainimage Đối với ngành thời trang, một số thông tin sản phẩm không có trong
mô tả ví dụ như kiểu dáng cổ áo, tay áo, họa tiết mà chỉ có thể quan sát bằnghình ảnh Việc embedding từ ảnh sẽ giúp khuyến nghị sản phẩm liên quan hơn
và tăng tỉ lệ chuyển đổi
Ngoài ưu điểm của mô hình là học được các đặc trưng ảnh sản phẩm, nhữnghạn chế của thuật toán này là giải quyết không tốt lớp bài toán mặt hàng kĩthuật, trong đó thông số kĩ thuật rất quan trọng Ví dụ hình ảnh TV, tủ lạnhtìm kiếm hình ảnh sẽ bị nhiễu rất nhiều và mô hình khó phân loại chính xácđược Ngoài ra ảnh embedding yêu cầu số chiều khá lớn để có thể phân loại tốt
Ví dụ mô hình inception net B7[27] số trọng số lên tới 400M, và số chiều ảnhđược nhúng lên tới 2048 chiều Số ảnh học có thể lên tới tỉ vectơ gây khó khăntrong việc triển khai rộng rãi
c) Mô hình biểu diễn dữ liệu dạng đồ thị
Dữ liệu dạng đồ thị trong lĩnh vực thương mại điện tử gồm chủ yếu là lịch sửtương tác (click, xem trang, mua hàng) của người dùng với các sản phẩm, đồthị mô tả quan hệ sản phẩm với thuộc tính, ngành hàng, thương hiệu, màu sắc,nơi bán, người bán Dạng dữ liệu đồ thị có tính lịch sử và dữ liệu giao dịch này
có đặc điểm có số lượng rất lớn và rất có ý nghĩa để hiểu các tương tác trong
Trang 19hệ thống TMĐT Một số nghiên cứu gần đây của công ty Pinterest, Alibaba,Wallmart, Amazon đã ứng dụng mô hình graph embedding để làm bài toán vềkhuyến nghị sản phẩm và đạt kết quả tích cực.
Mô hình Pinterest [21] công bố năm 2020 sử dụng graph embedding để biểudiễn các thực thể dữ liệu như người dùng, sản phẩm để làm một loạt bài toánkhuyến nghị đa mục tiêu như mô hình giúp tăng lượt tương tác vào trang danhmục, tăng tỉ lệ xem sản phẩm, tăng tỉ lệ chuyển đổi mua hàng
Mô hình của Alibaba [3, 36] đã giúp tăng 5% tổng giá trị giao dịch bằng việc
áp dụng dữ liệu đồ thị mạng lưới mối quan hệ người mua Nghiên cứu này xemxét đưa ra các sản phẩm khuyến nghị dựa trên lịch sử tương tác của bạn bè,đồng nghiệp trên sàn thương mại điện tử Nghiên cứu về hành vi thương mạiđiện tử cho thấy rằng người mua sắm thường tin tưởng sản phẩm khi được bạn
bè, đồng nghiệp giới thiệu hơn là thấy trên quảng cáo truyền thông
1.3 Mục tiêu của luận văn
Xây dựng các hệ thống khuyến nghị sản phẩm, tìm kiếm sản phẩm, gợi ý tìmkiếm, phân loại sản phẩm là công việc không đơn giản và đòi hỏi nhiều về thờigian, nguồn lực Mô hình trung gian biểu diễn sản phẩm là cách phương án tốt hơn
để áp dụng cho nhiều lớp bài toán học máy của thương mại điện tử Nhận thấytầm quan trọng của việc biểu diễn thông tin sản phẩm, luận văn tập trung nghiêncứu và đề xuất mô hình biểu diễn vectơ sản phẩm, sau đó cài đặt mô hình vào hệthống có thể triển khai thực tế giúp tăng hiệu quả cho các lớp bài toán học máylĩnh vực thương mại điện tử Phương pháp biểu diễn sản phẩm là phương phápkhai phá dữ liệu dạng đồ thị bằng kĩ thuật học sâu Thiết kế của mô hình này cầnđáp ứng tính tổng quát của lĩnh vực thương mại điện tử, khả thi để triển khai với
dữ liệu lớn thực tế và dễ dàng tích hợp với các mô hình học máy khác
Mô hình biểu diễn dữ liệu ở dạng đồ thị, trong đó mỗi mã sản phẩm, thông tin sảnphẩm là các đỉnh và cạnh là mối quan hệ của sản phẩm với những thuộc tính cònlại Kết quả thực nghiệm mô hình đã chứng tỏ sự hiệu quả với tập dữ liệu TMĐTlớn, kết quả huấn luyện của dữ liệu biểu diễn dạng đồ thị hơn 176 triệu cạnh quan
hệ đạt kết quả Hits@10 đạt 0.737 và Hits@50 đạt 0.962
Trang 201.4 Cấu trúc luận văn
Luận văn sẽ trình bày và cấu trúc như sau Chương 1 giới thiệu về lý do, mục tiêucủa nghiên cứu đề tài và đề cập một số nghiên cứu liên quan Chương 2 trình bày
cơ sở lý thuyết về các mô hình biểu diễn dữ liệu dạng văn bản, ảnh, đồ thị và khảosát các phương pháp học máy biểu diễn vectơ sản phẩm hiện nay Mô hình biểudiễn vectơ sản phẩm bằng phương pháp khai phá đồ thị và đánh giá sẽ được trìnhbày ở chương 3 Chương 4 báo cáo và đánh giá kết quả nghiên cứu thực nghiệm.Chương cuối cùng trình bày kết luận và thảo luận một số hướng mở rộng trongtương lai
Kết luận chương 1
Trong chương này, luận văn đã giới thiệu khái quát lý do đề tài Bên cạnh đó luậnvăn trình bày các nghiên cứu liên quan về biểu diễn sản phẩm và nghiên cứu vềkhai phá đồ thị và mục tiêu của luận văn
Chương tiếp theo sẽ trình bày về các cơ sở lý thuyết và kiến thức nền tảng Cụ thểluận văn trình bày về mô hình biểu diễn dữ liệu văn bản, dữ liệu ảnh, dữ liệu đồthị bằng kĩ thuật học sâu Tiếp đó chương này sẽ khảo sát các phương pháp biểudiễn vectơ sản phẩm
Trang 212.1.1 Phương pháp biểu diễn dữ liệu ảnh
Ảnh được biểu diễn bằng giá trị của các pixel 2 chiều (ảnh đen trắng), và 3 chiều(ảnh màu - rbg) Kích thước của ma trận ảnh độ phân giải cao sẽ tốn chi phí lưutrữ và khó xử lý trong các bài toán phân loại ảnh, xác định thực thể trong ảnh,v.v Một số mô hình biểu diễn dữ liệu ảnh bằng phương pháp học sâu là Alexnet,ResNet, InceptionNet, v.v
• Mô hình Alexnet
Năm 2012, một trong những mô hình đầu tiên sử dụng mạng tích chập (CNN)
là mô hình mạng Alexnet [15] đã được đề xuất để giải quyết bài toán phânloại dữ liệu 15 triệu ảnh Mô hình nhận đầu vào là ảnh kích thước 224x224x3
và đi qua 8 lớp tích chập (hình 2.1) Trong đó lớp thứ 6 và lớp thứ 7 là lớpkết nối đầy đủ (fully-connection) với 4096 nơ-ron đầu ra kết hợp với việc sửdụng dropout để giảm overfitting, lớp cuối cùng có 1000 nơ-ron đầu ra tươngứng với từng loại danh mục ảnh Thông tin vectơ biểu diễn ảnh sẽ được trích
từ giá trị của lớp giữa Tổng cộng mô hình có 60 triệu tham số sử dụng đểhuấn luyện Trong bài toán biểu diễn ảnh, mô hình Alexnet đã sử dụng nhiềuphương pháp xử lý dữ liệu và mạng nơ-ron mà các mô hình cải tiến sau nàyvẫn còn kế thừa Kĩ thuật làm giàu dữ liệu (data augmentation) để giải quyết
Trang 22Hình 2.1: Kiến trúc mô hình mạng nơ-ron tích chập Alexnet
vấn đề thiếu dữ liệu ảnh Mô hình dịch chuyển ảnh từ kích thước gốc về kíchthước 224x224 Bên cạnh đó mô hình cũng sử dụng phương pháp sinh dữ liệubằng việc thay đổi độ sáng, lật ảnh, đổi màu Mô hình AlexNet không sử dụnghàm Tanh mà giới thiệu hàm kích hoạt mới là ReLU giúp quá trình huấn luyệnnhanh hơn
• Mô hình ResNet
Mô hình ResNet[34] được đề xuất năm 2015 bởi Microsoft Mục tiêu ra đờicủa mô hình là khắc phục vấn đề vanishing gradient (giá trị đạo hàm quá nhỏkhi qua nhiều lớp học sâu) Kiến trúc của mô hình ResNet gồm nhiều residualblock (hình 2.2) Ý tưởng của residual block là từ x(input) qua một số lớpnơ-ron tích chập thu được giá trị F(x) sau đó cộng thêm x vào để được H(x)
= F(x) + x bỏ qua một số lớp và gộp với lớp trước Điều này giúp mô hình
dễ học hơn khi thêm các feature từ layer trước vào Bằng phương pháp này,
mô hình ResNet có thể hỗ trợ huấn luyện với 152 layer (hình 2.3)
• Mô hình InceptionNet
Mô hình Inception [27] được đề xuất năm 2016 bởi các kĩ sư Google Mô hìnhnày có các inception layer (hình 2.4) giúp mỗi lớp tích chập có thể sử nhiềukernel size như 1x1, 3x3, 5x5 và tổng hợp kết quả lại Phương pháp này giúp
mô hình học được nhiều thông tin hơn sau mỗi layer
Trang 23Hình 2.2: Khối residual block trong mô hình mạng ResNet
Hình 2.3: Kiến trúc mô hình mạng ResNet
2.1.2 Phương pháp biểu diễn nội dung văn bản
Trong lĩnh vực xử lý ngôn ngữ tự nhiên, biểu diễn từ (word embedding) là đầu vàoquan trọng để mô hình học sâu huấn luyện hiệu quả Giá trị vectơ này giúp biểudiễn ngữ cảnh của một từ trong tài liệu văn bản so với các từ khác Bằng cáchnày mô hình học máy có thể huấn luyện với tập dữ liệu nhỏ hơn nhưng vẫn đạt độchính xác tốt do "học" được ngữ cảnh, từ đồng nghĩa từ tập dữ liệu đã huấn luyện
từ trước (pre-training) Một số mô hình học sâu để biểu diễn vectơ ngôn ngữ phổbiến là Word2Vec [19], Fasttext [1], ELMO[23], GPT[24], BERT[31], XLNet[37],ALBERT[16], ELECTRA[4]
• Mô hình Word2Vec
Một trong những nghiên cứu đầu tiên về biểu diễn từ bằng phương pháp họcsâu là mô hình word2vec[19] Phương pháp này biểu diễn vectơ từ thông qua
Trang 24Hình 2.4: Kiến trúc mô hình mạng Inception
việc dự đoán từ và học các từ xung quanh Có hai cách xây dựng mô hình này
là CBOW và Skip-gram (hình 2.5) Với thiết kế của CBOW, mô hình nhậnđầu vào là các từ ngữ cảnh, đầu ra là xác suất dự đoán từ đích Còn thiết kếSkip-gram ngược lại, nhận đầu vào là từ đích và đầu ra là xác suất của các từngữ cảnh Thực nghiệm cho thấy mô hình skip-gram đạt hiệu quả hơn và cókhả năng dự đoán các từ ít xuất hiện
• Mô hình ngôn ngữ Fasttext
Mô hình Fasttext [1] đề xuất năm 2017 do Facebook phát triển Mô hình nàycải tiến so với Word2Vec là thay vì huấn luyện cho đơn vị "từ" thì sẽ chia nhỏthành n-gram cho "từ" Ví dụ "apple" sẽ tách thành "app", "ppl", "ple", vàvectơ của từ "apple" bằng tổng của tất cả các từ này Ưu điểm của mô hìnhnày giúp giải quyết tốt với các từ hiếm gặp
• Mô hình ngôn ngữ BERT
Năm 2018, các kĩ sư Google đã nghiên cứu công bố mô hình ngôn ngữ BERT(Bidirectional Encoder Representations from Transformers) biểu diễn "từ"theo hai chiều bằng kĩ thuật Transformer (hình 2.6) Cơ chế attention của
kĩ thuật Transformer là gửi các từ trong câu văn mà không cần quan tâm đếnchiều của câu Transformer bao gồm 2 pha là mã hóa và giải mã
Trang 25Hình 2.5: Mô hình word2vec kiến trúc CBOW và Skip-gram
- Mã hóa (encoder): Gồm 6 lớp liên tiếp nhau, mỗi layer sẽ bao gồm mộtsub-layer là Multi-Head Attention kết hợp với fully-connected layer như mô
tả ở nhánh encoder bên trái của hình 2.6 Kết thúc quá trình mã hóa ta đượcvector embedding output cho mỗi từ
- Giải mã (decoder): Kiến trúc cũng bao gồm các layers liên tiếp nhau và mỗimột layer của pha giải hóa cũng có các sub-layers gần tương tự như layer củapha mã hóa nhưng bổ sung thêm sub-layer đầu tiên là Masked Multi-HeadAttention có tác dụng loại bỏ các từ trong tương lai khỏi quá trình attention.Đặc điểm này cho phép mô hình học được ngữ cảnh của từ dựa trên toàn bộcác từ xung quanh nó bao gồm cả từ bên trái và từ bên phải Một ưu điểmcủa mô hình BERT là kết quả huấn luyện có thể fine-tuning (tinh chỉnh) môhình áp dụng cho các bài toán xử lý ngôn ngữ Các kiến trúc biến thể mớicủa mô hình BERT vẫn đang được nghiên cứu và tiếp tục phát triển nhưELECTRA[4], ALBERT [16], v.v
Trang 26Hình 2.6: Sơ đồ kiến trúc Transformer kết hợp với cơ chế attention
Trang 272.1.3 Phương pháp biểu diễn dữ liệu đồ thị
Dữ liệu đồ thị là đồ thị biểu diễn dữ liệu các quan hệ giữ thực thể và rất phổ biến
để mô tả hệ thống trên thực tế Một số loại dữ liệu đồ thị kể đến là đồ thị mạng
xã hội, đồ thị mạng y sinh, đồ thị thông tin các website trên internet, đồ thị bản
đồ, v.v Đồ thị G(V, E) là cấu trúc dữ liệu gồm các đỉnh (vertices - nodes) và tậpcạnh (edges - links) Cạnh trong đồ thị có thể đánh trọng số, ví dụ giá trị trọng sốcủa cạnh biểu diễn khoảng cách giữa 2 đỉnh (thành phố) Tùy theo dữ liệu mà đồthị có thể là đồ thị có hướng hoặc vô hướng Dữ liệu đồ thị được biểu diễn bằngnhiều phương pháp khác nhau
• Biểu diễn đồ thị bằng danh sách kề
Phương pháp biểu diễn danh sách kề sẽ sử dụng 1 danh sách để lưu trữ cáccạnh của đỉnh tương ứng Với phương pháp này, độ phức tạp giảm còn O(n).Tuy nhiên cách biểu diễn đồ thị bằng danh sách kề, thời gian để duyệt đồ thịcác cung sẽ rất chậm
• Biểu diễn đồ thị bằng vectơ nhúng
Các bài toán sử dụng mô hình học máy này thường nhận đầu vào là dữ liệu rờirạc như vectơ, số, chữ, ảnh Hai phương pháp biểu diễn đồ thị bằng ma trận
kề và danh sách kề đều có một hạn chế lớn là khó áp dụng cho các mô hìnhhọc sâu Một số nghiên cứu biểu diễn đồ thị bằng vectơ nhúng là Node2Vec[10], Metapath2Vec [8], GraphSage [11]
Trang 28của đồ thị được ánh xạ trong mô hình ngôn ngữ được trình bày trongbảng 2.1 Mô hình được huấn luyện bằng phương pháp Skip-gram Các
"sentences" được sinh bằng thuật toán random walk Cụ thể mỗi đỉnh
sẽ loang cạnh ngẫu nhiên để tạo thành đường đi (ví dụ trong hình 2.7)
Mô hình Node2Vec đã giúp biểu diễn dữ liệu đồ thị phức tạp thành vectơnhúng (node embedding) biểu diễn cấu trúc (structure-based)
Hình 2.7: Ví dụ về kết quả thuật toán Random Walk
Bảng 2.1: Ánh xạ dữ liệu đồ thị và mô hình ngôn ngữ tự nhiên
Đồ thị quan hệ Ngôn ngữ tự nhiên
Đỉnh (node) Từ (token)Cạnh (edge) Câu (sentence)Nhúng đỉnh (node embedding) Nhúng từ (word embedding)
– Mô hình Metapath2Vec
Trang 29Hạn chế của mô hình node2vec này là không học được thông tin thuộctính của cạnh và đỉnh Mô hình cải tiến tốt hơn của node2vec có thể kểđến là mô hình metapath2vec [8] Mô hình có nhiều ưu điểm hơn khi hỗtrợ dữ liệu đồ thị nhiều loại đỉnh và nhiều loại quan hệ.Phương pháp huấnluyện của mô hình vẫn là Skip-gram tuy nhiên thuật toán Random Walk
đã được cải tiến để hỗ trợ sinh các cạnh đường đi với nhiều loại đỉnh vàloại quan hệ (hình 2.8) Tuy nhiên hạn chế của mô hình là thời gian xử lý
để sinh cạnh ngẫu nhiên rất lâu
Hình 2.8: Ví dụ về kết quả thuật toán Random Walk trong mô hình Metapath2Vec
– Mô hình Pytorch Big Graph
Năm 2019 mô hình do nhóm nhiên cứu Facebook công bố [17] có khả năng
xử lý đồ thị lớn và rất lớn (mở rộng dữ liệu lên tới 2 tỉ cạnh quan hệ)
Ý tưởng của mô hình là xếp hạng điểm các cạnh quan hệ và loại trừ cáccạnh quan hệ giả (negative sample) và tính điểm cao cho cạnh quan hệđúng (positive sample) Nghiên cứu của luận văn tiếp cận theo ý tưởng
mô hình này và cải tiến để phù hợp với lĩnh vực thương mại điện tử
Trang 302.2 Khảo sát các phương pháp biểu diễn vectơ sản phẩm
2.2.1 Phân tích đặc điểm dữ liệu thương mại điện tử
Mỗi website thương mại điện tử sẽ lựa chọn mô hình, phân khúc khách hàng và thịtrường mục tiêu khác nhau Có hai nhóm mô hình thương mại điện tử phổ biến là:
• Mô hình TMĐT B2C 1 phục vụ hai đối tượng chính là nhà bán hàng và ngườimua sắm cá nhân Ở Việt Nam có thể kể đến như sàn TMĐT Shopee2, Tiki3,Lazada4, Sendo5 với số lượng người dùng và giao dịch lớn Có những mô hìnhB2C nhưng đối tượng phục vụ chỉ là người mua, đó là những doanh nghiệpbán lẻ tham gia bán hàng trực tuyến như Adidas6, Bitis7 Những website nàythường chỉ phục vụ một vài ngành hàng chính
• Mô hình TMĐT C2C 8 phục vụ hai đối tượng chính là nhà bán hàng cá nhân
và người mua sắm cá nhân Với mô hình này website đóng vai trò cung cấpnền tảng trung gian để người mua và người bán trao đổi trực tiếp với nhau.Shopee, Sendo, Chợ tốt9, Vật giá10 là những website phổ biến tại Việt Nam
đi theo mô hình C2C Đặc điểm của mô hình này là lượng dữ liệu sản phẩm,giao dịch và người dùng rất lớn, cùng với đó là sự phân mảnh, không chuẩnhóa của dữ liệu
Dữ liệu thương mại điện tử quy mô lớn có những đặc điểm chung như:
- Số lượng sản phẩm lớn
- Dữ liệu chưa chuẩn hóa, bị nhiễu
- Sản phẩm trùng lặp, sai lệch thông tin sản phẩm