Xây dựng mô hình biểu diễn vectơ sản phẩm thương mại điện tử dựa trên phương pháp khai phá đồ thị

Nghiên cứu của luận văn tập trung vào mô hình biểu diễn vectơ sản phẩm giàu thông tin để làm đầu vào cho các bài toán học máy ứng dụng trong thương mại điện tử.. Mô hình sẽ biểu diễn sản

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 3

VIETNAM NATIONAL UNIVERSITY, HANOIUNIVERSITY OF ENGINEERING AND TECHNOLOGY

Tran Minh Tuan

A PROPOSED MODEL FOR VECTOR REPRESENTATION OFE-COMMERCE PRODUCTS BASED ON GRAPH EMBEDDING

THE MASTER THESISMajor: Computer Science

Supervisor: Dr Vo Dinh Hieu

HANOI - 2020

Trang 4

Lời cam đoan

Tôi là Trần Minh Tuấn, học viên cao học lớp K26-KHMT, ngành Khoa học thôngtin Tôi xin cam đoan luận văn “Xây dựng mô hình biểu diễn vectơ sản phẩmthương mại điện tử dựa trên phương pháp khai phá đồ thị” là công trình nghiêncứu, xây dựng của riêng mình Các nội dung nghiên cứu, kết quả trong luận văn

là xác thực

Các thông tin sử dụng trong luận văn là có cơ sở và không có nội dung nào saochép từ các tài liệu mà không ghi rõ trích dẫn tham khảo Tôi xin chịu trách nhiệm

về lời cam đoan này

Hà Nội, ngày tháng năm 2020

Học viên cao học

Trần Minh Tuấn

Trang 5

Lời cảm ơn

Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới thầy TS Võ ĐìnhHiếu, người đã tận tình hướng dẫn và chỉ bảo tôi trong suốt thời gian học tập bốnnăm đại học, hai năm cao học và đặt biệt là thời gian thực hiện luận văn thạc sỹ.Tôi cũng xin chân thành cảm ơn các thầy, cô trong trường Đại học Công Nghệ và

sự hỗ trợ của đề tài QG.18.61 của Đại học Quốc gia Hà Nội đã tạo mọi điều kiệnthuận lợi cho tôi học tập và nghiên cứu

Tôi cũng xin cảm ơn đồng nghiệp tại Công ty Cổ phần Khoa học Dữ liệu đã hỗtrợ thiết bị phần cứng, đóng góp dữ liệu cho đề tài này

Tôi xin gửi lời cảm ơn đến các thầy cô, các anh chị, các bạn trong phòng thí nghiệmcủa bộ môn Công nghệ phần mềm đã hỗ trợ tôi rất nhiều về kiến thức chuyên môntrong quá trình thực hiện luận văn

Tôi xin cảm ơn các bạn trong lớp K26 đã ủng hộ và khuyến khích tôi trong suốtquá trình học tập tại trường

Cuối cùng, tôi xin được gửi cám ơn vô hạn tới gia đình, người thân và bạn bè,những người đã luôn bên cạnh, giúp đỡ và động viên tôi trong những năm thánghọc tập nghiên cứu và trong cuộc sống

Hà Nội, ngày tháng năm 2020

Học viên

Trần Minh Tuấn

Trang 6

Tóm tắt

Tóm tắt:

Những năm gần đây, các hoạt động trong lĩnh vực thương mại điện tử ngày càng phát triển tại Việt Nam và quốc tế Các nền tảng website thương mại điện tử đang nỗ lực đem lại trải nghiệm tốt hơn cho người mua sắm Một trong những yếu tố quan trọng của lĩnh vực này là khả năng xử lý dữ liệu khi số lượng sản phẩm và giao dịch gia tăng mỗi ngày Các dữ liệu này sẽ được ứng dụng trong bài toán như gợi ý sản phẩm, phân loại sản phẩm, trích xuất thông tin, tìm kiếm sản phẩm.

Nghiên cứu của luận văn tập trung vào mô hình biểu diễn vectơ sản phẩm giàu thông tin

để làm đầu vào cho các bài toán học máy ứng dụng trong thương mại điện tử Mô hình này sử dụng đặc trưng của thuộc tính sản phẩm và dữ liệu mối quan hệ Nghiên cứu sử dụng phương pháp "graph embedding" - học không giám sát các thuộc tính của sản phẩm

từ đồ thị quan hệ Nghiên cứu cũng chỉ ra sự hiệu quả của mô hình khi thực nghiệm với

dữ liệu đồ thị sản phẩm hàng chục triệu đỉnh và trăm triệu cạnh quan hệ.

Từ khóa: thương mại điện tử, khai phá đồ thị, vectơ hóa sản phẩm, mạng nơ-ron tích chập

Trang 7

Abstract: In recent years, activities in the field of e-commerce have been increasingly developing in Vietnam and internationally E-commerce website platforms are striving to bring a better experience to shoppers One of the key factors of this area is the ability to process data as the number of products and transactions increases every day These data will be applied in problems such as product suggestions, product classification, information extraction, product search.

The thesis’s research focuses on constructing the model product vector representation as

an input to the applied many tasks in e-commerce This model uses the characteristics of product attributes and the relationship between them Research using the method graph embedding - unsupervised learning of product attributes from the e-commerce graph The research also shows the effectiveness of the model when experimenting with millions of product vertices and hundreds of millions of edges.

Keywords: e-commerce, graph embedding, product embedding, convolution neural work

Trang 8

net-Mục lục

1.1 Lý do chọn đề tài 1

1.2 Các nghiên cứu liên quan 3

1.3 Mục tiêu của luận văn 7

1.4 Cấu trúc luận văn 8

Kết luận chương 1 8

Chương 2 Cơ sở lý thuyết và khảo sát các phương pháp 9 2.1 Cơ sở lý thuyết 9

2.1.1 Phương pháp biểu diễn dữ liệu ảnh 9

2.1.2 Phương pháp biểu diễn nội dung văn bản 11

2.1.3 Phương pháp biểu diễn dữ liệu đồ thị 15

2.2 Khảo sát các phương pháp biểu diễn vectơ sản phẩm 18

2.2.1 Phân tích đặc điểm dữ liệu thương mại điện tử 18

2.2.2 Biểu diễn sản phẩm bằng nhúng tên sản phẩm 19

2.2.3 Biểu diễn sản phẩm bằng hình ảnh 21

Trang 9

Chương 3 Mô hình biểu diễn vector sản phẩm bằng phương pháp

3.1 Định nghĩa bài toán 26

3.2 Mô tả phương pháp 29

3.3 Đánh giá phương pháp 32

3.3.1 Phương pháp đánh giá mô hình 32

3.3.2 Điểm mạnh của phương pháp 33

3.3.3 Hạn chế của phương pháp 33

Chương 4 Thực nghiệm và đánh giá kết quả 35 4.1 Phương pháp và dữ liệu thực nghiệm 35

4.2 Xây dựng hệ thống trong thực tế với dữ liệu lớn 37

4.3 Kết quả thực nghiệm và phân tích 41

Trang 10

Danh mục các từ viết tắt và thuật ngữ

2 GMV Gross Merchandise Value Tổng giá trị giao dịch

6 CNN Convolution Neuron Network Mạng nơ-ron tích chập

7 SVM Support Vector Machine Máy vectơ hỗ trợ

8 API Application Programming

Trang 11

Danh sách hình vẽ

2.1 Kiến trúc mô hình mạng nơ-ron tích chập Alexnet 10

2.2 Khối residual block trong mô hình mạng ResNet 11

2.3 Kiến trúc mô hình mạng ResNet 11

2.4 Kiến trúc mô hình mạng Inception 12

2.5 Mô hình word2vec kiến trúc CBOW và Skip-gram 13

2.6 Sơ đồ kiến trúc Transformer kết hợp với cơ chế attention 14

2.7 Ví dụ về kết quả thuật toán Random Walk 16

2.8 Ví dụ về kết quả thuật toán Random Walk trong mô hình Metapath2Vec 17 2.9 Mô hình học sâu cơ bản và mô hình có sử dụng lớp embedding 19

2.10Mô hình biểu diễn vectơ bằng dữ liệu tên sản phẩm 20

2.11Mô hình biểu diễn vectơ bằng dữ liệu ảnh sản phẩm 22

2.12So sánh độ chính xác phân loại ảnh giữa các mô hình nhúng ảnh (image embedding) 24

3.1 Ví dụ đồ thị quan hệ sản phẩm thương mại điện tử 28

3.2 Quá trình mô hình xếp hạng điểm của các cạnh quan hệ 31

3.3 Mô hình nhúng đồ thị TransE 32

4.1 Thống kê sản phẩm theo ngành hàng 35

4.2 Ví dụ bản ghi dữ liệu sản phẩm thương mại điện tử 36

4.3 Biểu đồ dòng chảy hệ thống biểu diễn vectơ sản phẩm 38

4.4 Kết quả sản phẩm gợi ý lựa chọn khác 42

Trang 12

Danh sách bảng

1.1 Các yếu tố ảnh hưởng đến quyết định mua hàng trực tuyến 2

1.2 Các thành phần dữ liệu trong thương mại điện tử 4

2.1 Ánh xạ dữ liệu đồ thị và mô hình ngôn ngữ tự nhiên 16

3.1 Thông tin của đỉnh trong dữ liệu đồ thị TMĐT 27

3.2 Thông tin các quan hệ trong dữ liệu đồ thị TMĐT 27

3.3 Hàm biến đổi của mô hình RESCAL, DistM ult, T ransE, và ComplEx 29 4.1 So sánh kết quả Hits@10, Hits@50 giữa các mô hình khai phá đồ thị TMĐT 41

Trang 13

Chương 1

Đặt vấn đề

Trong chương này sẽ giới thiệu về lý do chọn đề tài Tiếp đó luận văn sẽ trình bàycác nghiên cứu liên quan về biểu diễn sản phẩm và nghiên cứu về khai phá đồ thị.Nhiệm vụ của luận văn sẽ được trình bày trong phần cuối của chương

1.1 Lý do chọn đề tài

Ngành thương mại điện tử (TMĐT) toàn cầu đang tăng trưởng mạnh mẽ và sẽđạt 6.54 tỉ đô vào năm 2022 [5] Tại Việt Nam doanh thu ngành TMĐT đang tăng9.0% hàng năm và dự đoán năm 2024 tỉ lệ người tham gia mua sắm trực tuyến lêntới 66.6%1 Những nền tảng mua sắm trực tuyến quốc tế như Amazon, eBay và ởViệt Nam như Tiki, Shopee, Lazada tham gia với mô hình thị trường B2C hoặcC2C đang có hàng triệu lượt truy cập mỗi ngày Các nền tảng TMĐT luôn cố gắngcải tiến dịch vụ để đem lại trải nghiệm tốt hơn khi mua sắm Số đơn vị tham giabán hàng ngày càng gia tăng và có đến hàng chục triệu sản phẩm được đăng bán,các nền tảng phải đối mặt với việc làm thế nào để phân phối đúng sản phẩm đếnđúng người dùng và đúng thời điểm Việc này đòi hỏi bộ phận phát triển phầnmềm dành phải nhiều nỗ lực bởi dữ liệu sản phẩm đa dạng trường thông tin chưachuẩn hóa, số lượng rất lớn và không thể thao tác xử lý thủ công

Những yếu tố ảnh hưởng đến quyết định mua sắm trực tuyến có thể kể là tính tincậy, tương tác ứng dụng, tính an toàn và dịch vụ chăm sóc khách hàng (bảng 1.1).Trong đó yếu tố trải nghiệm mua sắm trên website và ứng dụng điện thoại ảnhhưởng rất nhiều đến việc ra quyết định mua hàng

Để nâng cao chất lượng dịch vụ, các nền tảng thương mại điện tử cần tập trungnâng cao trải nghiệm mua sắm và giải quyết vấn đề về dữ liệu Bằng việc áp dụngphương pháp học máy, một số công việc này đã được xử lý tự động hoặc bán tựđộng Gần đây nhiều công bố nghiên cứu về kĩ thuật học sâu (Deep learning) từ

1 https://www.thinkwithgoogle.com/intl/en-apac/trends-and-insights/

e-conomy-sea-unlocking-200b-digital-opportunity

Trang 14

Bảng 1.1: Các yếu tố ảnh hưởng đến quyết định mua hàng trực tuyếnNhóm yếu tố Yếu tố

Tính tin cậy

Nhận đúng sản phẩm khi muaGiao hàng đúng hẹn

Chất lượng sản phẩm đúng mô tả

UI/UX của Website và App

Cung cấp đầy đủ thông tin mô tả sản phẩmCung cấp đầy đủ đánh giá, phí vận chuyển

Dễ dàng tương tác với ứng dụngTốc độ phản hồi

Thao tác mua hàng đơn giảnKết quả sản phẩm đúng ý muốn tìm kiếm

Cá nhân hóa nội dung và trải nghiệm

Trang 15

trường đại học và công ty công nghệ [22, 30, 33] đã ứng dụng cho nhiều bài toánlĩnh vực thương mại điện tử Những mô hình đó thường có lớp đầu vào là các đặctrưng mức dữ liệu thô (ví dụ: tên sản phẩm, giá sản phẩm, ảnh ) Sau đó mô hình

sẽ biến đổi ma trận qua các lớp tích chập và hàm kích hoạt (activation function),cuối cùng đến lớp đầu ra Quá trình học có giám sát này sẽ giúp mô hình cập nhậtlại giá trị ma trận của các lớp trong mạng học sâu Đây là cách tiếp cận phổ biếncho các bài toán như phân loại danh mục sản phẩm, phân loại quan điểm đánh giácủa người dùng và đã có những kết quả đáng kể Tuy nhiên hạn chế của mô hình

sử dụng đặc trưng mức thấp là yêu cầu thời gian huấn luyện dài để mô hình "học"được thông qua nhiều vòng lặp "epochs" Nếu dữ liệu trong pha huấn luyện quá

ít, mô hình sẽ không học được những đặc trưng thô này và làm giảm chất lượng.Trong lĩnh vực xử lý ảnh, xử lý âm thanh và xử lý ngôn ngữ tự nhiên, mô hình họcsâu có sử dụng thêm lớp pretrain (Lớp được huấn luyện từ tập dữ liệu lớn trướcđó) cho kết quả tốt hơn mô hình dùng đặc trưng mức thấp Cụ thể các bài toán

xử lý ảnh, mô hình pretrain[28, 34] (ResNet, Efficient Net) thực nghiệm bằng dữliệu imagenet [7] (gồm hơn 14 triệu ảnh được gán nhãn) đã giúp tăng độ chínhxác phân loại ảnh từ 50% lên tới 88.5% Mô hình ngôn ngữ [1, 19, 31] (Word2Vec,fastText, BERT) áp dụng cho bài toán phân loại chủ đề tin tức [6] đã giúp giảm

tỉ lệ lỗi từ 14% xuống 4.4% Trong lĩnh vực thương mại điện tử, thông tin của sảnphẩm là đầu vào rất quan trọng cho bài toán học máy Luận văn tập trung nghiêncứu mô hình biểu diễn vectơ sản phẩm để áp dụng cho các lớp bài toán học máyTMĐT Mô hình sẽ biểu diễn sản phẩm thông quan phương pháp khai phá đồ thị

dữ liệu lớn mà các cạnh là quan hệ của sản phẩm với các thành phần khác nhưngành hàng, thương hiệu, màu sắc, kích thước, số đánh giá, số lượng đã bán

1.2 Các nghiên cứu liên quan

Nghiên cứu của luận văn tập trung vào phương pháp biểu diễn sản phẩm dướidạng dữ liệu đồ thị Mục tiêu của mô hình nghiên cứu giúp tăng hiệu quả cho đadạng bài toán học máy của lĩnh vực thương mại điện tử Thành phần dữ liệu trongthương mại điện tử rất đa dạng như dữ liệu về sản phẩm, thông tin giao dịch, hoạtđộng tương tác, thông tin cá nhân (hình 1.2)

Vectơ biểu diễn sản phẩm là nguyên liệu quan trọng trong các bài toán học máy như

Trang 16

Bảng 1.2: Các thành phần dữ liệu trong thương mại điện tử

Nhóm dữ liệu Thông tin

Dữ liệu sản phẩm

Tên sản phẩmThương hiệuĐịa điểmNgành hàngThuộc tính (xuất xứ, dung lượng, kích thước)Các lựa chọn loại mặt hàng (màu sắc, kích cỡ)

Thông tin giao dịch

Danh sách sản phẩm đơn hàng

Số lượngPhí vận chuyểnThông tin người mua, người bánĐịa chỉ lấy hàng, nhận hàng

Dữ liệu hoạt động tương tác

Thông tin View, Click trên Web/AppHoạt động thêm sản phẩm yêu thíchTheo dõi sản phẩm và giảm giá

Dữ liệu hội thoại, hỏi đáp

Dữ liệu đánh giá sản phẩm của người mua

Thông tin cá nhân

Họ tên, số điện thoại

Độ tuổi, nghề nghiệp, trường họcDanh sách bạn bè, người theo dõiLiên kết mạng xã hội

Trang 17

hệ khuyến nghị sản phẩm, hệ thống tìm kiếm sản phẩm, phân loại sản phẩm Mỗidạng biểu diễn dữ liệu của sản phẩm sẽ có những ưu điểm và hạn chế Tùy thuộcvào từng bài toán và trường hợp cụ thể, mô hình sẽ lựa chọn tiếp cận dạng biểudiễn khác nhau Mô hình biểu diễn vectơ sản phẩm có thể phân loại thành 3 nhómchính gồm dữ liệu dạng nội dung (content–based), dạng hình ảnh (image-based)

và dạng đồ thị (graph-based)

a) Mô hình biểu diễn dữ liệu dạng nội dung

Nội dung của sản phẩm gồm: tên sản phẩm, mô tả ngắn, thông số kĩ thuật, chitiết sản phẩm Dữ liệu này được sử dụng nhiều nhất để xây dựng chức năng tìmkiếm sản phẩm Khi người dùng phát sinh tìm kiếm, hệ thống tìm kiếm sẽ xếphạng kết quả dựa trên thông tin (tên sản phẩm, mô tả) để chọn sản phẩm tươngđồng với nội dung tìm kiếm nhất Phương pháp này đang được sử dụng phổbiến cho những website TMĐT quy mô nhỏ và trung bình [13] bởi tính dễ triểnkhai tích hợp Hạn chế của phương pháp tìm kiếm fulltext-search này là kếtquả khó sắp xếp theo tiêu chí nâng cao cũng như không hoạt động tốt khi tênsản phẩm chỉ chứa từ khóa đồng nghĩa Để khắc phục vấn đề này, mô hình họcmáy dựa trên phương pháp nhúng từ (word embedding), nhúng câu (sentenceembedding) đã cho kết quả tốt hơn Ý tưởng này cũng được sàn thương mạiđiện tử lớn nhất của Indonesia (Tokopedia2) áp dụng [26] Bước đầu tiên tênsản phẩm sẽ được chuẩn hóa: chuyển tên sản phẩm về chữ thường, sau đó loại

bỏ ký tự không phải chữ, số và cuối cùng loại bỏ các từ xuất hiện ít hơn 5 lần

Mô hình biểu diễn nhúng từ word embedding theo hai phương pháp CBOW

và Skip-gram Phương pháp này được trình bày lần đầu tiên trong mô hìnhword2vec [19] Mô hình CBOW sẽ cố gắng dự đoán từ trung tâm dựa vào các

từ bên cạnh, trong khi đó phương pháp Skip-gram sẽ cố gắng dự đoán từ bêncạnh dựa vào từ trung tâm Trong nghiên cứu này, Tokopedia đã huấn luyện dữliệu của 25 triệu tên sản phẩm và đo bằng định tính với 4000 cặp tên sản phẩmtương đồng Đầu ra của mô hình pre-train này là vectơ biểu diễn các token từđiển Tên sản phẩm là tập hợp của các token Vectơ sản phẩm được tính bằngcách lấy trung bình giá trị các token Giá trị của vectơ biểu diễn sản phẩm đóđược làm đầu vào của bài toán phân loại danh mục (category classification) đạt

độ chính xác 86.71% Phương pháp này có ưu điểm nổi bật là biểu diễn sản

2 https://www.tokopedia.com

Trang 18

phẩm đa dạng tên hiển thị (tên viết tắt, đồng nghĩa) Tuy nhiên hạn chế củacách biểu diễn này là không quan tâm đến thứ tự của các từ Tên sản phẩm cóthể bao gồm nhiều stop-word trong ngành như các cụm từ: "chất lượng", "giảmgiá", "khuyến mại", "bán chạy" Những từ này sẽ làm giảm độ chính xác nếutên sản phẩm xuất hiện nhiều thông tin nhiễu, sai chính tả.

b) Mô hình biểu diễn dữ liệu dạng hình ảnh

Hình ảnh trong lĩnh vực thương mại điện tử bao gồm: danh sách các ảnh mô

tả và ảnh chụp thực tế từ sản phẩm người mua Những mặt hàng ngành thờitrang sẽ không dễ dàng để gọi tên sản phẩm, bởi thế ý trải nghiệm của ngườidùng khi tìm kiếm sản phẩm là chụp hình và tìm ảnh tương tự Chức năng tìmkiếm hình ảnh đã được các công ty lớn như Google, Pinterest, Bing, Alibaba,v.v xây dựng sản phẩm (hình )

Biểu diễn hình ảnh sản phẩm là đầu vào của các bài toán tìm kiếm hình ảnh,gợi ý sản phẩm thời trang Mô hình cơ bản nhất là thông qua lớp pre-trainimage Đối với ngành thời trang, một số thông tin sản phẩm không có trong

mô tả ví dụ như kiểu dáng cổ áo, tay áo, họa tiết mà chỉ có thể quan sát bằnghình ảnh Việc embedding từ ảnh sẽ giúp khuyến nghị sản phẩm liên quan hơn

và tăng tỉ lệ chuyển đổi

Ngoài ưu điểm của mô hình là học được các đặc trưng ảnh sản phẩm, nhữnghạn chế của thuật toán này là giải quyết không tốt lớp bài toán mặt hàng kĩthuật, trong đó thông số kĩ thuật rất quan trọng Ví dụ hình ảnh TV, tủ lạnhtìm kiếm hình ảnh sẽ bị nhiễu rất nhiều và mô hình khó phân loại chính xácđược Ngoài ra ảnh embedding yêu cầu số chiều khá lớn để có thể phân loại tốt

Ví dụ mô hình inception net B7[27] số trọng số lên tới 400M, và số chiều ảnhđược nhúng lên tới 2048 chiều Số ảnh học có thể lên tới tỉ vectơ gây khó khăntrong việc triển khai rộng rãi

c) Mô hình biểu diễn dữ liệu dạng đồ thị

Dữ liệu dạng đồ thị trong lĩnh vực thương mại điện tử gồm chủ yếu là lịch sửtương tác (click, xem trang, mua hàng) của người dùng với các sản phẩm, đồthị mô tả quan hệ sản phẩm với thuộc tính, ngành hàng, thương hiệu, màu sắc,nơi bán, người bán Dạng dữ liệu đồ thị có tính lịch sử và dữ liệu giao dịch này

có đặc điểm có số lượng rất lớn và rất có ý nghĩa để hiểu các tương tác trong

Trang 19

hệ thống TMĐT Một số nghiên cứu gần đây của công ty Pinterest, Alibaba,Wallmart, Amazon đã ứng dụng mô hình graph embedding để làm bài toán vềkhuyến nghị sản phẩm và đạt kết quả tích cực.

Mô hình Pinterest [21] công bố năm 2020 sử dụng graph embedding để biểudiễn các thực thể dữ liệu như người dùng, sản phẩm để làm một loạt bài toánkhuyến nghị đa mục tiêu như mô hình giúp tăng lượt tương tác vào trang danhmục, tăng tỉ lệ xem sản phẩm, tăng tỉ lệ chuyển đổi mua hàng

Mô hình của Alibaba [3, 36] đã giúp tăng 5% tổng giá trị giao dịch bằng việc

áp dụng dữ liệu đồ thị mạng lưới mối quan hệ người mua Nghiên cứu này xemxét đưa ra các sản phẩm khuyến nghị dựa trên lịch sử tương tác của bạn bè,đồng nghiệp trên sàn thương mại điện tử Nghiên cứu về hành vi thương mạiđiện tử cho thấy rằng người mua sắm thường tin tưởng sản phẩm khi được bạn

bè, đồng nghiệp giới thiệu hơn là thấy trên quảng cáo truyền thông

1.3 Mục tiêu của luận văn

Xây dựng các hệ thống khuyến nghị sản phẩm, tìm kiếm sản phẩm, gợi ý tìmkiếm, phân loại sản phẩm là công việc không đơn giản và đòi hỏi nhiều về thờigian, nguồn lực Mô hình trung gian biểu diễn sản phẩm là cách phương án tốt hơn

để áp dụng cho nhiều lớp bài toán học máy của thương mại điện tử Nhận thấytầm quan trọng của việc biểu diễn thông tin sản phẩm, luận văn tập trung nghiêncứu và đề xuất mô hình biểu diễn vectơ sản phẩm, sau đó cài đặt mô hình vào hệthống có thể triển khai thực tế giúp tăng hiệu quả cho các lớp bài toán học máylĩnh vực thương mại điện tử Phương pháp biểu diễn sản phẩm là phương phápkhai phá dữ liệu dạng đồ thị bằng kĩ thuật học sâu Thiết kế của mô hình này cầnđáp ứng tính tổng quát của lĩnh vực thương mại điện tử, khả thi để triển khai với

dữ liệu lớn thực tế và dễ dàng tích hợp với các mô hình học máy khác

Mô hình biểu diễn dữ liệu ở dạng đồ thị, trong đó mỗi mã sản phẩm, thông tin sảnphẩm là các đỉnh và cạnh là mối quan hệ của sản phẩm với những thuộc tính cònlại Kết quả thực nghiệm mô hình đã chứng tỏ sự hiệu quả với tập dữ liệu TMĐTlớn, kết quả huấn luyện của dữ liệu biểu diễn dạng đồ thị hơn 176 triệu cạnh quan

hệ đạt kết quả Hits@10 đạt 0.737 và Hits@50 đạt 0.962

Trang 20

1.4 Cấu trúc luận văn

Luận văn sẽ trình bày và cấu trúc như sau Chương 1 giới thiệu về lý do, mục tiêucủa nghiên cứu đề tài và đề cập một số nghiên cứu liên quan Chương 2 trình bày

cơ sở lý thuyết về các mô hình biểu diễn dữ liệu dạng văn bản, ảnh, đồ thị và khảosát các phương pháp học máy biểu diễn vectơ sản phẩm hiện nay Mô hình biểudiễn vectơ sản phẩm bằng phương pháp khai phá đồ thị và đánh giá sẽ được trìnhbày ở chương 3 Chương 4 báo cáo và đánh giá kết quả nghiên cứu thực nghiệm.Chương cuối cùng trình bày kết luận và thảo luận một số hướng mở rộng trongtương lai

Kết luận chương 1

Trong chương này, luận văn đã giới thiệu khái quát lý do đề tài Bên cạnh đó luậnvăn trình bày các nghiên cứu liên quan về biểu diễn sản phẩm và nghiên cứu vềkhai phá đồ thị và mục tiêu của luận văn

Chương tiếp theo sẽ trình bày về các cơ sở lý thuyết và kiến thức nền tảng Cụ thểluận văn trình bày về mô hình biểu diễn dữ liệu văn bản, dữ liệu ảnh, dữ liệu đồthị bằng kĩ thuật học sâu Tiếp đó chương này sẽ khảo sát các phương pháp biểudiễn vectơ sản phẩm

Trang 21

2.1.1 Phương pháp biểu diễn dữ liệu ảnh

Ảnh được biểu diễn bằng giá trị của các pixel 2 chiều (ảnh đen trắng), và 3 chiều(ảnh màu - rbg) Kích thước của ma trận ảnh độ phân giải cao sẽ tốn chi phí lưutrữ và khó xử lý trong các bài toán phân loại ảnh, xác định thực thể trong ảnh,v.v Một số mô hình biểu diễn dữ liệu ảnh bằng phương pháp học sâu là Alexnet,ResNet, InceptionNet, v.v

• Mô hình Alexnet

Năm 2012, một trong những mô hình đầu tiên sử dụng mạng tích chập (CNN)

là mô hình mạng Alexnet [15] đã được đề xuất để giải quyết bài toán phânloại dữ liệu 15 triệu ảnh Mô hình nhận đầu vào là ảnh kích thước 224x224x3

và đi qua 8 lớp tích chập (hình 2.1) Trong đó lớp thứ 6 và lớp thứ 7 là lớpkết nối đầy đủ (fully-connection) với 4096 nơ-ron đầu ra kết hợp với việc sửdụng dropout để giảm overfitting, lớp cuối cùng có 1000 nơ-ron đầu ra tươngứng với từng loại danh mục ảnh Thông tin vectơ biểu diễn ảnh sẽ được trích

từ giá trị của lớp giữa Tổng cộng mô hình có 60 triệu tham số sử dụng đểhuấn luyện Trong bài toán biểu diễn ảnh, mô hình Alexnet đã sử dụng nhiềuphương pháp xử lý dữ liệu và mạng nơ-ron mà các mô hình cải tiến sau nàyvẫn còn kế thừa Kĩ thuật làm giàu dữ liệu (data augmentation) để giải quyết

Trang 22

Hình 2.1: Kiến trúc mô hình mạng nơ-ron tích chập Alexnet

vấn đề thiếu dữ liệu ảnh Mô hình dịch chuyển ảnh từ kích thước gốc về kíchthước 224x224 Bên cạnh đó mô hình cũng sử dụng phương pháp sinh dữ liệubằng việc thay đổi độ sáng, lật ảnh, đổi màu Mô hình AlexNet không sử dụnghàm Tanh mà giới thiệu hàm kích hoạt mới là ReLU giúp quá trình huấn luyệnnhanh hơn

• Mô hình ResNet

Mô hình ResNet[34] được đề xuất năm 2015 bởi Microsoft Mục tiêu ra đờicủa mô hình là khắc phục vấn đề vanishing gradient (giá trị đạo hàm quá nhỏkhi qua nhiều lớp học sâu) Kiến trúc của mô hình ResNet gồm nhiều residualblock (hình 2.2) Ý tưởng của residual block là từ x(input) qua một số lớpnơ-ron tích chập thu được giá trị F(x) sau đó cộng thêm x vào để được H(x)

= F(x) + x bỏ qua một số lớp và gộp với lớp trước Điều này giúp mô hình

dễ học hơn khi thêm các feature từ layer trước vào Bằng phương pháp này,

mô hình ResNet có thể hỗ trợ huấn luyện với 152 layer (hình 2.3)

• Mô hình InceptionNet

Mô hình Inception [27] được đề xuất năm 2016 bởi các kĩ sư Google Mô hìnhnày có các inception layer (hình 2.4) giúp mỗi lớp tích chập có thể sử nhiềukernel size như 1x1, 3x3, 5x5 và tổng hợp kết quả lại Phương pháp này giúp

mô hình học được nhiều thông tin hơn sau mỗi layer

Trang 23

Hình 2.2: Khối residual block trong mô hình mạng ResNet

Hình 2.3: Kiến trúc mô hình mạng ResNet

2.1.2 Phương pháp biểu diễn nội dung văn bản

Trong lĩnh vực xử lý ngôn ngữ tự nhiên, biểu diễn từ (word embedding) là đầu vàoquan trọng để mô hình học sâu huấn luyện hiệu quả Giá trị vectơ này giúp biểudiễn ngữ cảnh của một từ trong tài liệu văn bản so với các từ khác Bằng cáchnày mô hình học máy có thể huấn luyện với tập dữ liệu nhỏ hơn nhưng vẫn đạt độchính xác tốt do "học" được ngữ cảnh, từ đồng nghĩa từ tập dữ liệu đã huấn luyện

từ trước (pre-training) Một số mô hình học sâu để biểu diễn vectơ ngôn ngữ phổbiến là Word2Vec [19], Fasttext [1], ELMO[23], GPT[24], BERT[31], XLNet[37],ALBERT[16], ELECTRA[4]

• Mô hình Word2Vec

Một trong những nghiên cứu đầu tiên về biểu diễn từ bằng phương pháp họcsâu là mô hình word2vec[19] Phương pháp này biểu diễn vectơ từ thông qua

Trang 24

Hình 2.4: Kiến trúc mô hình mạng Inception

việc dự đoán từ và học các từ xung quanh Có hai cách xây dựng mô hình này

là CBOW và Skip-gram (hình 2.5) Với thiết kế của CBOW, mô hình nhậnđầu vào là các từ ngữ cảnh, đầu ra là xác suất dự đoán từ đích Còn thiết kếSkip-gram ngược lại, nhận đầu vào là từ đích và đầu ra là xác suất của các từngữ cảnh Thực nghiệm cho thấy mô hình skip-gram đạt hiệu quả hơn và cókhả năng dự đoán các từ ít xuất hiện

• Mô hình ngôn ngữ Fasttext

Mô hình Fasttext [1] đề xuất năm 2017 do Facebook phát triển Mô hình nàycải tiến so với Word2Vec là thay vì huấn luyện cho đơn vị "từ" thì sẽ chia nhỏthành n-gram cho "từ" Ví dụ "apple" sẽ tách thành "app", "ppl", "ple", vàvectơ của từ "apple" bằng tổng của tất cả các từ này Ưu điểm của mô hìnhnày giúp giải quyết tốt với các từ hiếm gặp

• Mô hình ngôn ngữ BERT

Năm 2018, các kĩ sư Google đã nghiên cứu công bố mô hình ngôn ngữ BERT(Bidirectional Encoder Representations from Transformers) biểu diễn "từ"theo hai chiều bằng kĩ thuật Transformer (hình 2.6) Cơ chế attention của

kĩ thuật Transformer là gửi các từ trong câu văn mà không cần quan tâm đếnchiều của câu Transformer bao gồm 2 pha là mã hóa và giải mã

Trang 25

Hình 2.5: Mô hình word2vec kiến trúc CBOW và Skip-gram

- Mã hóa (encoder): Gồm 6 lớp liên tiếp nhau, mỗi layer sẽ bao gồm mộtsub-layer là Multi-Head Attention kết hợp với fully-connected layer như mô

tả ở nhánh encoder bên trái của hình 2.6 Kết thúc quá trình mã hóa ta đượcvector embedding output cho mỗi từ

- Giải mã (decoder): Kiến trúc cũng bao gồm các layers liên tiếp nhau và mỗimột layer của pha giải hóa cũng có các sub-layers gần tương tự như layer củapha mã hóa nhưng bổ sung thêm sub-layer đầu tiên là Masked Multi-HeadAttention có tác dụng loại bỏ các từ trong tương lai khỏi quá trình attention.Đặc điểm này cho phép mô hình học được ngữ cảnh của từ dựa trên toàn bộcác từ xung quanh nó bao gồm cả từ bên trái và từ bên phải Một ưu điểmcủa mô hình BERT là kết quả huấn luyện có thể fine-tuning (tinh chỉnh) môhình áp dụng cho các bài toán xử lý ngôn ngữ Các kiến trúc biến thể mớicủa mô hình BERT vẫn đang được nghiên cứu và tiếp tục phát triển nhưELECTRA[4], ALBERT [16], v.v

Trang 26

Hình 2.6: Sơ đồ kiến trúc Transformer kết hợp với cơ chế attention

Trang 27

2.1.3 Phương pháp biểu diễn dữ liệu đồ thị

Dữ liệu đồ thị là đồ thị biểu diễn dữ liệu các quan hệ giữ thực thể và rất phổ biến

để mô tả hệ thống trên thực tế Một số loại dữ liệu đồ thị kể đến là đồ thị mạng

xã hội, đồ thị mạng y sinh, đồ thị thông tin các website trên internet, đồ thị bản

đồ, v.v Đồ thị G(V, E) là cấu trúc dữ liệu gồm các đỉnh (vertices - nodes) và tậpcạnh (edges - links) Cạnh trong đồ thị có thể đánh trọng số, ví dụ giá trị trọng sốcủa cạnh biểu diễn khoảng cách giữa 2 đỉnh (thành phố) Tùy theo dữ liệu mà đồthị có thể là đồ thị có hướng hoặc vô hướng Dữ liệu đồ thị được biểu diễn bằngnhiều phương pháp khác nhau

• Biểu diễn đồ thị bằng danh sách kề

Phương pháp biểu diễn danh sách kề sẽ sử dụng 1 danh sách để lưu trữ cáccạnh của đỉnh tương ứng Với phương pháp này, độ phức tạp giảm còn O(n).Tuy nhiên cách biểu diễn đồ thị bằng danh sách kề, thời gian để duyệt đồ thịcác cung sẽ rất chậm

• Biểu diễn đồ thị bằng vectơ nhúng

Các bài toán sử dụng mô hình học máy này thường nhận đầu vào là dữ liệu rờirạc như vectơ, số, chữ, ảnh Hai phương pháp biểu diễn đồ thị bằng ma trận

kề và danh sách kề đều có một hạn chế lớn là khó áp dụng cho các mô hìnhhọc sâu Một số nghiên cứu biểu diễn đồ thị bằng vectơ nhúng là Node2Vec[10], Metapath2Vec [8], GraphSage [11]

Trang 28

của đồ thị được ánh xạ trong mô hình ngôn ngữ được trình bày trongbảng 2.1 Mô hình được huấn luyện bằng phương pháp Skip-gram Các

"sentences" được sinh bằng thuật toán random walk Cụ thể mỗi đỉnh

sẽ loang cạnh ngẫu nhiên để tạo thành đường đi (ví dụ trong hình 2.7)

Mô hình Node2Vec đã giúp biểu diễn dữ liệu đồ thị phức tạp thành vectơnhúng (node embedding) biểu diễn cấu trúc (structure-based)

Hình 2.7: Ví dụ về kết quả thuật toán Random Walk

Bảng 2.1: Ánh xạ dữ liệu đồ thị và mô hình ngôn ngữ tự nhiên

Đồ thị quan hệ Ngôn ngữ tự nhiên

Đỉnh (node) Từ (token)Cạnh (edge) Câu (sentence)Nhúng đỉnh (node embedding) Nhúng từ (word embedding)

– Mô hình Metapath2Vec

Trang 29

Hạn chế của mô hình node2vec này là không học được thông tin thuộctính của cạnh và đỉnh Mô hình cải tiến tốt hơn của node2vec có thể kểđến là mô hình metapath2vec [8] Mô hình có nhiều ưu điểm hơn khi hỗtrợ dữ liệu đồ thị nhiều loại đỉnh và nhiều loại quan hệ.Phương pháp huấnluyện của mô hình vẫn là Skip-gram tuy nhiên thuật toán Random Walk

đã được cải tiến để hỗ trợ sinh các cạnh đường đi với nhiều loại đỉnh vàloại quan hệ (hình 2.8) Tuy nhiên hạn chế của mô hình là thời gian xử lý

để sinh cạnh ngẫu nhiên rất lâu

Hình 2.8: Ví dụ về kết quả thuật toán Random Walk trong mô hình Metapath2Vec

– Mô hình Pytorch Big Graph

Năm 2019 mô hình do nhóm nhiên cứu Facebook công bố [17] có khả năng

xử lý đồ thị lớn và rất lớn (mở rộng dữ liệu lên tới 2 tỉ cạnh quan hệ)

Ý tưởng của mô hình là xếp hạng điểm các cạnh quan hệ và loại trừ cáccạnh quan hệ giả (negative sample) và tính điểm cao cho cạnh quan hệđúng (positive sample) Nghiên cứu của luận văn tiếp cận theo ý tưởng

mô hình này và cải tiến để phù hợp với lĩnh vực thương mại điện tử

Trang 30

2.2 Khảo sát các phương pháp biểu diễn vectơ sản phẩm

2.2.1 Phân tích đặc điểm dữ liệu thương mại điện tử

Mỗi website thương mại điện tử sẽ lựa chọn mô hình, phân khúc khách hàng và thịtrường mục tiêu khác nhau Có hai nhóm mô hình thương mại điện tử phổ biến là:

• Mô hình TMĐT B2C 1 phục vụ hai đối tượng chính là nhà bán hàng và ngườimua sắm cá nhân Ở Việt Nam có thể kể đến như sàn TMĐT Shopee2, Tiki3,Lazada4, Sendo5 với số lượng người dùng và giao dịch lớn Có những mô hìnhB2C nhưng đối tượng phục vụ chỉ là người mua, đó là những doanh nghiệpbán lẻ tham gia bán hàng trực tuyến như Adidas6, Bitis7 Những website nàythường chỉ phục vụ một vài ngành hàng chính

• Mô hình TMĐT C2C 8 phục vụ hai đối tượng chính là nhà bán hàng cá nhân

và người mua sắm cá nhân Với mô hình này website đóng vai trò cung cấpnền tảng trung gian để người mua và người bán trao đổi trực tiếp với nhau.Shopee, Sendo, Chợ tốt9, Vật giá10 là những website phổ biến tại Việt Nam

đi theo mô hình C2C Đặc điểm của mô hình này là lượng dữ liệu sản phẩm,giao dịch và người dùng rất lớn, cùng với đó là sự phân mảnh, không chuẩnhóa của dữ liệu

Dữ liệu thương mại điện tử quy mô lớn có những đặc điểm chung như:

- Số lượng sản phẩm lớn

- Dữ liệu chưa chuẩn hóa, bị nhiễu

- Sản phẩm trùng lặp, sai lệch thông tin sản phẩm

Định dạng
Số trang	60
Dung lượng	3,57 MB