32BẢNG THUẬT NGỮ ANH – VIỆT Tiếng Anh Viết tắt Tiếng Việt Allocation Dirichlet Latent LDA Phân bổ tiềm ẩn Direntlet AutoEncoder AE Mã hĩa tự động Bag of Word BOW Túi từ Bidirectional Enc
Trang 1TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
VIỆN KỸ THUẬT CÔNG NGHỆ
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG
CẢI TIẾN MÔ HÌNH PHÂN TÍCH VĂN BẢN
DỰA TRÊN MẠNG GCN
Mã số: DT.21.2-062
Chủ nhiệm đề tài: TS GVC Võ Thị Hồng Thắm
Bình Dương, 06/2023
Trang 2TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
VIỆN KỸ THUẬT CÔNG NGHỆ
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG
CẢI TIẾN MÔ HÌNH PHÂN TÍCH VĂN BẢN DỰA
TRÊN MẠNG GCN
Mã số: DT.21.2-062 Xác nhận của đơn vị chủ trì đề tài Chủ nhiệm đề tài
(chữ ký, họ và tên) (chữ ký, họ và tên)
TS GVC Võ Thị Hồng Thắm
Bình Dương, 06/2023
Trang 3MỤC LỤC
CHƯƠNG 1: PHÁT BIỂU BÀI TOÁN 1
1.1 Tổng quan về đề tài 1
1.1.1 Bài toán nghiên cứu và ý nghĩa 1
1.1.2 Thách thức của bài toán và các đóng góp chính 2
1.1.3 Phát biểu bài toán 5
1.1.4 Phạm vi nghiên cứu 9
1.1.5 Kết quả đạt được 9
1.2 Kết chương 10
CHƯƠNG 2: TỔNG QUAN CÁC CÔNG TRÌNH ĐÃ NGHIÊN CỨU 11
2.1 Phân lớp văn bản với kỹ thuật biểu diễn đặc trưng thủ công 11
2.2 Phương pháp tiếp cận dựa trên mạng thần kinh để phân lớp văn bản 12
2.3 Kết chương 13
CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT VÀ KẾT QUẢ THỰC NGHIỆM 14
3.1 Phương pháp 14
3.1.1 Kiến trúc tổng quát của mô hình GowSeqGCN 14
3.1.2 MultTextEmb: một phương pháp kết hợp học biểu diễn đặc trưng cấu trúc cục bộ và thứ tự văn bản 15
3.1.3 Học biểu diễn tài liệu cấp Corpus thông qua tensor đồ thị 19
3.2 Thực nghiệm và bàn luận 22
3.2.1 Dữ liệu và thiết lập thực nghiệm 22
3.2.2 Kết quả thực nghiệm và bàn luận 25
CHƯƠNG 4: KẾT LUẬN 31
4.1 Các kết quả đạt được, hạn chế và hướng phát triển 31
Trang 44.2 Ý nghĩa học thuật và thực tiễn của đề tài 32
BẢNG THUẬT NGỮ ANH – VIỆT
Tiếng Anh Viết tắt Tiếng Việt
Allocation Dirichlet Latent LDA Phân bổ tiềm ẩn Direntlet
Representations from Transformers
BERT Mô hình biểu diễn mã hóa 2 chiều
dựa trên biến đổi
Model’s hyper-parameter
sensitivity
Độ nhạy của siêu tham số của mô
hình (viết ngắn là độ nhạy)
Trang 5DANH MỤC HÌNH
Hình 1.1: Kiến trúc chung của mô hình GOWSeqGCN 3Hình 3.1: Kết quả thử nghiệm cho nhiệm vụ phân lớp văn bản trên bộ dữ liệu 20NG, Reuters (R8, R52), Ohsumed và MR qua các thuật toán biểu diễn văn bản khác nhau 25Hình 3.2: Kết quả thử nghiệm cho nhiệm vụ phân lớp văn bản trên bộ dữ liệu văn bản quy mô lớn (DBLP, arXiv) so sánh nhiều thuật toán biểu diễn văn bản khác nhau 27Hình 3.3: Các nghiên cứu về tính mạnh mẽ và ổn định của các kỹ thuật học và phân lớp biểu diễn văn bản dựa trên GNN khác nhau trong các bộ dữ liệu văn bản quy mô lớn 28Hình 3.4: Các nghiên cứu thử nghiệm về khả năng mở rộng và chi phí thời gian của các
kỹ thuật phân lớp và học biểu diễn văn bản dựa trên GNN khác nhau trong bộ dữ liệu
2-NG, Reuters-R8/R52 29Hình 3.5: Ảnh hưởng của kích thước của vectơ nhúng từ/câu (d) đến hiệu suất phân lớp văn bản của GOWSeqGCN được đề xuất của chúng tôi 30Hình 3.6: Ảnh hưởng của số lượng ô nhớ LSTM được sử dụng đến hiệu suất phân lớp văn bản của GOWSeqGCN được đề xuất của chúng tôi 30
Trang 6<Mẫu 24 Thông tin kết quả nghiên cứu>
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
Đơn vị: Viện KTCN
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1 Thông tin chung:
- Tên đề tài: Cải tiến mô hình phân tích văn bản dựa trên mạng GCN
- Mã số: DT.21.2-062
- Chủ nhiệm: TS GVC Võ Thị Hồng Thắm
- Đơn vị chủ trì: Viện Kỹ thuật công nghệ
- Thời gian thực hiện: 03/2022-08/2023
2 Mục tiêu: Đề xuất các cách tiếp cận mới biểu diễn văn bản tuần tự tích hợp ngữ nghĩa
đồ thị từ thông qua GCN Tiếp cận này có thể bảo tồn cấu trúc toàn cục vừa có thể
nhúng các từ và câu theo trình tự trong quá trình biểu diễn văn bản:
• Trước hết, đối với mỗi tài liệu trong tập dữ liệu văn bản, đề tài áp dụng một cách tiếp
cận mới để học biểu diễn đặc trưng văn bản toàn cục, có thể nắm bắt hiệu quả các
biểu diễn tuần tự ngữ nghĩa nhiều cấp của một tài liệu nhất định, được gọi là: Chiến
lược hợp nhất biểu diễn đặc trưng là MultTextEmb Tài liệu được biểu diễn đặc trưng bằng cách nhúng từ với Word2Vec, nhúng tuần tự ngữ nghĩa ẩn của các câu với BERT [6] và nhúng cấu trúc toàn cục của tài liệu dưới dạng cấu trúc dựa trên đồ thị từ GOW thông qua mạng GCN
• Tiếp theo, để tạo ra bản biểu diễn thống nhất cuối cùng của mỗi tài liệu văn bản, đề
tài áp dụng cơ chế hợp nhất nhúng tùy chỉnh thông qua hàm tổng hợp phi tuyến tính
Hàm tổng hợp đã xác định được thiết kế để đảm bảo các đặc trưng của tất cả các phương thức nhúng của tài liệu mà MultTextEmb học được và chuyển đổi chúng
sang các không gian vectơ hợp nhất cụ thể Kết quả đầu ra của bước này là tập hợp
Trang 7các vectơ nhúng của tài liệu cuối cùng được biểu diễn cả về tuần tự ngữ nghĩa và cấu
trúc toàn cục
• Cuối cùng, đề tài xây dựng đồ thị đầy đủ của tài liệu với tất cả các mối quan hệ từ-từ
và từ-tài liệu cho tập dữ liệu văn bản, sau đó xếp chúng thành một tensor đồ thị Sau
đó, các phương pháp truyền tải nội bộ/ giữa các kênh được áp dụng để tổng hợp và hài hòa thông tin giữa các đồ thị của tài liệu trong quá trình học lan truyền Đối với mỗi bước lan truyền, vectơ nhúng nút của mỗi tài liệu được hợp nhất với vectơ nhúng dựa trên MultTextEmb từ các bước trước đó Sau đó, trong lớp dựa trên GCN cuối cùng của quy trình này, chúng ta có thể nhận được các biểu diễn nút cuối cùng của tài liệu sau đó được cấp dữ liệu cho lớp NLP kết nối đầy đủ để thực hiện nhiệm vụ phân lớp
3 Tính mới và sáng tạo: Về ý nghĩa khoa học và thực tiễn, đề tài đã đề xuất được mô
hình mới, GOWSeqGCN thể hiện được tính ưu việt khi so sánh với các giải thuật mới được công bố Các mô hình, thuật toán đề xuất đều có thể ứng dụng trong nhiều lĩnh vực, hệ thống được xây dựng có ý nghĩa thực tiễn cao, phục vụ nhu cầu khai phá thông
tin của đông đảo người dùng trong thời đại thông tin như hiện nay
4 Kết quả nghiên cứu: sử dụng phương pháp nghiên cứu tổng luận và thực nghiệm, đề
tài đã hoàn thành trong khoảng thời gian cho phép, sản phẩm đề tài đúng như dự kiến ban đầu là một bài báo đăng tạp chí thuộc danh mục SCIE/Q2, một bài báo đăng trên tạp chí Khoa học công nghệ Thông tin và truyền thông (được Hội đồng Giáo sư tính 0.5 điểm) cùng với kết quả hướng dẫn sinh viên thực hiện đề tài tốt nghiệp đạt loại Giỏi
5 Sản phẩm: 01 báo cáo tóm tắt, 01 báo cáo tổng kết có đính kèm bài báo khoa học ở
phần phụ lục, 04 báo cáo chuyên đề
Trang 86 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
Báo cáo viết bàn giao cho đơn vị chủ trì trường Đại học Thủ Dầu Một - 01 bài báo khoa học thuộc danh mục SCIE/Q2 và 01 bài báo khoa học đăng trên tạp chí Khoa học công
nghệ Thông tin và truyền thông (được Hội đồng Giáo sư tính 0.5 điểm)
Trang 9CHƯƠNG 1: PHÁT BIỂU BÀI TOÁN
1.1 Tổng quan về đề tài
1.1.1 Bài toán nghiên cứu và ý nghĩa
Nhìn chung, phân lớp văn bản [1, 21, 32, 36] là một bài toán cổ điển của lĩnh vực NLP [10] [24, 25] Bài toán này được áp dụng rộng rãi trong một số ứng dụng thực tế trong nhiều lĩnh vực, ví dụ: truy xuất tài liệu / bài báo, phân lớp / đối sánh văn bản ngữ nghĩa [42], tóm tắt văn bản [41], phát hiện spam / tin giả, phân tích cảm xúc [19], phân lớp tin tức, phát hiện sự kiện [35], Theo truyền thống, phân lớp văn bản là một phương pháp học máy có giám sát, sử dụng các biểu diễn đặc trưng được gắn nhãn, ví dụ: Hồi quy logistic (LR), Máy vectơ hỗ trợ (SVM), Điều quan trọng là tìm ra các phương pháp hiệu quả để trích xuất thông tin đặc trưng từ văn bản còn được gọi là quy trình kỹ thuật đặc trưng Có các phương pháp cổ điển để biểu diễn các tài liệu dạng văn bản với các đặc điểm từ vựng rời rạc được thực hiện thủ công, chẳng hạn như: bag-of-words (BOW), n-gram, các mối quan hệ cú pháp phụ thuộc, Cách tiếp cận truyền thống này
có một số hạn chế, bao gồm cả nỗ lực cao đối với kỹ thuật đặc trưng đơn giản và phân tích kỹ lưỡng để đạt được hiệu suất tốt trong kết quả phân lớp văn bản Ngoài ra, sự phụ thuộc lớn vào kiến thức chuyên môn đối với kỹ thuật đặc trưng cũng dẫn đến khó khăn cho việc tổng quát hóa mô hình phân lớp đã thiết kế, đặc biệt là trong trường hợp áp dụng mô hình cho các bộ dữ liệu mới Cuối cùng nhưng không kém phần quan trọng, cách tiếp cận kỹ thuật đặc trưng từ vựng được thực hiện thủ công cũng gặp phải một số thách thức liên quan đến sự rời rạc trong các biểu diễn đặc trưng ẩn được trích xuất từ
cơ sở dữ liệu văn bản Hơn nữa, cách tiếp cận này không thể bảo toàn hiệu quả sự phụ thuộc tuần tự cấp cao của các từ xuất hiện Gần đây, sự phát triển nhanh chóng của học sâu đã hứa hẹn mở ra những cách tiếp cận mới [12, 17, 24] để giải quyết những hạn chế hiện có của các kỹ thuật thiết kế đặc trưng thủ công Nguyên tắc cốt lõi của phương pháp tiếp cận dựa trên mạng nơ-ron để phân lớp văn bản, là chiến lược nhúng văn bản bằng máy học có giám sát / không giám sát cho phép chuyển văn bản thành vectơ đặc trưng
ẩn liên tục chiều thấp cố định Bằng cách áp dụng các kỹ thuật nhúng văn bản, không cần hỗ trợ của chuyên gia hoặc tài nguyên đã khai phá tri thức trước cho quy trình kỹ thuật đặc trưng
Trang 101.1.2 Thách thức của bài toán và các đóng góp chính
Thách thức bài toán
Trong những năm gần đây, nhúng từ hay còn gọi là học biểu diễn từ là một lĩnh vực mới bắt đầu từ một mô hình NLP nổi tiếng, có tên là: Word2Vec [23], lần đầu tiên được phát triển và giới thiệu bởi Mikolov T et al hỗ trợ nắm bắt các biểu diễn ngữ cảnh cục bộ của các từ trong cơ sở dữ liệu văn bản Từ những thành tựu nổi bật của mô hình Word2Vec, một số mô hình học biểu diễn văn bản như: GloVe [27], Doc2Vec [13],
đã được đề xuất để xử lý hiệu quả nhiều tác vụ trong lĩnh vực NLP Tuy nhiên, một số nghiên cứu đã chỉ ra rằng các mô hình nhúng từ/tài liệu trước đây hoàn toàn không thể nắm bắt được sự phụ thuộc tuần tự của các từ/câu trong văn bản Để khắc phục các vấn
đề liên quan đến việc học biểu diễn tuần tự trong văn bản, có một số kiến trúc học sâu nâng cao đã được đề xuất Các kiến trúc dựa trên deep learning nổi tiếng, như:: convolutional neural network (CNN), gated recurrent unit (GRU), long short-term
memory (LSTM), … đã được sử dụng rộng rãi để học hiệu quả các biểu diễn ngữ nghĩa
và cú pháp cấp cao của các tài liệu văn bản Nhìn chung, các mô hình học biểu diễn văn
bản dựa trên học sâu có thể được phân thành hai loại chính, đó là học dựa trên phụ thuộc
về trình tự và học dựa trên cấu trúc văn bản toàn cục Trên thực tế, hầu hết các kỹ thuật được đề xuất gần đây để phân tích và khai thác văn bản có thể được phân loại thành
phương pháp học tập dựa trên phụ thuộc về trình tự, chẳng hạn như: Các mô hình dựa
trên CNN [8, 11, 44], các mô hình dựa trên RNN [18, 33] Các kỹ thuật học biểu diễn văn bản thần kinh sâu đạt hiệu quả cao trong nhiều nhiệm vụ khai phá văn bản nhờ bảo tồn thành công các đặc trưng ẩn của văn bản từ các chuỗi từ có thứ tự cục bộ Tuy nhiên,
các mô hình vẫn gặp phải những thách thức liên quan đến khả năng nắm bắt các đặc
trưng ẩn toàn cục về sự đồng xuất hiện của từ trong cơ sở dữ liệu văn bản Cụ thể, các
biểu diễn văn bản toàn cục này mong muốn nắm bắt các mối quan hệ ngữ nghĩa không liên tục và khoảng cách xa giữa các tài liệu tương đồng Các đặc trưng này có thể là tài nguyên có giá trị cho nhiều tác vụ của NLP, bao gồm phân lớp văn bản, gom cụm, …
sử dụng kiến trúc mạng tích chập đồ thị nổi tiếng (GCN), được đề xuất bởi [9]
Trang 110.1 0.2 0.3 0.4 .
The text
documents(D)
Pre-trai ned Word2Vec
Pre-trai ned BERT
Mult i-layered GCN
Self-attention mechanism
Bi-LSTM encoder
GCTG-based text graph construct ion
GCTG-base d co-occurring text graph propagation learning
GCTG-base d syntactic text graph propagation learning
0 1
0.2
0.3
0.4
0.2
0.3
0.4
Activation function
Activation function
Linear function
Embedding vector fusion mechanism
MaxPool
GCTG-base d text graph embedding matrices
MultTextEmb-base d text embedding matrices
Fusion mechanism as a based neural architecture
MLP-Hidden stat e
Fus ed embeddi ng matrix
ReLU function
The activation function between two GCN-based layers is defined as the non- linear ReLU function
Graph-of-words (GOW) repres entation
(A)
(B)
(C)
Bi-LSTM encoder
Sequential word/sentenc e-level representation le arning
Sequential document-level representation le arning
Hình 1.1: Kiến trúc chung của mô hình GOWSeqGCN
Phương pháp học biểu diễn đặc trưng đồ thị văn bản dựa trên GNN Có một
số kỹ thuật dựa trên mạng lưới thần kinh đồ thị nổi tiếng [3, 4, 20, 26, 43] đã chứng minh được những lợi ích của việc sử dụng mạng thần kinh đồ thị để phân tích và khai thác văn bản Nói chung, khác với cách tiếp cận biểu diễn văn bản dựa trên trình tự trước đây, các mô hình nhúng đồ thị văn bản dựa trên GNN được thiết kế để xử lý cơ sở dữ liệu văn bản có cấu trúc phức tạp Do đó, chúng có thể khai thác hiệu quả các biểu diễn đặc trưng ẩn toàn cục của các văn bản tự do Cụ thể hơn, trong phương pháp học biểu diễn đồ thị văn bản thông qua GNN, trước hết các văn bản đã cho sẽ được chuyển thành cấu trúc dựa trên đồ thị Việc học biểu diễn cấu trúc đồ thị này thường được gọi là đồ thị từ (GOW) Đối với chuyển đổi tài liệu dựa trên GOW, có nhiều phương pháp khác nhau để xây dựng đồ thị văn bản từ một cơ sở dữ liệu văn bản nhất định Sau đó, kiến trúc GNN nhiều lớp được áp dụng để học hiểu các biểu diễn đặc trưng ẩn bằng đồ thị của tài liệu được xây dựng trước đó Các biểu diễn đặc trưng ẩn tài liệu dựa trên đồ thị được nắm bắt thông qua các quá trình học lan truyền Có những mô hình dựa trên GCN được đề xuất đáng chú ý gần đây cho nhiệm vụ phân lớp văn bản, chẳng hạn như TextGCN [43] và TensorGCN [20] Các mô hình này đã áp dụng sự lan truyền trạng thái ẩn dựa trên GCN nhiều lớp trên các đồ thị của tài liệu để học kỹ các biểu diễn đặc
Trang 12trưng theo ngữ cảnh, ngữ nghĩa và cú pháp khác nhau của các tài liệu được cho Những biểu diễn đặc trưng cấu trúc và ngữ nghĩa phong phú này của tài liệu sau đó được sử dụng để phân lớp văn bản tốt hơn Tuy nhiên, các mô hình dựa trên GCN trước đây cũng gặp phải một khó khăn lớn liên quan đến việc không thể duy trì sự phụ thuộc ngữ nghĩa tuần tự giữa các từ/câu đối với quá trình truyền đồ thị của tài liệu qua GCN Trên thực
tế, trong các mô hình dựa trên GCN trước đây, chỉ các đặc trưng ẩn toàn cục của đồ thị tài liệu được ghi lại trong quá trình học lan truyền theo lớp GCN, do đó, các biểu diễn ngữ nghĩa tuần tự giữa các từ và câu bên trong mỗi tài liệu không được xem xét cẩn thận
Các đóng góp chính
Để vượt qua những thách thức đã nói ở trên, đề tài đề xuất một cách tiếp cận mới
về học biểu diễn văn bản dựa trên GCN tuần tự tích hợp để xử lý tác vụ phân lớp văn bản, được gọi là: GOWSeqGCN Trước hết, đối với mỗi tài liệu, mô hình đề xuất xác định một cơ chế học biểu diễn văn bản mới, hỗ trợ tìm hiểu nhiều cú pháp biểu diễn đặc trưng của đồ thị tài liệu và các mối quan hệ tuần tự ngữ nghĩa Các mối quan hệ này được nắm bắt nhờ việc học các từ/câu nhúng văn bản đa cấp độ trong mỗi văn bản Các
đồ thị của tài liệu được xây dựng là các mạng không đồng nhất với nhiều loại quan hệ Nhìn chung, những đóng góp của đề tài có thể được tóm tắt như sau:
Trước hết, đối với mỗi tài liệu trong kho ngữ liệu văn bản nhất định, chúng tôi
áp dụng một cách tiếp cận mới của việc học biểu diễn văn bản toàn cục để nắm
bắt hiệu quả các biểu diễn tuần tự ngữ nghĩa nhiều cấp của một tài liệu nhất định,
được gọi là: Chiến lược hợp nhất biểu diễn đặc trưng là MultTextEmb Tài liệu được biểu diễn đặc trưng bằng cách nhúng từ với Word2Vec, nhúng tuần tự ngữ nghĩa ẩn của các câu với BERT [6] và nhúng cấu trúc toàn cục của một tài liệu nhất định dưới dạng cấu trúc dựa trên đồ thị từ GOW thông qua mạng GCN
Tiếp theo, để tạo ra bản biểu diễn thống nhất cuối cùng của mỗi tài liệu dạng văn
bản, chúng tôi áp dụng cơ chế hợp nhất nhúng tùy chỉnh thông qua hàm tổng hợp
phi tuyến tính Hàm tổng hợp đã xác định của chúng tôi được thiết kế để duy trì các thuộc tính được cá nhân hóa của tất cả các loại nhúng của tài liệu mà
MultTextEmb học được và chuyển đổi chúng thành các không gian vectơ hợp
Trang 13nhất cụ thể Kết quả đầu ra của bước này là tập hợp các vectơ nhúng của tài liệu
cuối cùng được biểu diễn cả về tuần tự ngữ nghĩa và cấu trúc toàn cục
Cuối cùng, chúng tôi xây dựng đồ thị đầy đủ của tài liệu với tất cả các mối quan
hệ từ-từ và từ-tài liệu cho cơ sở dữ liệu văn bản đã cho, sau đó xếp chúng thành một tensor đồ thị Sau đó, các phương pháp truyền tải nội bộ/ giữa các kênh được
áp dụng để tổng hợp và hài hòa thông tin giữa các đồ thị của tài liệu trong quá trình học lan truyền Đối với mỗi bước lan truyền, vectơ nhúng nút của mỗi tài liệu được hợp nhất với vectơ nhúng dựa trên MultTextEmb từ các bước trước
đó Sau đó, trong lớp dựa trên GCN cuối cùng của quy trình này, chúng ta có thể nhận được các biểu diễn nút cuối cùng của tài liệu sau đó được cấp dữ liệu cho lớp NLP được kết nối đầy đủ để thực hiện nhiệm vụ phân lớp
Để chứng minh hiệu quả của mô hình được đề xuất, chúng tôi thực nghiệm trên các tập dữ liệu văn bản được chuẩn hóa khác nhau, bao gồm: 20-Newsgroups, Reuters (R8, R52), Ohsumed, DBLP, arXiv và Movie Review và so sánh kết quả với các mô hình liên quan được công bố gần đây
Hình 1.1 minh họa kiến trúc tổng thể của mô hình GOWSeqGCN đề tài đề xuất
1.1.3 Phát biểu bài toán
Phân lớp văn bản
Một tài liệu được cho ký hiệu là: 𝑑 thuộc về một tập hợp văn bản / tài liệu cụ thể (𝐷), là: 𝒹 ∈ 𝐷 và một tập hợp các lớp nhất định, được ký hiệu là: 𝐶 = {𝑐1, 𝑐2, … , 𝑐𝑗} Mỗi tài liệu trong 𝐷 được biểu diễn dưới dạng không gian biểu diễn tài liệu theo chiều cụ thể hay còn gọi tắt là không gian tài liệu, được ký hiệu là: 𝑒⃗⃗⃗⃗ ∈ ℝ𝒹 1×𝑑 Đối với tập dữ liệu 𝐷, chúng tôi có ma trận nhúng tài liệu đầy đủ, được ký hiệu là: 𝑋𝐷 ∈ ℝ|𝐷|×𝑑, trong
đó mỗi hàng thứ i ithlà véc tơ nhúng của tài liệu thứ i
Với một tập huấn luyện (𝔇, 𝔇 ⊆ 𝐷) được cho là một tập hợp các tài liệu được gắn nhãn bởi các lớp trong (𝐶).Tập huấn luyện được hình thành dưới dạng danh sách các
bộ dữ liệu, là: 𝔇 = {〈𝑑, 𝑐〉𝑖}𝑖=1|𝔇|, trong đó: 〈𝑑, 𝑐〉𝑖 ∈ 𝑋𝐷× 𝐶 Mục đích cuối cùng của nhiệm vụ phân lớp văn bản là tìm một hàm ánh xạ, được ký hiệu là: 𝑓𝑐𝑙𝑎𝑠𝑠( ) ánh xạ tập tài liệu đã cho vào các lớp thích hợp của chúng, ký hiệu là: 𝑓𝑐𝑙𝑎𝑠𝑠(𝐷) → 𝐶, trong
đó 𝑓𝑐𝑙𝑎𝑠𝑠( ) đạt được bằng một phương pháp học cụ thể với bộ huấn luyện đã cho 𝔇,
ký hiệu là: 𝛤(𝔇) = 𝑓𝑐𝑙𝑎𝑠𝑠( )
Trang 14Học biểu diễn văn bản / Nhúng văn bản
Học biểu diễn văn bản hay cịn gọi là nhúng văn bản là một cách tiếp cận để biểu diễn một từ (𝓌) / câu (𝓈) / tài liệu (𝒹) trong một ngữ cảnh cụ thể từ khơng gian vectơ đặc trưng số chiều cao thành khơng gian vectơ đặc trưng d-chiều cố định Một mơ hình học biểu diễn văn bản cĩ thể được xây dựng đơn giản như một hàm ánh xạ: ftext_emb( ) Hàm ánh xạ này hỗ trợ ánh xạ một từ (𝓌) / câu (𝓈) / tài liệu (𝒹) vào một khơng gian biểu diễn vectơ d-chiều, ký hiệu: ftext_emb(𝓌|𝓈|𝒹) → (e⃗⃗⃗⃗⃗ |e𝓌 ⃗⃗⃗⃗⃗ |e𝓌 ⃗⃗⃗⃗⃗ ), where: e𝓌 ⃗⃗ ∈ ℝ. 1×d Thơng thường, trong thực tế triển khai, cĩ một số phương pháp học tập khơng cĩ lợi, Γ( ) được áp dụng phổ biến cho nhiệm vụ phân lớp như: Hồi quy logistic (LR), SVM, Nạve Bayes (BN), Trên thực tế, hiệu suất phân lớp văn bản chủ yếu dựa vào chất lượng của biểu diễn khơng gian đặc trưng tài liệu XD cũng như sự đầy đủ của tập huấn luyện 𝔇 Để học cách biểu diễn tài liệu một cách hiệu quả, cĩ thể áp dụng một số
kỹ thuật biểu diễn đặc trưng bao gồm cả phương pháp thủ cơng cũ (ví dụ như BOW, grams, …) Từ khía cạnh học máy/học sâu, cĩ các kỹ thuật nhúng văn bản dựa trên mạng thần kinh (Word2Vec, GloVe, Doc2Vec, ELMo, BERT, …) hay cịn gọi là học biểu diễn văn bản tự động
n-Cĩ một số nghiên cứu [2, 23] [34] đã chứng minh cách tiếp cận dựa trên mạng thần kinh vượt trội hơn đáng kể so với cách tiếp cận thủ cơng trước đây Thành cơng của các
kỹ thuật nhúng văn bản dựa trên mạng thần kinh này đến từ khả năng học biểu diễn đặc trưng văn bản ẩn theo ngữ cảnh cấp cao cũng như các mối quan hệ tuần tự của các từ Ngồi ra, các mơ hình nhúng văn bản dựa trên mạng thần kinh này cũng cĩ thể áp dụng linh hoạt cho nhiều bài tốn NLP khác nhau Do những hạn chế trong việc lưu giữ thơng tin tồn cục của các tài liệu văn bản của các mơ hình dựa trên mạng thần kinh tuần tự gần đây, một xu hướng nhúng văn bản mới dựa trên đồ thị đã được đề xuất để cải thiện chất lượng biểu diễn đặc trưng văn bản Trong xu hướng nhúng văn bản dựa trên đồ thị,
cĩ một kiến trúc học/nhúng biểu diễn mạng nổi tiếng là GCN Trong các nghiên cứu gần đây, GCN và các phiên bản cải tiến của nĩ hầu hết được áp dụng để nắm bắt sự thể hiện cấu trúc tồn cục của các tài liệu văn bản dưới dạng các cấu trúc dựa trên đồ thị
Trang 15Học đặc trưng mạng/Nhúng mạng
Tương tự như cách tiếp cận nhúng văn bản, cho một mạng dưới dạng cấu trúc dựa trên đồ thị, được ký hiệu là: G = (V, E) Với (V) và (E) lần lượt là tập hợp các nút và cạnh của mạng Mục tiêu cuối cùng của mô hình nhúng mạng là tìm một hàm ánh xạ, được ký hiệu là: fnet_emb( ) Hàm ánh xạ này hỗ trợ chuyển đổi tập hợp các nút (V) thành một không gian biểu diễn vectơ d chiều cố định, được ký hiệu là: fnet_emb(V) → XG ∈
ℝ|V|×d
Mạng tích chập đồ thị (GCN) [9]
Là một công trình nổi tiếng của Kipf, T và cộng sự (2016) GCN hỗ trợ học đặc trưng của cấu trúc dữ liệu dựa trên đồ thị/mạng ở cấp độ siêu âm Nhìn chung, GCN áp dụng nguyên tắc tập hợp vùng lân cận và lan truyền đồ thị, hỗ trợ nắm bắt hiệu quả đặc trưng ẩn của các nút mạng trong bối cảnh cấu trúc mạng toàn cục Thông thường, kiến trúc dựa trên GCN được định nghĩa là kiến trúc mạng thần kinh nhiều lớp với mỗi lớp thứ (t) thường được xây dựng như sau: H[t+1] = fact(W[t]H[t]A∗), với:
fact, là hàm kích hoạt của từng lớp dựa trên GCN Hàm ReLU( ) Thường được
sử dụng trong công trình gốc
W, H và A∗ lần lượt là ma trận tham số trọng số của mô hình, ma trận trạng thái
ẩn và ma trận kề được chuẩn hóa
Đồ thị từ (GOW)
Là một phương pháp cổ điển để chuyển đổi một tài liệu (𝒹) thành một cấu trúc dựa trên đồ thị, G𝒹 GOW = (V𝒹GOW, E𝒹GOW) (V𝒹GOW) đại diện cho tập hợp các từ duy nhất xuất hiện trong tài liệu đã cho (𝒹) (E𝒹GOW là tập các cạnh biểu thị các quan hệ đa loại giữa hai từ, chẳng hạn như: cùng xuất hiện, phụ thuộc ngữ pháp,
Đồ thị tập văn bản toàn cục (GCTG)
Là một cấu trúc dựa trên đồ thị không đồng nhất Đồ thị văn bản không đồng nhất này biểu diễn các mối quan hệ của từ-từ và từ-tài liệu trong một kho văn bản (D) Là một cấu trúc dựa trên đồ thị, một GCTG được ký hiệu là: GD GCTG = (VDGCTG, EDGCTG) (VDGCTG) là một tập hợp các nút của mạng đại diện cho các từ xuất hiện không trùng nhau (𝓌) và các tài liệu (𝒹) bên trong kho văn bản (D) Tập các cạnh (EDGCTG) đại diện cho
Trang 16các mối quan hệ từ-từ và từ-tài liệu Các quan hệ từ-từ có thể được hình thành dưới nhiều loại, đó là: đồng hiện, phụ thuộc cú pháp, phụ thuộc diễn ngôn,
G GOW và G GCTG Biểu diễn dựa trên GOW của một tài liệu và biểu diễn dựa trên
GCTG của toàn bộ văn bản tương ứng
e⃗ Vectơ nhúng văn bản chung
e⃗ 𝓌 Vectơ nhúng phân cấp độ từ
e⃗ 𝓈 Vectơ nhúng cấp độ câu
e⃗ 𝒹 Vectơ nhúng cấp độ tài liệu
ReLU( ) Đại diện cho hàm ReLu (đơn vị tuyến tính được chỉnh lưu),
được xây dựng như sau: ReLU( ) = max (0, 1)
Dropout( ) Đại diện cho lớp cơ chế dropout của một kiến trúc mạng thần
kinh nhất định σ( ) Hàm sigmoid, được xây dựng như sau: σ( ) = 1
1+e −.
softmax( ) Hàm softmax, được xây dựng như sau: softmax( )i=∑e.i
e j K j=1
,
với K là số lớp LSTM( ) LSTM cho cơ chế mã hóa LSTM/Bi-LSTM
MLP( ) Lớp perceptron nhiều lớp được kết nối đầy đủ của một kiến trúc
mạng thần kinh nhất định
Trong cách tiếp cận học đặc trưng văn bản dựa trên GCN, một tài liệu văn bản cũng như kho văn bản chứa tài liệu này được chuyển đổi thành một cấu trúc dựa trên đồ thị Có hai loại kỹ thuật chuyển đổi văn bản dựa trên đồ thị: kỹ thuật dựa trên GOW
Trang 17được áp dụng cho một tài liệu duy nhất; kỹ thuật dựa trên GCTG được sử dụng cho toàn
bộ văn bản Bảng 1.1 liệt kê tất cả các ký hiệu và mô tả tương ứng của các ký hiệu
thường được sử dụng trong đề tài
1.1.4 Phạm vi nghiên cứu
Thông qua việc xác định các hạn chế của các công trình nghiên cứu trước, xác định được các vấn đề nghiên cứu, với đối tượng nghiên cứu là các tập dữ liệu văn bản ngắn, phạm vi nghiên cứu của đề tài là giải quyết bài toán phân lớp văn bản ngắn, rời rạc bao gồm:
Nghiên cứu và hợp nhất các kỹ thuật biểu diễn đặc trưng (MultTextEmb): BERT, Word2Vec, GOW và mạng GCN sử dụng hàm tổng hợp phi tuyến
Xây dựng đồ thị đầy đủ của tài liệu với tất cả các mối quan hệ từ-từ và từ-tài liệu cho
cơ sở dữ liệu văn bản đã cho, sau đó xếp chúng thành một tensor đồ thị, từ đó cho học và phân lớp
Thực nghiệm trên các tập dữ liệu chuẩn: 20-Newsgroups, Reuters (R8, R52), Ohsumed, DBLP, arXiv và Movie Review khi so sánh với các thuật toán NLP được
đề xuất gần đây như TF-IDF, GOW[3], Word2Vec [4], Doc2Vec [5], LSTM [6], TextGCN[1], TensorGCN[2]
Tiếp theo, để tạo ra bản biểu diễn thống nhất cuối cùng của mỗi tài liệu dạng văn bản, chúng tôi áp dụng cơ chế hợp nhất nhúng tùy chỉnh thông qua hàm tổng hợp phi tuyến tính Hàm tổng hợp đã xác định của chúng tôi được thiết kế để duy trì các
Trang 18thuộc tính được cá nhân hóa của tất cả các loại nhúng của tài liệu mà MultTextEmb học được và chuyển đổi chúng thành các không gian vectơ hợp nhất cụ thể Kết quả đầu ra của bước này là tập hợp các vectơ nhúng của tài liệu cuối cùng được biểu diễn
cả về tuần tự ngữ nghĩa và cấu trúc toàn cục
Cuối cùng, đề tài xây dựng đồ thị đầy đủ của tài liệu với tất cả các mối quan hệ
từ-từ và từ-từ-tài liệu cho ngữ liệu văn bản đã cho, sau đó xếp chúng thành một tensor đồ thị Sau đó, các phương pháp truyền tải nội bộ / giữa các kênh được áp dụng để tổng hợp và hài hòa thông tin giữa các đồ thị của tài liệu trong quá trình học lan truyền Đối với mỗi bước lan truyền, vectơ nhúng nút của mỗi tài liệu được hợp nhất với vectơ nhúng dựa trên MultTextEmb từ các bước trước đó Sau đó, trong lớp dựa trên GCN cuối cùng của quy trình này, chúng ta có thể nhận được các biểu diễn nút cuối cùng của tài liệu sau đó được cấp dữ liệu cho lớp NLP được kết nối đầy đủ để thực hiện nhiệm vụ phân lớp
Kết quả nghiên cứu được công bố tại 02 công trình: bài báo thứ nhất được đăng tại tạp chí quốc tế thuộc danh mục SCIE/Q2, bài báo thứ hai đăng trên tạp chí Khoa học công nghệ Thông tin và truyền thông (Hội đồng Giáo sư tính 0.5 điểm) Ngoài ra, chủ nhiệm đề tài đã hướng dẫn một sinh viên thực hiện và bảo vệ thành công đề tài tốt nghiệp đại học, đạt loại giỏi
1.2 Kết chương
Chương 1 đã giới thiệu về đề tài, ý nghĩa của đề tài, các đóng góp của đề tài với đề xuất mô hình GOWSeqGCN để phân lớp văn bản, phạm vi nghiên cứu và các kết quả đạt được
Trang 19CHƯƠNG 2: TỔNG QUAN CÁC CÔNG TRÌNH ĐÃ NGHIÊN CỨU
Chương 2 trình bày các công trình nghiên cứu liên quan, các khái niệm cơ bản, nghiên cứu có liên quan trực tiếp đến các công trình cũng như đóng góp chính của đề tài Phân lớp văn bản là một trong những bài toán kinh điển thuộc lĩnh vực NLP được ứng dụng rộng rãi trong thực tiễn Nhìn chung, các mô hình/kỹ thuật phân lớp văn bản
có thể được phân thành hai cách tiếp cận chính, đó là kỹ thuật đặc trưng thủ công cổ điển và phương pháp tiếp cận dựa trên mạng thần kinh
2.1 Phân lớp văn bản với kỹ thuật biểu diễn đặc trưng thủ công
Đây là hướng tiếp cận chính của hầu hết các mô hình phân lớp văn bản trước đây Những kỹ thuật truyền thống này chủ yếu tập trung vào quy trình kỹ thuật đặc trưng văn bản và phát triển mô hình phân lớp Nói chung, hầu hết các kỹ thuật đặc trưng thủ công trong văn bản được xây dựng theo cách tiếp cận BOW và các phần mở rộng dựa trên n-gram, còn được gọi là mô hình học máy nông Các mô hình này chủ yếu tập trung vào việc tìm ra các phương pháp hiệu quả để biểu diễn dữ liệu văn bản thô thành các dạng cấu trúc Euclidean/phi Euclidean Bằng cách chuyển đổi các tài liệu sang dạng này, mô hình phân lớp được thiết kế dễ hiểu hơn nhiều cũng như giảm thiểu việc mất thông tin trong quá trình học Trong triển khai thực tế, có một số kỹ thuật chuyển đổi/biểu diễn văn bản cổ điển thường được áp dụng, chẳng hạn như: mã hóa one-hot BOW, TF-IDF Có những mô hình nâng cao được đề xuất để nắm bắt các đặc trưng phân biệt phức tạp của cơ sở dữ liệu văn bản đã cho Có một số tích hợp giữa kỹ thuật đặc trưng thủ công với phương pháp đồ thị tri thức [5, 40] và n-grams [31, 39] Hơn nữa, có một số nghiên cứu sử dụng các kỹ thuật dựa trên GOW [30, 37]để chuyển đổi các tài liệu văn bản thành các cấu trúc dựa trên đồ thị Các kỹ thuật chuyển đổi dựa trên đồ thị này đã thực hiện những cải tiến đáng kể trong quy trình kỹ thuật đặc trưng để cải thiện việc phân lớp văn bản Tuy nhiên, hầu hết các mô hình đặc trưng thủ công gặp phải một số thách thức liên quan đến quy trình kỹ thuật đặc trưng cũng như sự rời rạc trong biểu diễn dữ liệu văn bản Do đó, một cách tiếp cận mới để biểu diễn văn bản cần được xem xét
Trang 202.2 Phương pháp tiếp cận dựa trên mạng thần kinh để phân lớp văn bản
Trong nhiều năm, việc áp dụng các kiến trúc dựa trên học máy/học sâu để xử lý các bài toán NLP như học đặc trưng văn bản và phân lớp đã được nghiên cứu rộng rãi Bắt đầu từ một mô hình mới lạ của Word2Vec , kỹ thuật nhúng từ nổi tiếng này cho phép học một cách hiệu quả các biểu diễn đặc trưng ẩn d-chiều cố định của các từ Việc nhúng từ được thực hiện bằng cách đánh giá sự phụ thuộc của các từ mục tiêu với thông tin theo ngữ cảnh xung quanh của chúng trong kho văn bản quy mô lớn Kể từ thời điểm
đó, phương pháp học biểu diễn từ/tài liệu đã trở nên phổ biến và được áp dụng rộng rãi trong NLP Có một số mô hình tiên tiến, như: GloVe, Doc2Vec, đã được đề xuất vào thời điểm đó Tuy nhiên, các mô hình nhúng từ/tài liệu cổ điển này vẫn có những hạn chế lớn Những hạn chế chính của các kỹ thuật nhúng từ trước đây có liên quan đến khả năng đảm bảo các mối quan hệ thứ tự giữa các từ trong quá trình học đặc trưng Để khắc phục hạn chế này, có một số kiến trúc dựa trên mạng thần kinh hồi quy đã được đề xuất Chẳng hạn như ELMo [28] bao gồm LSTM hai chiều 3 lớp Sau đó, mô hình ELMo được huấn luyện với hơn 93 triệu tham số sử dụng kho văn bản quy mô lớn chứa hơn 1
tỷ từ Là một mô hình ngôn ngữ được huấn luyện trước, ELMo có hiệu quả cao đáng ghi nhận so với các mô hình nhúng từ/tài liệu trước đó Thành công của mô hình ELMo đến từ khả năng nắm bắt các mối quan hệ thứ tự giữa các từ trong cơ sở dữ liệu văn bản nhất định Với những thành tựu đáng kể của ELMo, lĩnh vực mới của sequence-to-sequence (Seq2Seq)[2]và kiến trúc transformer-based [34] trong phân tích và khai phá văn bản đã bắt đầu Có một số phương pháp học đặc trưng văn bản dựa trên mạng thần kinh tuần tự sâu nâng cao đã được giới thiệu gần đây, chẳng hạn như: GPT [29], ULMFit [7], BERT, Các mô hình học đặc trưng văn bản theo ngữ cảnh phong phú/có trình tự sâu này có hiệu quả cao khi giải các bài toán NLP, bao gồm cả phân lớp văn bản Mặt khác, có những cách tiếp cận khác [8, 11, 44] tích hợp CNN với các kiến trúc dựa trên RNN (GRU, LSTM, Bi-LSTM, …) Các kỹ thuật dựa trên sự kết hợp CNN-RNN này
hỗ trợ để cùng nhau học biểu diễn đặc trưng ngữ nghĩa của văn bản nhằm cải thiện hiệu suất của các nhiệm vụ phân lớp và học biểu diễn văn bản Bằng cách kết hợp với cơ chế dựa trên sự chú ý nổi tiếng [34], có nhiều mô hình dựa trên CNN-RNN được chú ý [6,
16, 38] đã đạt được hiệu quả cao khi phân lớp văn bản Tuy nhiên, bên cạnh những thành công đáng kể khi giải quyết nhiều bài toán NLP, các mô hình nhúng văn bản tuần tự dựa
Trang 21trên RNN vẫn còn một hạn chế lớn Hạn chế này có liên quan đến khả năng duy trì cấu trúc toàn cục của các mối quan hệ tài liệu từ ở cấp độ văn bản
Học biểu diễn đồ thị văn bản thông qua GNN
Để giải quyết hạn chế vừa nêu, một xu hướng mới của phương pháp tiếp cận dựa trên mạng thần kinh sử dụng đồ thị đã được quan tâm áp dụng rộng rãi Cách tiếp cận biểu diễn văn bản mới này nhằm mục đích nắm bắt một cách hiệu quả các biểu diễn của các cấu trúc toàn cục trong văn bản Gần đây, có sự gia tăng của các kiến trúc mạng lưới thần kinh đồ thị trong nhiều lĩnh vực như GCN [9] là công trình nổi tiếng của Kipf, T
và cộng sự về học biểu diễn đồ thị Với sự phát triển của GNN, có nhiều nghiên cứu [3,
4, 20, 26, 43] gần đây đã cho thấy ứng dụng tiềm năng của GNN trong lĩnh vực NLP Trong một đột phá ban đầu, Yao, L và cộng sự đã đề xuất một cơ chế nhúng văn bản dựa trên GCN mới, được gọi là TextGCN [43] TextGCN được đề xuất hỗ trợ tận dụng chất lượng của các đặc trưng ẩn của tài liệu bằng cách sử dụng cấu trúc thông tin toàn cục của các đồ thị tài liệu Các đặc điểm cấu trúc mang tính thông tin này của tài liệu được trích xuất trong quá trình học lan truyền quang phổ của đồ thị Thông qua thực nghiệm, mạng nơ-ron dựa trên đồ thị được đề xuất của TextGCN đã đạt được hiệu suất cao nhất với một số bộ dữ liệu chuẩn để phân lớp văn bản Phần lớn được kế thừa từ những thành tựu to lớn của mô hình TextGCN trước đây, gần đây là Liu, X và cộng sự
đề xuất một cách tiếp cận mới dựa trên GCN, được gọi là TensorGCN Mô hình TensorGCN được đề xuất có hiệu quả cao nhờ biểu diễn đặc trưng ẩn toàn cục của đồ thị tài liệu đa loại hình thông qua việc sử dụng tensor đồ thị Tensor đồ thị hỗ trợ mã hóa chính xác thông tin không đồng nhất của đồ thị tài liệu được xây dựng đa loại hình trong các bước trước Sau đó, đồ thị này hỗ trợ để biểu diễn đặc trưng của các tài liệu thông qua các quá trình học lan truyền giữa các bên/nội bộ Tuy nhiên, nói chung, các
mô hình nhúng văn bản dựa trên GCN trước đây vẫn tồn tại hạn chế trong việc xử lý kho văn bản có cấu trúc phụ thuộc cao và phức tạp là bỏ qua phần lớn các biểu diễn từ/câu có thứ tự của mỗi tài liệu trong quá trình học lan truyền
2.3 Kết chương
Chương này trình bày và phân tích các ưu điểm và hạn chế của các công trình nghiên cứu liên quan đến đề tài về phân lớp văn bản
Trang 22CHƯƠNG 3: MÔ HÌNH ĐỀ XUẤT
VÀ KẾT QUẢ THỰC NGHIỆM
Trong phần này, bài viết trình bày phương pháp luận của mô hình GOWSeqGCN được đề xuất Trước tiên, phần này trình bày một phương pháp học đặc trưng văn bản dựa trên MultTextEmb mới Cơ chế nhúng văn bản tùy chỉnh này hỗ trợ nắm bắt các biểu diễn tuần tự ngữ nghĩa của các từ/câu và cấu trúc cục bộ tổng thể của từng tài liệu
Để tích hợp các ma trận nhúng tuần tự của các từ và câu trong mỗi tài liệu, chúng tôi áp dụng kết hợp BERT được huấn luyện trước với bộ mã hóa dựa trên Bi-LSTM để bảo toàn hoàn toàn các biểu diễn ngữ nghĩa của các mối quan hệ từ-câu-tài liệu Tiếp theo, GCN nhiều lớp sau đó được áp dụng trên mỗi đồ thị của tài liệu dựa trên GOW để học biểu diễn cấu trúc cục bộ của từng tài liệu, sau đó được hợp nhất với ma trận nhúng của tài liệu có được trước đó để tạo ra đặc trưng tài liệu cuối cùng Tiếp theo, tương tự như các phương pháp tiếp cận trước đó, chúng tôi xây dựng một tensor đồ thị văn bản đầy
đủ thông qua các phương pháp chuyển đổi đồ thị văn bản dựa trên GCTG khác nhau và học đặc trưng cuối cùng của các nút của tài liệu từ tensor đồ thị được xây dựng để giải quyết nhiệm vụ phân lớp văn bản
3.1 Phương pháp
3.1.1 Kiến trúc tổng quát của mô hình GowSeqGCN
Trước hết, đối với mỗi tài liệu, chúng tôi đã xác định một cơ chế nhúng văn bản mới có thể cùng học cách biểu diễn đặc trưng nhiều cú pháp của đồ thị tài liệu và mối quan hệ tuần tự ngữ nghĩa của các từ/câu trong mỗi tài liệu văn bản Các đồ thị của tài liệu được xây dựng là các mạng không đồng nhất với nhiều loại quan hệ, bao gồm các mối quan hệ đồng hiện từ và mối quan hệ tài liệu - từ Để tích hợp hiệu quả nhiều ma trận nhúng của từng tài liệu vào một không gian biểu diễn đặc trưng ẩn thống nhất, chúng tôi đã xác định một hàm hợp nhất để hoàn thành tác vụ hợp nhất nhúng văn bản Tiếp theo, dựa trên các công trình trước đây của Liu, X và cộng sự trong mô hình TensorGCN [20], chúng tôi đã áp dụng tensor đồ thị để biểu diễn đặc trưng một kho văn bản hoàn chỉnh với các biểu diễn hợp nhất có liên quan ở bước trước Sau đó, các quy trình lan truyền giữa các đồ thị/nội đồ thị được sử dụng để học biểu diễn đặc trưng cuối
Trang 23cùng của các tài liệu để phân lớp Cách tiếp cận này tương tự như công trình trước đây của Kipf, T và cộng sự [9] biến việc phân lớp văn bản thành vấn đề phân lớp nút
3.1.2 MultTextEmb: một phương pháp kết hợp học biểu diễn đặc trưng cấu trúc cục bộ
và thứ tự văn bản
Học biểu diễn từ/câu theo thứ tự
Sự kết hợp giữa GCN và Word2Vec để học biểu diễn từ theo ngữ cảnh ở cấp độ tài liệu Từ một tập văn bản (D), trước tiên đề tài áp dụng mô hình Word2Vec được huấn luyện trước [23] để học ma trận nhúng d-chiều theo ngữ cảnh của một tài liệu được cho (𝒹) với một tập hợp các từ không trùng: 𝒲d, ký hiệu là: fword2vec(𝒲𝒹) → X𝒹Word2Vec ∈
ℝ|𝒲 𝒹 |×d Tuy nhiên, mô hình Word2Vec chỉ có khả năng nắm bắt cấu trúc ngữ cảnh của
sự xuất hiện đồng thời của từ và không thể duy trì cấu trúc ngữ cảnh chung của toàn bộ tài liệu Do đó, chúng tôi kết hợp các vectơ nhúng từ theo ngữ cảnh cục bộ của Word2Vec với bộ mã hóa đồ thị văn bản dựa trên GCN để tạo ma trận nhúng từ có ý nghĩa hơn cho tài liệu (𝒹) Để làm điều này, đối với mỗi tài liệu, chúng tôi áp dụng kỹ thuật xây dựng đồ thị tài liệu dựa trên GOW với mỗi nút của mạng là một từ duy nhất trong tài liệu (𝒹) và tập hợp các cạnh biểu diễn các mối quan hệ đồng hiện giữa các từ Sau đó, một GCN k-lớp được áp dụng để học biểu diễn đặc trưng của các nút trên đồ thị văn bản dựa trên GOW đã được xây dựng cho tài liệu (𝒹), ký hiệu : G𝒹 GOW Đối với lớp đầu tiên, phương pháp nhúng từ dựa trên GCN được đề xuất của chúng tôi sử dụng ma trận tài liệu nhúng từ dựa trên Word2Vec trước đó của tài liệu (𝒹) như ma trận đặc trưng nút ban đầu (như được minh họa trong công thức (3.1) (a) Sau đó, đối với lớp thứ t cụ thể tiếp theo, cơ chế nhúng văn bản dựa trên GCN khi quá trình học lan truyền vùng lân cận được định nghĩa đơn giản như thể hiện trong công thức (3.1) (b)
ℋ1= fact(WtGCN X𝒹Word2Vec A∗) (a)
(3.1)
ℋ [t+1] = fact(W tGCN ℋ[t] A ∗ ) (b)
Với:
fact, là hàm kích hoạt, thường sử dụng hàm ReLU( )
WtGCN , là ma trận tham số trọng số của lớp thứ tcủa mô hình GCN đã cho
Trang 24 A∗, là ma trận kề được chuẩn hóa của đồ thị văn bản dựa trên GOW đã cho (G𝒹 GOW), có được bởi: A∗= D̃−12ÃD̃−12 với à = A + I và D̃ = diag(∑ Aj̃ij), với: I,
à và D̃ là ma trận đơn vị, ma trận kề và ma trận bậc của hàm đã cho Ã
Ở lớp cuối cùng của mô hình GCN, chúng ta có thể đạt được các biểu diễn sau cùng của các từ trong tài liệu (𝒹) dưới dạng các vectơ nhúng của nút của đồ thị văn bản dựa trên GOW đã cho (G𝒹 GOW) Ma trận nhúng từ đạt được ở bước này, được ký hiệu là:
X𝒹w_emb được coi là phong phú hơn về ý nghĩa ngữ nghĩa do khả năng cùng nhau bảo tồn
cả cấu trúc ngữ cảnh cục bộ và toàn cục của các mối quan hệ từ-từ và từ-tài liệu Nhìn chung, việc học biểu diễn từ dựa trên GCN-Word2Vec tích hợp được đề xuất trong phần này có thể được biểu diễn đơn giản dưới dạng một hàm ánh xạ, như sau:
fword_emb(𝒲d) → X𝒹w_emb ∈ ℝ|𝒲d |×d Tương tự như quy trình tạo ma trận nhúng từ cho từng tài liệu, chúng ta cũng áp dụng fword_emb( ) trên tập từ vựng (𝒲D) của tập dữ liệu (D) để đạt được ma trận nhúng từ đầy đủ của (D): fword_emb(𝒲D) → XDw_emb ∈ ℝ|𝒲D |×d
Học biểu diễn mối quan hệ từ-câu tuần tự Tiếp theo, để sắp xếp nhẹ nhàng biểu diễn
liên tục của các vectơ nhúng từ đã học vào ngữ cảnh câu, chúng tôi sử dụng kết hợp mã hóa Bi-LSTM với mô hình BERT được huấn luyện trước để tạo ma trận nhúng các câu của tài liệu (𝒮𝒹), ký hiệu là: fsent_emb(𝒲d) → X𝒹s_emb ∈ ℝ|𝒮𝒹 |×d
Theo cách tiếp cận của chúng tôi, để đạt được hàm fsent_emb( ), chúng tôi không trực tiếp áp dụng mô hình BERT được huấn luyện trước để học trực tiếp cách biểu diễn câu trong mỗi tài liệu, điều này có thể dẫn đến việc mất thông tin về cách biểu thị từ theo ngữ cảnh ẩn ở cấp độ tài liệu Để ngăn chặn sự cố này, trước tiên chúng tôi áp dụng
bộ mã hóa Bi-LSTM tự chú ý để nắm bắt các biểu diễn theo ngữ cảnh liên tục của các vectơ nhúng từ trong các câu xuất hiện của chúng Sau đó, các trạng thái ẩn tổng hợp của bộ mã hóa Bi-LSTM được sử dụng để hợp nhất vào các vectơ nhúng câu dựa trên BERT
Chi tiết hơn, để tính toán biểu diễn dựa trên sự chú ý của mỗi từ tth trong một câu (𝓈), ký hiệu là: e⃗⃗⃗⃗⃗ , trước tiên chúng tôi sử dụng kiến trúc Bi-LSTM để mã hóa tất cả 𝓌t
các từ trong mỗi câu và tạo trạng thái ẩn tương ứng của từng từ theo mỗi hướng, được
ký hiệu là: h𝓌,[θ]t (như công thức 3.2a) Sau đó, chúng tôi nối trạng thái ẩn cuối cùng
Trang 25của cả hai hướng (tiến/lùi) để tạo ra biểu diễn cuối cùng của mỗi câu (như thể hiện trong công thức 2b)
e𝓈
⃗⃗⃗ Bi-LSTM= [h𝓌,[+θ]t , h𝓌,[−θ]t ] (b) Với,
[+θ, −θ], định hượng (forward/backward) của mỗi ô LSTM
WBi−LSTM và bBi-LSTM, là weighting parameter và ma trận bias của mô hình LSTM
Bi- e⃗⃗⃗⃗⃗ , embedding vector của mỗi từ tại t𝓌t th time-step, e⃗⃗⃗⃗⃗ ∈ X𝓌t 𝒹w_emb
e⃗⃗⃗ 𝓈Bi-LSTM, véc tơ nối embedding vector của câu (𝓈)
Từ sequential embedding vector của mỗi sentence nhận được: e⃗⃗⃗ 𝓈Bi-LSTM thông qua Bi-LSTM encoder, để căn chỉnh nó với cấu trúc ngữ cảnh cục bộ của các từ xuất hiện ở cấp độ tài liệu, chúng tôi áp dụng cơ chế end-to-end self-attention trên tập từ của mỗi câu của layer mạng nơ ron truyền thẳng full-connected MLP với hàm softmax ở cuối Quá trình tổng thể có thể được xây dựng như công thức sau (như thể hiện trong công thức 3.3):
Trang 26 e⃗⃗⃗ 𝓈sa, là biểu diễn đặc trưng sau cùng của mỗi câu nhờ kết hợp giữa mã hóa Bi-LSTM và cơ chế tự chú ý thu được từ max pooling trên sequential semantic ( e⃗⃗⃗ 𝓈Bi-LSTM) thông qua Bi-LSTM và phép nhân các embedding vectors có trong câu, ký hiệu: e⃗⃗⃗⃗⃗ 𝓈∗sa
Học biểu diễn đặc trưng chuỗi tài liệu
Sau đó, chúng tôi đã kết hợp các biểu diễn chuỗi câu dựa trên sự tự chú ý với cơ chế mã hóa sâu tự động của mô hình BERT được huấn luyện trước để tạo ra các biểu diễn toàn diện hơn cho tất cả các câu, được ký hiệu là: e⃗⃗⃗ 𝓈BERT trong ngữ cảnh bảo tồn đặc trưng ẩn của mối quan hệ câu-tài liệu Sau đó, hai loại ma trận self-attention based
và BERT-based được hợp nhất vào không gian nhúng, ký hiệu: e⃗⃗⃗ sử dụng max pooling 𝓈Quá trình tổng thể có thể được xây dựng như thể hiện trong công thức 3.8 a Cuối cùng, với sự thể hiện ngữ nghĩa phong phú thống nhất của mỗi câu: e⃗⃗⃗ trong tài liệu được cho 𝓈(𝒹), chúng tôi sử dụng một bộ mã hóa khác là Bi-LSTM encoder để nắm bắt mối quan
hệ liên tục của câu trong tài liệu (𝒹) và cho ra biểu diễn đặc trưng chuỗi tài liệu sau cùng bằng cách kết hợp cả 2 hướng các trạng thái ẩn của output, ký hiệu: e⃗⃗⃗⃗ (như mô tả trong 𝒹công thức 3.8b)
e⃗⃗⃗ 𝓈BERT, véc tơ nhúng câu trong tài liệu (𝒹) sử dụng pre-trained BERT
LSTM( |[+θ]) và LSTM( |[−θ]), là mã hóa Bi-LSTM theo 2 hướng tiến và lùi
e⃗⃗⃗⃗ , biểu diễn đặc trưng tài liệu sau cùng (𝒹) 𝒹
Trang 27Nhờ phương pháp nhúng văn bản dựa trên MultTextEmb được đề xuất, chúng tôi biểu diễn đặc trưng dựa trên cấu trúc toàn cục và tuần tự ngữ nghĩa của tất cả các tài liệu trong kho văn bản đã cho (D) một cách hiệu quả Sau đó, ma trận nhúng tài liệu MultTextEmb-based đã học được sử dụng một cơ chế mã hóa cấp tập dữ liệu GCN-based cho tất cả tensor đồ thị của toàn tập dữ liệu Cơ chế học biểu diễn tài liệu mức kho văn bản thông qua tensor đồ thị được mô tả trong phần tiếp theo Để phân biệt vector nhúng của từng tài liệu thông qua chiến lược dựa trên MultTextEmb với chiến lược dựa trên tensor đồ thị, chúng ta sẽ biểu thị cách nhúng tài liệu dựa trên MultTextEmb là:
e𝒹
⃗⃗⃗⃗ MTE ∈ XDMTE và nhúng tài liệu dựa trên tensor đồ thị là: e⃗⃗⃗⃗ 𝒹GT ∈ XDGT
3.1.3 Học biểu diễn tài liệu cấp Corpus thông qua tensor đồ thị
Xây dựng tensor đồ thị và quá trình học lan truyền
Trong các bước trước, chúng tôi đã biểu diễn tài liệu dựa trên MultTextEmb cho một tập văn bản nhất định (𝐷), ký hiệu: XDMTE, trong bước này, chúng ta sẽ xây dựng một tensor đồ thị để cùng nhau tìm hiểu cấu trúc toàn cục tổng thể của một tập văn bản nhất định nhằm bảo tồn thông tin không đồng nhất theo ngữ cảnh khác nhau, bao gồm các mối quan hệ đồng hiện và cú pháp Kế thừa nghiên cứu của Liu, X Và cộng sự [20], chúng tôi đã xây dựng một tensor đồ thị cho tập văn bản đã cho (𝐷), ký hiệu: 𝒢D ={GDGCTG_co, GDGCTG_syn}, với GDGCTG_co và GDGCTG_syn là các biểu đồ văn bản kho tập bản toàn cục cho các mối quan hệ từ-từ và tài liệu từ đồng hiện và cú pháp Các đồ thị văn bản dựa trên GCTG này được xây dựng như sau:
GDGCTG_co = (VDGCTG_co, EDGCTG_co), với VDGCTG_co là tập hợp các nút không đồng nhất chứa các từ và tài liệu không trùng trong (D), hay |VDGCTG_co| = |𝒲𝒹| + |D| và
EDGCTG_co là mối quan hệ đồng hiện của từ-từ và từ-tài liệu
GDGCTG_syn = (VDGCTG_syn, EDGCTG_syn) , với VDGCTG_syn tương tự như VDGCTG_co và
EDGCTG_syn trình bày về các mối quan hệ từ-từ về cú pháp ngữ pháp được trích xuất
Trang 28bằng cách sử dụng Stanford CoreNLP [1] [22]và các mối quan hệ đồng hiện từ-tài liệu
Từ tensor đồ thị được xây dựng: 𝒢D, chúng tôi áp dụng các quy trình học lan truyền giữa/nội bộ trước đó của Liu, X và cộng sự để thu được ma trận nhúng nút của tài liệu, được ký hiệu là: XDGT Việc học lan truyền dựa trên đồ thị-tensor tổng thể tại một thời điểm cụ thể 𝑡𝑡ℎ có thể được xây dựng như các thủ tục sau đây: ℋ𝑡 intra_prop
→ ℋ𝑖𝑛𝑡𝑟𝑎𝑡 inter_prop→ ℋ𝑡+1 Tương tự như quá trình học tập lan truyền và tổng hợp vùng lân cận dựa trên GCN, sử dụng ma trận nhúng từ và nhúng tài liệu xếp chồng lên nhau của tập văn bản tổng thể (𝐷), ký hiệu: XGCTG, hàm 𝑓intra_prop( ) và 𝑓inter_prop( ) có thể được xây dựng như phương trình 3.9a Phương trình 3.9b minh họa quá trình học lan truyền chung của tensor đồ thị đã cho 𝒢D
X GCTG = stack[XDGT, XDw_emb]
fintra_prop(XGCTG) = ℋintra1 [α, , ] = fact(Wintra1,α XGCTG 𝒜∗[α, , ])
fintra_prop(ℋintra1 ) = ℋ 2 = ℋinter1 [ , β, ] = fact(Wintra1,α ℋintra1 [ , β, ] A ∗ [ , , β])
(3.5) (a)
ℋ t+1 = fintra_prop(finter_prop(ℋ t )) (b) Với:
fact, là hàm kích hoạt của quá trình học lan truyền tensor đồ thị đã cho – hàm 𝑅𝑒𝐿𝑈( )
𝒜∗[𝛼, , ], là chuẩn hóa đối xứng của ma trận kề đồ thị 𝛼𝑡ℎ
Trong lớp cuối cùng của kiến trúc học tập dựa trên tensor đồ thị, max pooling được
áp dụng trên các ma trận nhúng đồ thị văn bản dựa trên GCTG khác nhau để thu được biểu diễn cuối cùng của các nút của tài liệu, được ký hiệu là: XDGT =MaxPool(ℋlast_layer)
Trang 29
Hợp nhất biểu diễn tài liệu dựa trên cấu trúc toàn cục và dựa trên trình tự
Từ các biểu diễn tài liệu dựa trên trình tự sâu và dựa trên cấu trúc toàn cục đạt được nhờ MultTextEmb được đề xuất và các chiến lược nhúng tensor đồ thị dựa trên GCN tích hợp, chúng tôi áp dụng một cơ chế hợp nhất để chuyển đổi các ma trận nhúng tài liệu khác nhau thành một không gian nhúng thống nhất mà sau đó được sử dụng cho nhiệm vụ phân lớp văn bản Để làm điều này, chúng tôi áp dụng chức năng hợp nhất được cá nhân hóa phi tuyến tính, được ký hiệu là: fNL( ) Mục đích của chúng tôi khi sử dụng chiến lược hợp nhất vectơ được cá nhân hóa phi tuyến tính trong trường hợp này
là để mô hình hóa hiệu quả các đặc trưng và mối quan hệ ẩn phức tạp giữa các biểu diễn của tài liệu từ các không gian nhúng khác nhau, do đó giúp hợp nhất hiệu quả hơn Hàm
fNL( ) được định nghĩa như sau (như thể hiện trong công thức 3.6a):
σ, là một hàm kích hoạt phi tuyến tính cho hàm fNL( ) – ở đây là hàm sigmoid
ΘNL = {MαNL, MβNL, bNL}, là tập hợp các tham số trọng số và ma trận bias cho hàm hợp nhất được cá nhân hóa phi tuyến tính đã cho
XD, ma trận nhúng hợp nhất của các tài liệu trong tập (D)
Cùng với quá trình học biểu diễn văn bản tổng thể thông qua các phương pháp nhúng văn bản khác nhau, các tham số (ΘNL) của hàm fNL( ) được cập nhật tương ứng bằng cách sử dụng SGD với đạo hàm của từng tham số được tính bằng cách sử dụng công thức 3.6b
Trang 303.2 Thực nghiệm và bàn luận
3.2.1 Dữ liệu và thiết lập thực nghiệm
Mô tả dữ liệu thực nghiệm
Để đánh giá hiệu suất chính xác của các thuật toán nhúng văn bản khác nhau, chúng tôi
đã tiến hành các thử nghiệm của mình trong một số bộ dữ liệu chuẩn, đó là:
20-Newsgroups (20NG): đây được coi là bộ dữ liệu cổ điển để phân lớp văn bản
chứa khoảng 18 nghìn tài liệu được sắp xếp thành 20 lớp khác nhau Tập dữ liệu này chứa hai phần chính, tập huấn luyện (11K tài liệu) và tập kiểm tra (7K tài liệu) Bộ dữ liệu 20NG ban đầu có thể được tải xuống tại kho lưu trữ này [2]
Reuters (R8 & R52): cũng là một bộ dữ liệu chuẩn nổi tiếng để phân lớp văn
bản Reuters-R8 và Reuters-R52 là các tập hợp con của bộ sưu tập Reuters-21578 Reuters-R8 chứa 7,5K tài liệu (5,5K cho huấn luyện và 2K cho thử nghiệm) được chia thành 8 lớp Reuters-52 chứa tài liệu 9K (6,5K cho huấn luyện và 2,5K cho thử nghiệm) được phân lớp thành 52 lớp Hai bộ dữ liệu này có thể được tải xuống tại kho lưu trữ này [3]
Ohsumed: là một bộ dữ liệu y tế nổi tiếng được thu thập từ cơ sở dữ liệu
MEDLINE Bộ dữ liệu này chứa khoảng 7,4K (3,3K cho huấn luyện và 4K cho thử nghiệm) tài liệu là các mô tả/tóm tắt của 23 loại bệnh Bộ dữ liệu này có thể được tải xuống tại kho lưu trữ này [4]
Movie Reviews (MR): là một bộ dữ liệu văn bản để đánh giá hiệu suất của các
kỹ thuật phân tích tình cảm chỉ chứa hai lớp: tích cực và tiêu cực Chi tiết hơn, tập dữ liệu này chứa 10 nghìn bài đánh giá về một bộ phim (5 nghìn bài đánh giá tích cực và 5 nghìn bài đánh giá tiêu cực) Bộ dữ liệu này có thể tải tại kho lưu trữ GitHub này [5]
Trang 31
DBLP: là mạng thư mục nổi tiếng chứa khoảng 5,4 triệu bài báo khoa học trong
lĩnh vực khoa học máy tính Để sử dụng bộ dữ liệu này cho thử nghiệm, chúng tôi chọn khoảng 200 nghìn bản tóm tắt các bài báo của mạng DBLP được gắn nhãn theo 12 chủ đề/lĩnh vực chính khác nhau của Hệ thống phân lớp thư viện số 2012-ACM [6]
arXiv: là một kho lưu trữ kỹ thuật số truy cập mở nổi tiếng dành cho các bài báo
khoa học in sẵn do Đại học Cornell quản lý Chi tiết hơn, bộ dữ liệu này chứa khoảng 730 nghìn tài liệu được phân lớp thành 8 lĩnh vực nghiên cứu theo phân lớp danh mục arXiv Chúng tôi đã chọn ngẫu nhiên 600 nghìn bài báo từ bộ dữ liệu này cho các thử nghiệm trong bài báo này Có thể tải xuống trực tiếp bộ dữ liệu arXiv với phần tóm tắt của giấy in sẵn tại kho lưu trữ này [7]
Đối với các bộ dữ liệu được liệt kê ở trên được sử dụng trong các thử nghiệm của chúng tôi, DBLP (>200 nghìn tài liệu) và arXiv (>730 nghìn tài liệu) được coi là bộ dữ liệu quy mô lớn với số lượng tài liệu khổng lồ cũng như các từ không trùng Do đó, các biểu đồ văn bản được xây dựng phải lớn hơn nhiều so với các bộ dữ liệu khác Tiếp theo các công việc trước, trước tiên chúng tôi tiến hành các bước tiền xử lý đơn giản như: lọc
từ dừng, tạo từ gốc và mã hóa từ Sau đó, để trích xuất các mối quan hệ phụ thuộc ngữ pháp giữa các từ để xây dựng biểu đồ văn bản dựa trên cú pháp GCTG, chúng tôi đã sử dụng thư viện Stanford CoreNLP [22]
So sánh giải thuật và thảo luận
Để chứng minh hiệu suất vượt trội của mô hình được đề xuất của chúng tôi khi so sánh với các giải thuật biểu diễn văn bản hiện đại gần đây, chúng tôi cũng đã triển khai một số phương pháp nổi tiếng, đó là:
TF-IDF: là một kỹ thuật biểu diễn văn bản dựa trên BOW cổ điển áp dụng thuật
ngữ tần số nghịch đảo tần số của các từ để biểu thị các vectơ của tài liệu TF-IDF được áp dụng trong mỗi bộ dữ liệu để trích xuất các vectơ của tài liệu Sau đó,
Trang 32
các vectơ của tài liệu này được đưa vào bộ phân lớp Hồi quy logistic (LR) để xử
lý tác vụ phân lớp văn bản
GOW [30]: cũng là một cách biểu diễn truyền thống của văn bản, chuyển đổi tài
liệu thành các cấu trúc dựa trên đồ thị, sau đó trích xuất các đặc điểm chung từ
đồ thị của tài liệu thông qua các kỹ thuật khai thác đồ thị con phổ biến Chúng tôi
đã triển khai phương pháp phân lớp văn bản dựa trên GOW mặc định của Rousseau, F và cộng sự [30] để giải quyết nhiệm vụ phân lớp văn bản trong mỗi tập dữ liệu với bộ phân lớp LR
Word2Vec [23]: được coi là một kỹ thuật nhúng từ nguyên thủy cho phép chuyển
đổi tất cả các từ thành các vectơ nhúng d-chiều cố định Mô hình Word2Vec tạo
ma trận nhúng từ cho kho văn bản tổng thể bằng cách sử dụng sự xuất hiện theo ngữ cảnh cục bộ và kiến trúc Skip-gram để học cách biểu diễn của từng từ Để triển khai hợp lý Word2Vec có thể có khả năng xử lý các tập dữ liệu văn bản khác nhau, chúng tôi đã sử dụng lại Word2Vec 300 chiều ban đầu được huấn luyện trước, sau đó chúng tôi lấy vectơ nhúng trung bình của tất cả các từ để tạo vectơ nhúng của tài liệu cuối cùng của mỗi tập dữ liệu
Doc2Vec [13]: chủ yếu được kế thừa từ tính năng nhúng từ của mô hình
Word2Vec, Le, Q Và cộng sự đã giới thiệu một kỹ thuật nhúng dựa trên tài liệu mới cho phép nắm bắt hiệu quả thứ tự các từ theo ngữ cảnh trong một tài liệu có
độ dài đầy đủ Có hai phiên bản của mô hình Doc2Vec [13] là: DBOW (distributed bag of words) & DM (distributed memory), chúng tôi đã triển khai
cả hai phiên bản Doc2Vec và lấy hiệu suất chính xác trung bình làm kết quả cuối cùng
BERT [14] (+Bi-LSTM encoder): một cơ chế nhúng văn bản nổi tiếng gần đây
hỗ trợ chuyển đổi các câu của tài liệu thành các vectơ nhúng d-chiều cũng như đảm bảo cấu trúc tuần tự ngữ nghĩa của các câu được giữ nguyên trong quá trình
mã hóa Để thiết lập BERT nhằm xử lý tác vụ phân lớp văn bản trong các thử nghiệm, chúng tôi đã sử dụng BERT được huấn luyện trước để học đặc trưng của tất cả các câu trong mỗi tài liệu, sau đó áp dụng bộ mã hóa Bi-LSTM [18] để nắm bắt các mối quan hệ tuần tự của các vectơ nhúng của câu và tạo các vectơ nhúng tài liệu bằng cách nối các trạng thái ẩn đầu ra
Trang 33 TextGCN [43]: là một mô hình phân lớp văn bản dựa trên GCN gần đây áp dụng
phép chuyển đổi đồ thị văn bản dựa trên GCTG để bảo tồn các loại quan hệ
từ-từ và từ-từ-tài liệu khác nhau Sau đó, các đồ thị văn bản dựa trên GCTG đã xây dựng được đưa vào bộ mã hóa dựa trên GCN nhiều lớp để tìm hiểu cách biểu diễn các nút của tài liệu và thực hiện nhiệm vụ phân lớp văn bản dưới dạng phân lớp nút của mạng, tương tự như công việc ban đầu của [9] Kipf T và cộng sự
TensorGCN [20]: được đề xuất gần đây bởi Liu, X Và cộng sự được lấy cảm
hứng từ mô hình TextGCN trước đó Đây là mô hình tiên tiến hơn so với các công trình trước đó, TensorGCN áp dụng phương pháp xây dựng tenxơ biểu đồ
và phương pháp học lan truyền giữa nội bộ để học hiệu quả đặc trưng ẩn của các
đồ thị văn bản dựa trên GCTG khác nhau dưới dạng các mạng thông tin không đồng nhất
3.2.2 Kết quả thực nghiệm và bàn luận
Đánh giá về nhiệm vụ phân lớp văn bản
Hình 3.1: Kết quả thử nghiệm cho nhiệm vụ phân lớp văn bản trên bộ dữ liệu 20NG, Reuters (R8, R52), Ohsumed và MR qua các thuật toán biểu diễn văn bản khác nhau
Để đánh giá hiệu suất của các thuật toán biểu diễn văn bản khác nhau trong nhiệm
vụ phân lớp văn bản, chúng tôi đã triển khai và áp dụng mô hình nhúng văn bản khác nhau để tìm hiểu biểu diễn của tất cả các tài liệu trong mỗi bộ dữ liệu Đối với các kỹ
Trang 34thuật nhúng văn bản truyền thống, liên kết như: TF-IDF, GOW, Word2Vec, Doc2Vec
và BERT+Bi-LSTM, chúng tôi đã sử dụng bộ phân lớp LR để học các tập huấn luyện
và sau đó sử dụng bộ phân lớp được huấn luyện để dự đoán các lớp tài liệu trong bộ kiểm tra Đối với các mô hình dựa trên GCN (TextGCN, TensorGCN và GOWSeqGCN được đề xuất của chúng tôi), chúng tôi đã đặt một lớp dựa trên MLP được kết nối đầy
đủ với hàm kích hoạt softmax(.) ở cuối để xử lý tác vụ phân lớp Các thực nghiệm trên mỗi mô hình được tiến hành 10 lần và báo cáo hiệu suất trung bình là kết quả cuối cùng Tất cả các hiệu suất chính xác của mô hình được đánh giá và báo cáo về độ chính xác Hình 3.1 và Hình 3.2 trình bày kết quả thực nghiệm cho các tác vụ phân lớp văn bản trong nhiều bộ dữ liệu chuẩn với các phương pháp học biểu diễn văn bản khác nhau Như thể hiện từ các kết quả đầu ra thử nghiệm, mô hình GOWSeqGCN được đề xuất của chúng tôi vượt trội hơn hẳn tất cả các kỹ thuật nhúng văn bản trong tất cả các bộ dữ liệu văn bản tiêu chuẩn Chi tiết hơn, khi so sánh với các phương pháp biểu diễn văn bản dựa trên BOW cổ điển (TF-IDF, GOW), GOWSeqGCN được đề xuất của chúng tôi vượt trội hơn đáng kể so với trung bình 21,02% cho tất cả các bộ dữ liệu Đối với các
mô hình dựa trên RNN/mã hóa tự động, GOWSeqGCN cũng đạt được hiệu suất chính xác cao hơn khoảng 20,01% (Word2Vec), 16,68% (Doc2Vec) và 10,17% (BERT+Bi-LSTM) Đối với các đối thủ cạnh tranh chính của chúng tôi: TextGCN and TensorGCN,
mô hình đề xuất của chúng tôi cũng cải thiện một chút hiệu suất tương ứng khoảng 4,58% và 2,38% Hơn nữa, chúng ta cũng có thể tìm ra từ các kết quả thử nghiệm trong Hình 3.1 và Hình 3.2, thực tế là hầu hết các mô hình dựa trên mạng thần kinh sâu đều thể hiện hiệu suất cao trong các tập dữ liệu phức tạp và quy mô lớn (Ohsumed, DBLP
và arXiv) so với mô hình biểu diễn đặc trưng thủ công cổ điển Để đánh giá tính ổn định của mô hình nhúng văn bản dựa trên GCN, chúng tôi đã thay đổi kích thước tập huấn luyện của bộ dữ liệu arXiv và DBLP từ 10% thành 100% và báo cáo các thay đổi về hiệu suất chính xác tổng thể của TextGCN, TensorGCN và GOWSeqGCN Kết quả thử nghiệm cho thấy mô hình GOWSeqGCN được đề xuất của chúng tôi ổn định hơn so với TextGCN và TensorGCN, mô hình này đạt được hiệu suất phân lớp văn bản cao với kích thước bộ dữ liệu nhỏ Nhìn chung, thông qua các thử nghiệm mở rộng trong bộ dữ liệu chuẩn cho bài toán phân lớp văn bản với các kỹ thuật phân lớp và học biểu diễn văn bản khác nhau, các kết quả đầu ra của thử nghiệm đã cho thấy những tiến bộ của phương
Trang 35pháp học biểu diễn văn bản dựa trên đồ thị Các phương pháp nhúng đồ thị văn bản này
có hiệu suất tốt hơn đáng kể so với hầu hết các phương pháp tiếp cận dựa trên deep learning tuần tự trước đây Thực tế này đã cho thấy tiềm năng ứng dụng của các phương pháp biến đổi đồ thị văn bản và đồ thị dựa trên mạng nơ-ron Phương pháp nhúng văn bản mới lạ này hỗ trợ nắm bắt các biểu diễn cấu trúc và sơ đồ phong phú hơn nhiều của văn bản cho hỗ trợ nhiều nhiệm vụ nguyên thủy của NLP, bao gồm cả phân lớp
Hình 3.2: Kết quả thử nghiệm cho nhiệm vụ phân lớp văn bản trên bộ dữ liệu văn bản quy mô lớn (DBLP, arXiv) so sánh nhiều thuật toán biểu diễn văn bản khác nhau
Đánh giá độ bền và độ ổn định của mô hình Ngoài ra, chúng tôi cũng đã tiến hành
các nghiên cứu thực nghiệm sâu rộng để đánh giá tính ổn định của mô hình nhúng văn bản dựa trên GCN, bao gồm GOWSeqGCN, TextGCN và TensorGCN được đề xuất của chúng tôi Để làm được điều này, chúng tôi đã thay đổi kích thước tập huấn luyện của tập dữ liệu arXiv và DBLP từ 10% thành 100% Sau đó, chúng tôi đã báo cáo những thay đổi về hiệu suất chính xác tổng thể của TextGCN, TensorGCN và GOWSeqGCN theo chỉ số F1 Hình 3.3 trình bày các biến động về hiệu suất chính xác của các mô hình khác nhau tùy theo kích thước khác nhau của hai bộ dữ liệu quy mô lớn chuẩn, đó là arXiv và DBLP Nhìn chung, kết quả thử nghiệm cho thấy mô hình GOWSeqGCN được
đề xuất của chúng tôi ổn định hơn so với TextGCN và TensorGCN, mô hình này đạt được hiệu suất phân lớp văn bản cao với kích thước bộ dữ liệu nhỏ Các kết quả thử nghiệm này đã chứng minh tính hiệu quả của việc tích hợp giữa việc học biểu diễn cấu trúc đồ thị và cấu trúc tuần tự theo ngữ cảnh phong phú trong GOWSeqGCN được đề
Trang 36xuất của chúng tôi ở cả khía cạnh độ hiệu quả (robustness) và độ ổn định để xử lý nhúng văn bản cũng như nhiều mục tiêu của nhiệm vụ của NLP như phân lớp
Đánh giá về khả năng mở rộng của mô hình và chi phí thời gian Trong phần này,
chúng tôi nghiên cứu sâu hơn về khả năng mở rộng và yêu cầu nỗ lực huấn luyện của các kiến trúc phân lớp và học tập biểu diễn văn bản dựa trên GNN khác nhau Để làm điều này, chúng tôi đã phân tích thời gian huấn luyện trên mỗi lần lặp (epoch) của từng
mô hình trong các bộ dữ liệu văn bản có độ dài khác nhau Trong các hình thức kết hợp giữa nhiều kỹ thuật học biểu diễn văn bản, do đó, mô hình đề xuất của chúng tôi đòi hỏi nhiều nỗ lực tính toán hơn để tạo ra các đặc điểm cấu trúc toàn cầu và ngữ nghĩa phong phú hơn từ các văn bản Như được chỉ ra từ các nghiên cứu thực nghiệm trong Hình 3.4, GOWSeqGCN được đề xuất của chúng tôi yêu cầu nỗ lực tính toán cao hơn cho mỗi lần lặp huấn luyện so với hai kỹ thuật dựa trên GNN trước đây, TextGCN và TensorGCN
Cụ thể, trong bộ dữ liệu 20-NG, đối với mỗi giai đoạn huấn luyện, mô hình yêu cầu thêm 57,33% và 20,92% thời gian huấn luyện so với TextGCN và TensorGCN, tương ứng Tương tự như trong bộ dữ liệu Reuters, GOWSeqGCN được đề xuất của chúng tôi cần chi phí huấn luyện thêm 55,03% và 15,18% để đạt được hiệu suất chính xác hợp lý cho nhiệm vụ phân lớp văn bản Nhìn chung, so với đối thủ cạnh tranh chính của chúng tôi, mô hình TensorGCN, mô hình được đề xuất của chúng tôi chỉ yêu cầu thời gian huấn luyện lớn hơn trung bình 18,05% cho mỗi lần lặp để đạt được hiệu suất chính xác cao hơn trong phân lớp văn bản, do đó chi phí tốn thời gian này có thể chấp nhận được
Hình 3.3: Các nghiên cứu về tính mạnh mẽ và ổn định của các kỹ thuật học và phân lớp biểu diễn văn bản dựa trên GNN khác nhau trong các bộ dữ liệu văn bản quy mô
lớn
Trang 37Hình 3.4: Các nghiên cứu thử nghiệm về khả năng mở rộng và chi phí thời gian của các kỹ thuật phân lớp và học biểu diễn văn bản dựa trên GNN khác nhau trong bộ dữ
liệu 2-NG, Reuters-R8/R52
Các nghiên cứu về độ nhạy tham số của mô hình
Trong phương pháp học biểu diễn văn bản sâu, số chiều của vectơ nhúng cũng như số lượng ô nhớ cell trên RNN được coi là nhạy cảm đối với hiệu suất chính xác của mô hình tổng thể Để nghiên cứu kỹ những ảnh hưởng của chiều của vectơ nhúng từ/câu (𝑑)
và số lượng ô dựa trên LSTM (còn gọi là số chiều vectơ của trạng thái ẩn đầu ra) được
sử dụng trong bộ mã hóa Bi-LSTM của chúng tôi Đối với số chiều véc tơ nhúng, chúng tôi đã thay đổi giá trị của tham số này trong phạm vi [10, 400] và báo cáo các thay đổi
về hiệu suất độ chính xác về độ chính xác của mô hình GOWSeqGCN được đề xuất của chúng tôi trong bộ dữ liệu văn bản phức tạp và quy mô lớn (arXiv, DBLP, Ohsumed và Reuters-R52) Kết quả thử nghiệm trong Hình 3.5 cho thấy mô hình GOWSeqGCN được đề xuất của chúng tôi đạt được hiệu suất cao nhất với các giá trị khác nhau của số chiều vectơ nhúng cho các mức độ phức tạp và kích thước khác nhau của tập dữ liệu đã cho, với > 200 cho các tập dữ liệu quy mô lớn và phức tạp, chẳng hạn như: arXiv, Bộ
dữ liệu DBLP và Ohsumed và > 120 cho Reuters-R52 là bộ dữ liệu nhỏ hơn và đơn giản hơn nhiều so với các bộ dữ liệu khác Tương tự như các thử nghiệm với độ nhạy của tham số số chiều của vectơ nhúng từ/câu, chúng tôi đã tiến hành cùng một kịch bản thử nghiệm với số lượng ô dựa trên LSTM đã sử dụng cho bộ mã hóa Bi-LSTM được sử dụng trong mô hình GOWSeqGCN của chúng tôi Chúng tôi đã thay đổi giá trị của tham
số này từ 128 thành 272 và báo cáo các biến động về hiệu suất chính xác của mô hình đối với các tác vụ phân lớp văn bản Hình 3.6 cho thấy ảnh hưởng của số lượng ô dựa
Trang 38trên LSTM được sử dụng đối với hiệu suất chính xác tổng thể của GOWSeqGCN được
đề xuất của chúng tôi Kết quả đầu ra thử nghiệm chứng minh rằng mô hình được đề xuất của chúng tôi khá nhạy cảm với tham số này trong đó mô hình GOWSeqGCN được
đề xuất của chúng tôi đạt được hiệu suất cao nhất khi số lượng ô dựa trên LSTM được
sử dụng xấp xỉ > 230 cho tất cả các bộ dữ liệu
Hình 3.5: Ảnh hưởng của kích thước của vectơ nhúng từ/câu (d) đến hiệu suất phân
lớp văn bản của GOWSeqGCN được đề xuất của chúng tôi
Hình 3.6: Ảnh hưởng của số lượng ô nhớ LSTM được sử dụng đến hiệu suất phân lớp
văn bản của GOWSeqGCN được đề xuất của chúng tôi
Trang 39CHƯƠNG 4: KẾT LUẬN
Chương này tổng kết các kết quả đã đạt được của đề tài, nhằm đánh giá lại về các nội dung đã thực hiện, phương pháp, thực nghiệm, điểm mạnh, tính mới, điểm điểm hạn chế và hướng phát triển
4.1 Các kết quả đạt được, hạn chế và hướng phát triển
Trong nghiên cứu này, chúng tôi đề xuất một cách tiếp cận mới của mô hình học biểu diễn văn bản dựa trên GCN cho nhiệm vụ phân lớp văn bản, được gọi là GOWSeqGCN GOWSeqGCN được đề xuất của chúng tôi là sự tích hợp giữa phương pháp biểu diễn văn bản tuần tự ngữ nghĩa sâu và việc học biểu diễn cấu trúc toàn cục cấp tập văn bản thông qua việc học tensor đồ thị dựa trên GCN Trước hết, chúng tôi xác định chiến lược nhúng văn bản dựa trên MultTextEmb để nắm bắt hiệu quả cả cấu trúc ngữ cảnh cục bộ và mối quan hệ tuần tự của các từ và câu bên trong mỗi tài liệu Sau đó, chiến lược học lan truyền tensor đồ thị dựa trên GCN và cơ chế hợp nhất cá nhân hóa phi tuyến tính được áp dụng để cùng học và hợp nhất các biểu diễn toàn cục của các đồ thị văn bản dựa trên GCTG khác nhau với các nhúng tài liệu dựa trên MultTextEmb đã đạt được trước đó Sau đó, các vectơ nhúng giàu ngữ nghĩa hợp nhất này của tài liệu sẽ được sử dụng để nâng cao hiệu suất phân lớp văn bản Các thử nghiệm
sử dụng nhiều bộ dữ liệu chuẩn khác nhau đã chứng minh tính hiệu quả của mô hình GOWSeqGCN được đề xuất trên cơ sở so sánh với các thuật toán biểu diễn văn bản hiện đại công bố gần đây Tuy nhiên, trong lĩnh vực học biểu diễn đồ thị văn bản cho các nhiệm vụ khác nhau của NLP, chẳng hạn như phân lớp, khối lượng bộ dữ liệu văn bản cũng như kích thước của đồ thị văn bản được xây dựng là một thách thức lớn liên quan đến việc giảm chi phí thời gian của GOWSeqGCN Trên thực tế, hệ thống sẽ cần nhiều không gian tính toán hơn và nhiều chi phí hơn để xử lý các biểu đồ văn bản tỷ lệ lớn với hàng triệu nút và cạnh Để cải thiện kết quả nghiên cứu của đề tài trong tương lai, chúng tôi dự định mở rộng kiến trúc của GOWSeqGCN được đề xuất trên môi trường xử lý phân tán, chẳng hạn như Spark GraphX để xử lý các vấn đề chi phí thời gian tính toán của biểu đồ văn bản quy mô lớn
Trang 404.2 Ý nghĩa học thuật và thực tiễn của đề tài
Về học thuật, đề tài đã đề xuất được mô hình mới Mô hình GOWSeqGCN thể hiện được tính ưu việt khi so sánh với các thuật toán hiện đại gần đây Đề tài đã hoàn thành các công trình nghiên cứu là 01 bài báo tạp chí quốc tế thuộc SCIE-Q2 và 01 bài báo tạp chí trong nước thuộc danh mục được Hội đồng chức danh giáo sư phê duyệt
Về thực tiễn, các mô hình, thuật toán đề xuất có thể ứng dụng trong nhiều lĩnh vực,
có ý nghĩa thực tiễn cao, phục vụ nhu cầu khai phá thông tin của đông đảo người dùng trong thời đại thông tin như hiện nay