Phát hiện các bình luận có tính xây dựng cho bài báo Phát hiện các bình luận có tính xây dựng cho bài báo
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
ĐỖ TRƯỜNG GIANG
TÊN ĐỀ TÀI LUẬN VĂN:
PHÁT HIỆN CÁC BÌNH LUẬN CÓ TÍNH XÂY DỰNG CHO BÀI BÁO
LUẬN VĂN THẠC SĨ KHOA HỌC
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
ĐỖ TRƯỜNG GIANG
TÊN ĐỀ TÀI LUẬN VĂN:
PHÁT HIỆN CÁC BÌNH LUẬN CÓ TÍNH XÂY DỰNG CHO BÀI BÁO
Chuyên ngành: Khoa Học Dữ Liệu
Mã số: 8904468.01QTD
LUẬN VĂN THẠC SĨ KHOA HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Hoàng Tuấn Anh
HÀ NỘI – 2022
Trang 3MỤC LỤC
2.3.2 Biểu diễn từ thành vector sử dụng lớp mô hình BERT 24
1 Mô hình huấn luyện biểu diễn đa ngôn ngữ 27
2.5 BARTpho-Ling - mô hình phát hiện bình luận xây dựng 38
2.6.1 Kỹ thuật học chuyển giao (transfer learning) 39 2.6.2 Kỹ thuật tăng cường dữ liệu (data augmentation) 40
Trang 42.6.3 Kỹ thuật kiểm tra chéo (k-fold cross validation) 41
3.2 Phương pháp Biểu diễn từ thành vector truyền thống 48 3.3 So sánh Mô hình đa ngôn ngữ và mô hình cho tiếng Việt 51 3.4 Cách tiếp cận kết hợp thêm thông tin tiêu đề 53 3.5 Mô hình học sâu cho bài toán phân loại câu 54
Trang 5DANH MỤC HÌNH VẼ
Hình 1: Đánh giá bình luận theo khía cạnh xây dựng và tiêu cực 13
Hình 2: Số lượt bình luận theo chuyên mục 15
Hình 3: Phân bố dữ liệu xây dựng tiếng Việt so với tiếng Anh 16
Hình 4: Phân bố số từ trong câu theo bình luận xây dựng và không xây dựng 17
Hình 5: Phân loại nhị phân cho bài toán bình luận xây dựng 18
Hình 6: Cách tiếp cận mới cho bài toán bình luận xây dựng 19
Hình 7: Các độ đo phổ biến trong học máy 19
Hình 8: Ảnh hưởng của số từ và chuyên mục đến bình luận xây dựng 20
Hình 9: Ảnh hưởng của số từ và số lượng like đến bình luận xây dựng 21
Hình 10: Biểu diễn theo số lượng từ 23
Hình 11: Công thức TF-IDF 23
Hình 12: Biểu diễn từ trong không gian vectơ của GloVe 24
Hình 13: Khác nhau mô hình RNN và Attention 25
Hình 14: Mô hình BERT 26
Hình 15: Tổng hợp Input cho Mô hình BERT25 26
Hình 16: Cách tiếp cận “Cross-lingual language” của mô hình XLM 29
Hình 17: mT5 đạt kết quả tốt nhất trên nhiều tập dữ liệu và “task” khác nhau 30
Hình 18: Kiến trúc mô hình LaBSE 31
Hình 19: Ý tưởng mô hình CNN cho bài toán phân loại câu 34
Hình 20: Mô hình Recurrent Neural Network (RNN) 34
Hình 21: Mô hình Long Short-Term Memory 34
Hình 22: Mô hình Long Short-Term Memory 35
Hình 23: Tổng quan kiến trúc mô hình GRU 36
Hình 24: Hai module chính của mô hình Transformer 36
Hình 25: Kiến trúc mô hình Transformer 37
Hình 26: Tổng quan kiến trúc mô hình BARTpho-Ling 38
Hình 27: Ý tưởng của transfer learning 39
Hình 28: Hai cách tinh chỉnh mô hình 40
Hình 29: Kết quả tăng cường dữ liệu sử dụng “Back-Translation” 41
Hình 30: Kỹ thuật kiểm chứng chéo 42
Hình 31: Huấn luyện trên các phương pháp học máy khác nhau 45
Hình 32: Tham số tối ưu cho mô hình Gradient Boosting 46
Hình 33: Huấn luyện trên các phương pháp học máy khác nhau 47
Hình 34: Giải thích mô hình sử dụng thư viện SHAP 48
Hình 35: Giải thích mô hình với từng dự đoán của mô hình 48
Hình 36: So sánh các mô hình học máy với biểu diễn số lượng từ 49
Hình 37: Mô hình LSTM cho bài toán phân loại bình luận xây dựng 50
Trang 6Hình 39: Tinh chỉnh lớp mô hình BERT khi có thêm tiêu đề 53
Hình 40: So sánh các mô hình học sâu cho bài toán phân loại câu 54
Hình 41: Tinh chỉnh layer cuối của lớp mô hình BERT 55
Hình 42: Kết quả mô hình tốt nhất dự báo trên dữ liệu kiểm tra 57
Hình 43: Biểu đồ ca sử dụng cho hệ thống phân loại bình luận 60
Hình 44: Biểu đồ hoạt động phân loại từ text 61
Hình 45: Biểu đồ hoạt động phân loại từ url 61
Hình 46: Biểu đồ lớp cho ca sử dụng phân loại bình luận 62
Hình 47: Biểu đồ tuần tự phân loại bình luận 63
Hình 48: Sơ đồ triển khai mô hình website bình luận xây dựng 63
Hình 49: Giao diện trang chủ 64
Hình 50: Giao diện ca sử dụng phân loại bình luận từ url 64
Hình 51: Giao diện ca sử dụng phân loại bình luận từ text 65
Trang 7DANH MỤC BẢNG
Bảng 1: So sánh kết quả các mô hình 10
Bảng 2: Định nghĩa bình luận mang tính xây dựng 12
Bảng 3: Đặc trưng thủ công 44
Bảng 4: Huấn luyện trên các phương pháp học máy khác nhau 46
Bảng 5: Tham số tối ưu cho mô hình LSTM 50
Bảng 6: Kết quả biểu diễn từ theo phương pháp truyền thống 51
Bảng 7: Tham số tối ưu cho lớp mô hình BERT 53
Bảng 8: So sánh kết quả các mô hình 56
Bảng 9: Kết quả mô hình cho bài toán bình luận xây dựng tiếng Anh (C3) 56
Bảng 10: Bảng mô tả chức năng 59
Bảng 11: Bảng mô tả yêu cầu phi chức năng 59
Trang 8CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 1.1 Đóng góp của Luận văn
Tính xây dựng luôn đóng vai trò vô cùng quan trọng cho sự phát triển của con người trong việc đưa ra tri thức mới, giải quyết các vấn đề hay cải thiện sản phẩm hoặc cải thiện chất lượng của báo chí, ấn phẩm xuất bản Thay vì đưa ra những bình luận chỉ trích nặng nề, bình luận xây dựng với việc đưa ra các phân tích, gợi ý, đưa
ra các ví dụ hay các lập luận chính xác sẽ giúp vấn đề được cải thiện, các tri thức mới được ra đời và không gian mạng sẽ trở nên bổ ích hơn Với sự mở rộng nhanh của các mạng xã hội, các trang báo mạng, diễn đàn, con người ngày càng dễ dàng để bày
tỏ những quan điểm, đưa ra những ý kiến hay phản biện về một vấn đề Tuy nhiên không phải tất cả các bình luận đều có tính xây dựng, mà nhiều khi lại gây ra những cuộc chiến “comment” hay lan truyền những ngôn ngữ tục tĩu hay những sự căm ghét, thù địch Để tạo là một không gian mạng an toàn và hiệu quả, một trong những bài toán về xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) đó là phân tích tính xây dựng của các bình luận trực tuyến
Hầu hết các về phân loại trong xử lý ngôn ngữ tiếng Việt đều tập trung vào phân loại sắc thái: tích cực hay tiêu cực Những loại dữ liệu này giúp chúng ta có thể
dễ bắt gặp trong các bình luận trên không gian mạng Tuy nhiên, luận văn nghiên cứu này sẽ tiếp cận các bình luận trên không gian mạng dưới một góc nhìn khác: bình luận xây dựng và bình luận không xây dựng Khi đọc một bình luận trên mạng, thường thì ngay lập tức chúng ta có thể phân loại được đó là bình luận tích cực hay tiêu cực mà không cần đắn đo suy nghĩ nhiều Tuy nhiên, với bình luận xây dựng và bình luận không xây dựng, không phải khi nào chúng ta cũng có thể lập tức đánh là
đó là bình luận xây dựng hay không? Mà đôi khi chúng ta cần suy nghĩ, phân tích hoặc tìm hiểu thêm thông tin để đưa ra kết luận Ví dụ như hai bình luận dưới đây:
(a) Cảm ơn suy nghĩ lương thiện của bạn Nhưng ko nên kêu gọi phụ
nữ ngừng nhận hoa mà nên kêu gọi shop hoa bán giá thấp để Phụ nữ nhận được hoa, nhà vườn bán được hoa, còn shop thì lời ít thôi Các anh mua được hoa rẻ thì bỏ tiền đó vào quỹ ủng hộ Miền Trung Như vậy cả về kinh tế và xã hội đều đạt
Trang 9(b) Trước đây mình cũng rất ham chơi, coi thường đồng tiền, và đám bạn cũng thế Cứ vài li vào là ông nào cũng phán: "Tiền bạc quan trọng
gì, bla, bla" sau này mới hiểu ra rằng tiền không những quan trọng mà
là rất rất quan trọng Ai nói mình tham mịnh chịu ạ xD Trong hai bình luận, chúng ta có thể dễ dàng phân biệt, đâu là bình luận xây dựng và đâu không phải bình luận xây dựng hay không? Câu trả lời là không Ví dụ như bình luận (a), bắt đầu bằng một câu bình luận tích cực, sau đó đưa ra quan điểm
cá nhân và giải thích quan điểm cá nhân bằng một dẫn chứng cụ thể Như vậy sau khi đọc kỹ và phân tích, chúng ta thấy bình luận (a) có tính xây dựng Nhưng với bình luận (b), chỉ thấy bình luận đang bàn về chủ đề “tiền bạc có quan trọng hay không” Nếu đặt bình luận (b) trong chủ đề thảo luận “Tôi hối hận vì lo hưởng thụ khi còn trẻ” thì bình luận (b) không có xây dựng Như vậy, ngoài những việc phân tích và hiểu nội dung của bình luận, chúng ta cần phải xem xét bình luận trong hoàn cảnh nào, bình luận về chủ đề gì
Trong lĩnh vực nghiên cứu bình luận xây dựng, một trong những khó khăn lớn nhất đó là thiếu những dữ liệu đã có nhãn để huấn luyện mô hình Trong lĩnh vực xử
lý ngôn ngữ tự nhiên, hiện tại mới chỉ có hai bộ dữ liệu tiếng Anh về bình luận xây dựng đó là : (1) Constructive Comments Corpus (C3),1 bộ dữ liệu được chia sẻ rộng rãi, gồm 12,000 bình luận được thu thập từ các bình luận trên báo “The Globe and Mail” của Canada, do nhóm tác giả Maite Taboada , trường đại học Simon Fraser Canada xây dựng Đây cũng là nhóm tác giả đầu tiên nghiên cứu và đưa ra định nghĩa
đủ đầy về bình luận xây dựng và cũng là những người truyền cảm hứng cho luận văn nghiên cứu bình luận xây dựng cho tiếng Việt; (2) YJ Constructive Comment Ranking Dataset,2 bộ dữ liệu tiếng Nhật về xếp hạng bình luận xây dựng gồm 100,000 bình luận, được thu thập bởi nhóm tác giả Soichiro Fujita, trung tâm nghiên cứu và phát triển Yahoo, Nhật Bản Bộ dữ liệu bình luận tiếng Nhật hiện tại chỉ chia sẻ giữa các trung tâm nghiên cứu hay các trường đại học để phục vụ mục đích nghiên cứu chứ chưa được chia sẻ rộng rãi
Luận văn nghiên cứu đã đóng góp các điểm chính sau: (1) tìm ra một hướng tiếp cận mới cho bài toán phát hiện bình luận xây dựng, (2) xây dựng bộ dữ liệu bình
Trang 10luận xây dựng cho tiếng Việt gồm gần 16,000 câu bình luận, (3) đánh giá hiệu quả các mô hình học máy và mô hình học sâu cho bài toán phân loại bình luận xây dựng, (4) chỉ ra tính khả thi trong việc sử dụng mô hình học máy và học sâu để phát hiện bình luận xây dựng Luận văn giới thiệu mô hình BARTpho-Ling, một mô hình mới kết hợp mô hình biểu diễn tiếng Việt BARTpho và các đặc trưng ngôn ngữ học đạt
độ chính xác 0.903 F1-score trên tập dữ liệu bình luận xây dựng tiếng Việt
Trang 111.2 Định nghĩa bình luận xây dựng
Ý tưởng sơ khai về đánh giá bình luận được giới thiệu vào năm 2016 của nhóm tác giả Deokjin Park, trường đại học Maryland, Hoa Kỳ qua bài báo “Supporting Comment Moderators in Identifying High Quality Online New Comments”3 công bố trong hội nghị CHI’16 Nhóm tác giả định nghĩa “bình luận chất lượng” là những bình luận cung cấp những phản hồi hoặc phê bình có giá trị, nêu ra quan điểm cá nhân hay đưa ra những gợi ý giúp cải thiện chất lượng của bài báo, ấn phẩm, sản phẩm hay dịch vụ
Năm 2017, nhóm tác giả Courtney Napoles từ trung tâm nghiên cứu Yahoo đã đưa ra định nghĩa bình luận mang tính xây dựng trong bài báo “Finding Good Conversations Online: The Yahoo News Annotated Comments Corpus”4 , là những bình luận mang tính chất lôi cuốn, tôn trọng hoặc đưa ra một ý tưởng, ý kiến rõ ràng hay một thông tin hữu ích Cùng năm đó, trong workshop "Natural Language Processing meets Journalism" (EMNLP), nhóm tác giả Varada Kolhatkar trường đại học Simon Fraser, Canada trong bài báo “Using New York Times Picks to Identify Constructive Comments”,5 đã định nghĩa bình luận mang tính xây dựng là bình luận đóng góp vào bài báo hay sản phẩm những chứng cứ liên quan, có thể đưa ra các bằng chứng cụ thể Bài báo của nhóm tác Varada Kolhatkar đưa ra 2 ví dụ (a) về bình luận mang tính chất xây dựng và (b) là bình luận không có tính xây dựng:
(a) Có điều gì đó vốn dĩ phân biệt giới tính khi cho rằng phụ nữ liêm khiết và tự nhiên được chuẩn bị chu đáo để trở thành những nhà lãnh đạo tốt hơn các đồng nghiệp nam của họ nhờ là phụ nữ Thật đáng lo ngại khi thấy những phụ nữ thông minh phân biệt giới tính tiếp tục quan niệm tiêu chuẩn đáng lo ngại rằng bất chấp lịch sử đầy sai sót và thẳng thắn gây rắc rối của Hillary Clinton, điều này ở đây phải được tôn kính bằng mọi giá Phụ nữ bình đẳng theo luật pháp và như vậy phải tuân theo các tiêu chuẩn pháp lý, đạo đức và thực hiện công việc như nhau - bất kể giới tính hay quyền lực của họ
(b) Nếu bạn nghĩ rằng cô ấy thua vì cô ấy là phụ nữ thì bạn thực sự
Trang 12Bình luận (a), người viết đã đưa ra quan điểm về bình đẳng giới và đưa ra các lập luận về bình đẳng giới có liên hệ với luật pháp, trong khi bình luận (b) thì chỉ đưa
ra quan điểm phản đối nhưng không đưa ra được bất cứ phân tích, lập luận hay chứng
cơ nào chứng minh quan điểm đó
Trong bài báo "Constructive Language in News Comments",6 trên First Workshop on Abusive Language Online, nhóm tác giả Varada Kolhatkar trường đại học Simon Fraser University, Canada đã sử dụng survey trên SurveyMonkey để có câu trả lời cho định nghĩa bình luận mang tính chất xây dựng là: “Là những bình luận
dự định tạo một cuộc đối thoại cá nhân thông qua các nhận xét có liên quan vào bài báo và không nhằm mục đích kích động hay chỉ trích Họ thường được nhắm mục tiêu đến các điểm cụ thể và được hỗ trợ bởi các bằng chứng thích hợp.” Đến năm
2018, nhóm tác giả Varada Kolhatkar trường đại học Simon Fraser University, Canada đã đưa ra được định nghĩa đầy đủ về bình luận mang tính xây dựng và bình luận không có tính xây dựng, trong bài báo "A Corpus for the Analysis of Online News Comments",7 đăng trên NAACL Workshop
Bình Luận Tính Xây Dựng Bình Luận Không Xây Dựng
(1) Nhắm vào các điểm cụ thể và
cung cấp bằng chứng thích hợp
(2) Đưa ra giải pháp cho các vấn
đề được thảo luận trong bài viết
(3) Chia sẻ một câu chuyện hoặc
kinh nghiệm cá nhân có liên quan
(4) Khuyến khích các độc giả
khác tham gia thảo luận
(1) Trình bày ý kiến mà không có chứng cứ hỗ trợ
(2) Bác bỏ các điều khoản tranh luận
(3) Khiêu khích hoặc tâng bốc quá mức
(4) Không liên quan hoặc không quan trọng
Bảng 2: Định nghĩa bình luận mang tính xây dựng
Sau khi tham khảo và chắt lọc các nghiên cứu đi trước, luận văn đã đưa ra định
nghĩa đầy đủ cho bình luận xây dựng: bình luận xây dựng là bình luận đưa ra quan
Trang 13điểm với các lập luận, dẫn chứng, ví dụ đi kèm hoặc đưa ra các giải pháp, ý tưởng hay các khuyến nghị cụ thể có thể thực hiện được
1.3 Tính tiêu cực trong bình luận
Phân loại bình luận tích cực và bình luận tiêu cực là một trong những bài toán phổ biến trong xử lý ngôn ngữ tự nhiên Câu hỏi đặt ra rằng, liệu các bình luận tiêu cực có phải là các bình luận không xây dựng, hay bài toán phân loại bình luận xây dựng có trùng với bài toán phân loại bình luận tích cực và bình luận tiêu cực? Trong bài báo “Constructiveness and Toxicity in Online News Comments”,8 nhóm tác giả Vasundhara Gautam thuộc trường đại học Simon Fraser Canada, đã đưa ra câu trả lời đầy đủ cho câu hỏi này bằng một biểu đồ trực quan
Hình 1: Đánh giá bình luận theo khía cạnh xây dựng và tiêu cực
Tính xây dựng và tính tiêu cực là hai khía cạnh đánh giá bình luận Trong khi bài toán phát hiện bình luận tiêu cực giúp lọc đi những bình luận có lời lẽ nặng
nề khó nghe, giúp không gian mạng ngày một trong lành và giúp tăng trải nghiệm của người dùng, thì bài toán phát hiện bình luận xây dựng hay phân loại bình luận xây dựng, giúp tìm ra những ý kiến thuyết phục, giải quyết các vấn đề hoặc tìm ra các tri thức mới
1.4 Xây dựng bộ dữ liệu
Một trong những vấn đề quan trọng nhất của bài toán phân loại bình luận xây
Trang 14như SVM hay Gradient Boosting có thể học được tính tổng quát của dữ liệu từ một lượng dữ liệu nhỏ, nhưng các mô hình học sâu như LSTM hay BERT thường có lượng tham số từ vài triệu đến vài trăm triệu tham số cần huấn luyện, nên rất dễ gặp tình trạng quá khớp hay “overfitting” với bộ dữ liệu nhỏ Hiện nay về bài toán phân loại bình luận xây dựng tiếng Việt chưa có bộ dữ liệu nào công khai cho cộng đồng xử lý ngôn ngữ tự nhiên Vì vậy luận văn đã thu thập dữ liệu và tiến hành gán nhãn cho bộ
dữ liệu bình luận xây dựng tiếng Việt Bộ dữ liệu bình luận xây dựng tiếng Việt được xây dựng nhằm mục đích nghiên cứu cho luận văn tốt nghiệp, cũng như đóng góp như một dữ liệu mở cho cộng đồng xử lý ngôn ngữ tự nhiên của Việt Nam
1.4.1 Thu thập dữ liệu
Dựa vào ý tưởng của bộ dữ liệu xây dựng tiếng anh, do nhóm tác giả Maite Taboada, trường đại học Simon Fraser Canada xây dựng, luận văn tập trung thu thập những dữ liệu bình luận trên báo mạng Hiện nay tại Việt Nam, trang báo mạng có lượt đọc, bình luận nhiều nhất là trang báo vnexpress.net và may mắn thay trang web này cũng cung cấp API miễn phí cho phép người dùng thu thập dữ liệu nội dung và bình luận Bộ dữ liệu được thu thập các bài báo và bình luận trong giai đoạn từ tháng 01/2020 đến tháng 03/2021, gồm 15,595 bình luận trong 15 chuyên mục Nhìn vào hình 20, có thể thấy góc nhìn là chuyên mục có lượt bình luận cao nhất, trong khi góc nhìn, thời sự và sức khỏe là các chuyên mục được đọc giả quan tâm khi có số lượng bình luận trung bình mỗi bài báo là cao nhất
Trang 15Hình 2: Số lượt bình luận theo chuyên mục
1.4.2 Gán nhãn dữ liệu
Bài toán phân loại dữ liệu xây dựng là được xếp vào nhóm học có giám sát hay còn gọi là “supervised learning” Với những dạng bài học có giám sát, thì gán nhãn dữ liệu là một công đoạn vô cùng quan trọng, cũng là công đoạn đầu tư nhiều công sức nhất Trong số 15,595 bình luận thu thập được, dựa vào định nghĩa bình luận xây dựng, nhóm đã tiến hình gán nhãn 15,595 dữ liệu, đạt tỷ lệ 100% trên tổng
số lượng bình luận Để bảo đảm chất lượng của dữ liệu, nhóm gán nhãn dữ liệu gồm
2 người, mỗi người gán nhãn 9,000 bình luận, trong đó có 2,405 bình luận là trùng nhau Kết quả kiểm tra trên 2,405 bình luận cùng gán nhãn, số lỗi hay số bình luận gán nhãn lệch nhau là 199 bình luận, tương ứng với tỷ lệ 8%
Để đo chất lượng gán nhãn dữ liệu, bài nghiên cứu sử dụng hệ số Krippendorff
9 , được giới thiệu năm 2011 bởi Krippendorff, trường đại học Pennsylvania, Hoa Kỳ
Hệ số Krippendorff 𝛼 là hệ số đo độ tin cậy của dữ liệu được gán nhãn, hệ số này sử dụng rộng rãi trong xử lý ngôn ngữ tự nhiên Công thức Krippendorff 𝛼 cho bài toán phân loại nhị phân có dạng: 𝛼 = 1 - (n -1) 𝑂01
𝑛 0 𝑛 1, với O01 là số lượng là 1 nhưng được gán nhãn 0, n0 là số lượng nhãn tin cậy là 0 và n1 là số lượng nhãn tin cậy là 1 Tính theo công thức Krippendorff trên bộ dữ liệu bình luận xây dựng tiếng Việt: 𝛼 = 0.74,
Trang 16so sánh với bộ dữ liệu bình luận xây dựng do nhóm tác giả Maite Taboada, trường đại học Simon Fraser Canada có 𝛼 = 0.71 cho thấy kết quả gán nhãn có thể tin cậy
1.4.3 Phân tích dữ liệu
Trước khi bắt tay vào xây dựng mô hình, thì việc quan trọng cần làm đó là tiền
xử lý dữ liệu Ví dụ một đoạn dữ liệu thô:
<title>Giá sàn vé máy bay</title><meta content="Gần 31 triệu đồng, tương đương 1.090 Euro, là số tiền tôi đã trả cho chuyến bay hồi hương một chiều của VietnamAirlines (VNA) từ Paris về TP HCM tháng 9 năm ngoái - VnExpress" name="description">
<meta content="chuyến bay hồi hương, góc nhìn, VnExpress, tăng giá
vé máy bay, áp giá sàn vé máy bay, độc quyền hàng không, chất lượng dịch vụ hàng không, hàng không gía rẻ, thị trường hàng không Việt Nam, nền kinh tế thị trường" name="keywords"/>
Bởi vậy trong quá trình tiền xử lý dữ liệu cần làm sạch các ký hiệu, thẻ HTML, đường link, dấu câu vv, qua đó giúp mô hình học được những thông tin chính xác, tránh đưa vào thông tin làm nhiễu mô hình Bộ dữ liệu bình luận tiếng Việt gồm 15,595 bình luận có nhãn, được chia theo tỷ lệ huấn luyện: thẩm định: kiểm tra = 7: 1: 2 (hay còn gọi là train: valid: test = 7:1:2)
Hình 3: Phân bố dữ liệu xây dựng tiếng Việt so với tiếng Anh
Trang 17Phân bố dữ liệu của bình luận xây dựng tiếng Việt không cân bằng, với chỉ 28% bình luận xây dựng tiếng Việt và 72% bình luận không xây dựng Trong khi với
bộ dữ liệu tiếng Anh, có đến 54% bình luận mang tính xây dựng và 46% bình luận không mang tính xây dựng Điều cho bước đầu cho thấy bài toán bình luận xây dựng
cho tiếng Việt sẽ mang tính thách thức khi dữ liệu không cân bằng giữa các nhãn
Hình 4: Phân bố số từ trong câu theo bình luận xây dựng và không xây dựng
Phân bố số lượng từ trong câu bình luận cũng có sự khác nhau theo nhãn: bình luận xây dựng và bình luận không xây dựng, khi những câu bình luận xây dựng có xu hướng có số từ nhiều hơn Đa số các câu bình luận thường có số từ nhỏ hơn 150 từ,
điều đó cho gợi ý về số từ nên dùng để biểu diễn thành vector
Trang 18CHƯƠNG 2 PHƯƠNG PHÁP TIẾP CẬN
Phát hiện bình luận xây dựng trong tiếng Anh được xếp vào dạng bài phân loại câu văn nhị phân hay “binary sentence classification” trong lĩnh vực xử lý ngôn ngữ
tự nhiên Cách tiếp cận truyền thống cho bài toán phân loại câu này sử dụng mô hình học máy hoặc học sâu với đầu vào là câu văn cần phân loại, đầu ra là xác suất câu văn đó thuộc nhóm bình luận xây dựng hay bình luận không xây dựng Dữ liệu câu văn là dữ liệu phi cấu trúc hay “unstructured data”, để đưa vào mô hình học máy hay học sâu dữ liệu cần được chuyển về dạng vector hóa sử dụng các kỹ thuật được trình bày dưới đây
Bài toán phát hiện bình luận xây dựng có thể được tiếp cận như dạng bài toán phân loại câu trong xử lý ngôn ngữ tự nhiên Đầu vào của mô hình là chuỗi văn bản, đầu ra của mô hình là xác suất để câu đó là bình luận xây dựng và xác suất để câu đó
là bình luận không xây dựng
Hình 5: Phân loại nhị phân cho bài toán bình luận xây dựng
Cách tiếp cận bài toán như dạng bài toán phân loại câu đã được chứng minh tính hiệu quả trong bài báo “Classifying Constructive Comments”,10 của nhóm tác giả Varada Kolhatkar, trường đại học British Columbia và trường đại học Simon Fraser Canada Trong bài báo “Dataset Creation for Ranking Constructive News Comments”,11 nhóm tác giả Soichiro Fujita đến từ học viện kỹ thuật Kyoto và Yahoo Japan cũng tiếp cận bài toán xếp loại bình luận xây dựng dưới dạng bài toán phân loại câu Trong nghiên cứu này sẽ giới thiệu một cách tiếp cận mới cho bài toán phân loại bình luận xây dựng, đó là cách tiếp cận kết hợp bình luận và tiêu đề của bài báo
Về mặt lý thuyết, khi mô hình được học nhiều thông tin hơn, thì mô hình sẽ đưa ra
dự đoán chính xác hơn Trong chương 3, bằng kết quả thực nghiệm, bài nghiên cứu
đã chứng minh cách tiếp cận sử dụng thêm thông tin tiêu đề bài báo cho kết quả tốt
Trang 19hơn cách tiếp cận chỉ dựa vào thông tin của câu bình luận đối với bộ dữ liệu bình luận xây dựng tiếng Việt
Hình 6: Cách tiếp cận mới cho bài toán bình luận xây dựng
Trước khi lựa chọn được mô hình học máy hay học sâu tốt cho bài toán phân loại bình luận xây dựng, việc cần thiết là định nghĩa độ đo trong việc đánh giá bài toán Tương tự như bài toán phân loại bình luận xây dựng cho tiếng Anh, luận văn sử dụng độ đo là độ đo F1 có trọng số được định nghĩa bởi hình 21 Nếu như “Precision” thể hiện khả năng mô hình dự đúng được bình luận xây dựng thì “Recall” thể hiện khả năng dự đoán đúng bình luận xây dựng so với số dự đoán đúng Còn độ đo F1 là
sự cân bằng giữa “Precision” và “Recall”, nên thường được sử dụng cho các bài toán phân loại nhị phân
Hình 7: Các độ đo phổ biến trong học máy
Trang 202.1 Phương pháp tiếp cận ngôn ngữ học
Thời điểm 2012, trước khi các phương pháp học sâu như CNN12 chứng minh được sự hiệu quả trên các dữ liệu phi cấu trúc như ảnh hay văn bản, thì cách tiếp cận phổ biến nhất của các bài toán xử lý ngôn tự nhiên, đó là đi tìm thật nhiều đặc trưng thủ công tốt cho văn bản hay câu văn Sau đó sử dụng các mô hình học máy như SVM,13 để huấn luyện trên các đặc trưng đã chọn, từ đó đưa ra quyết định Điểm mấu chốt của cách tiếp cận này, đó là tìm được các đặc trưng bằng kinh nghiệm, kiến thức
về lĩnh vực đó hoặc bằng cách thử các đặc trưng khác nhau Bình luận xây dựng đưa
ra quan điểm với các lập luận, dẫn chứng, ví dụ đi kèm hoặc đưa ra các giải pháp, ý tưởng hay các khuyến nghị cụ thể có thể thực hiện được, bởi vậy suy luận một cách
tự nhiên, ta nghĩ bình luận xây dựng thường sẽ là câu bình luận dài, có gồm nhiều từ vựng Khi phân tích bộ dữ liệu bình luận xây dựng tiếng Việt, từ hình 4 có thể bình luận xây dựng thường có số từ nhiều hơn bình luận không xây dựng Như vậy như bài toán phân loại bình luận xây dựng cho tiếng Anh,14 đặc trưng số từ trong bình luận sẽ là đặc trưng tốt cho bài toán phân loại bình luận xây dựng
Hình 8: Ảnh hưởng của số từ và chuyên mục đến bình luận xây dựng
Câu hỏi nghiên cứu khác được đặt rằng liệu bình luận thú vị hay bình luận được nhiều lượt “like”, có phải là bình luận xây dựng hay không? Từ hình 5, ta có
Trang 21nhận xét: thông thường các bình luận xây dựng sẽ được nhiều lượt “like” hơn các bình luận không xây dựng, tuy nhiên vẫn có trường hợp bình luận xây dựng và có số
lượt “like” không cao
Hình 9: Ảnh hưởng của số từ và số lượng like đến bình luận xây dựng
có phương pháp học máy nào là phù hợp cho mọi bài toán hay mọi loại dữ liệu Vì vậy hướng tiếp cận của luận văn là thử huấn luyện mô hình trên nhiều phương pháp học máy khác nhau, từ đó chọn ra mô hình có kết quả tốt nhất Trong bài nghiên cứu của mình, tác giả đã thử nhiều mô hình học máy có tham số bài toán phân loại nhị
Trang 22phân (binary classification) như “support vector machine” (SVM, Chang and Lin 2011), “logistic regression” (Hosmer Jr et al., 2013) hay “perceptron algorithms” (Freund and Schapire, 1999) Hầu hết các phương pháp này được trình bày và chứng minh tính hiệu quả trong bài nghiên cứu “A Survey of Text Classification Algorithms”16, của nhóm tác giả Charu C Aggarwal, đăng trên tạp chí “Mining Text Data” năm 2012 Trong nghiên cứu về phân loại bình luận xây dựng tiếng Anh,17
nhóm tác giả Varada Kolhatkar đã chứng minh phương pháp học máy như SVM kết hợp với các trích xuất đặc trưng thủ công đem lại sự hiệu quả cho bài toán phân loại bình luận xây dựng
2.2.2 Mô hình phi tham số
Ngoài lớp mô hình học máy có tham số, luận văn cũng tiến hành thử nghiệm lớp mô hình học máy phi tham số cho bài toán xác định bình luận mang tính xây dựng như: “decision tree and random forest” (Breiman 1984), “gradient boosting machine” (Friedman, 2001) hay những mô hình phân loại mạnh dựa trên ý tưởng của mô hình
“gradient boosting machine” nổi bật những năm gần đây như: XGBOOST18 - A Scalable Tree Boosting System, LightGMB19 - a highly efficient gradient boosting decision tree hay CatBoost20 - unbiased boosting with categorical features
2.3 Biểu diễn từ thành vector
2.3.1 Biểu diễn từ thành vector truyền thống
Con người có thể đọc và hiểu các từ ngữ hay câu văn, nhưng với máy tính, thứ duy nhất máy tính hiểu được đó là dãy nhị phân 0, 1 Nên trong suốt chiều dài lịch sử hình thành và phát triển của xử lý ngôn ngữ tự nhiên, một trong những nhiệm vụ quan trọng đó là biểu diễn một từ hoặc một câu dưới dạng một vectơ
1 Biểu diễn theo số lượng từ
Biểu diễn theo số lượng từ (bag of words) là một trong những phương pháp lâu đời trong xử lý ngôn ngữ tự nhiên Tuy là một phương pháp khá đơn giản, tuy nhiên trong nhiều bài toán21, biểu diễn theo số lượng từ vẫn cho kết quả khá tốt Ý
Trang 23tưởng của cách vectơ hóa này là dùng số lần xuất hiện của từ để đại diện cho từ đó trong câu
Hình 10: Biểu diễn theo số lượng từ
2 TF-IDF
TF-IDF là tích của của hai khái niệm thống kê TF và IDF, là một trong những phương pháp lâu đời trong xử lý ngôn ngữ tự nhiên Tuy nhiên phương pháp biểu diễn này vẫn hữu hiệu trong một số bài toán Trong đó TF (term frequency) đại diện cho tần số xuất hiện của một từ trong câu hoặc văn bản, còn IDF (Inverse document frequency)22 đại diện nghịch đảo tần số xuất hiện
Hình 11: Công thức TF-IDF
Với ft,d là tần số xuất hiện của từ t trong văn bản d Còn trong công thức IDF thì N là tổng số lượng văn bản, còn mẫu số là số lượng văn bản có từ t xuất hiện TF-IDF là tích của của TF và IDF, thể hiện rằng một từ xuất hiện phổ biến trong các văn bản thì lượng thông tin mang lại là không cao Điều này đã được chứng minh trong lĩnh vực lý thuyết thông tin với khái niệm “Entropy”23
Trang 243 Biểu diễn từ theo vectơ
Biểu diễn từ theo vectơ là cách tiếp cận các bài toán xử lý ngôn ngữ tự nhiên
đã chứng minh sự hiệu quả Ý tưởng này lần đầu tiên được khởi xướng trong bài báo
“Efficient Estimation of Word Representations in Vector Space”24, của nhóm tác giả Tomas Mikolov, trung tâm nghiên cứu Google, Mỹ Ý tưởng của phương pháp này
là biểu diễn từ thành vectơ n chiều (giá trị n thường từ 100-400), các vector đó phải thỏa mãn điều khi biểu diễn trong không gian, các từ gần nghĩa nhau sẽ có khoảng cách gần, các từ trái nghĩa nhau sẽ có khoảng cách xa Vì phương pháp này cần biểu diễn toàn bộ từ trong từ điển, nên các mô hình biểu diễn từ theo vectơ phải huấn luyện trên các bộ dữ liệu lớn, như mô hình GloVe25 huấn luyện trên bộ dữ liệu Wikipedia
và Twitter lên đến 2.2 triệu từ
Hình 12: Biểu diễn từ trong không gian vectơ của GloVe
Trong tiếng Việt, các mô hình đã được huấn luyện để biểu diễn từ theo vectơ chưa có nhiều, nổi bật nhất là mô hình “word2vecVN”26 , của nhóm tác giả Vũ Thành, đại học Newcastle, vương quốc Anh, công bố trong hội nghị “Association for Computational Linguistics” 2018 Trong phần kết quả thực nghiệm, bài nghiên cứu
sẽ trình bày kết quả huấn luyện mô hình sử dụng mô hình đã được huấn luyện để biểu diễn từ theo vectơ cho tiếng Việt
2.3.2 Biểu diễn từ thành vector sử dụng lớp mô hình BERT
Bidirectional Encoder Representations from Transformers hay BERT là mô hình bắt nguồn từ ý tưởng “Attention” trong bài báo “Attention is all you need” của nhóm Ashish Vaswan trung tâm nghiên cứu Google giới thiệu tháng 12 năm 2017 Ý
Trang 25tưởng RNN hay LSTM có hạn chế là khi câu có nhiều từ, thì thông tin ở từ đầu tiên
sẽ không được tổng hợp ở các từ cuối cùng do hiện tượng “vanishing gradient” Ngoài
ra thì quá trình huấn luyện RNN hay LSTM phải huấn luyện tuần tự, kết quả của bước trước là “input” cho bước sau, dẫn đến quá trình huấn luyện tốn nhiều thời gian và khó tái sử dụng cho các bài toán khác “Attention” đã giải quyết trọn vẹn vấn đề này Thay vì chỉ xét đến từ phía trước như RNN hay hai từ nằm cạnh như LSTM, cơ chế
“Attention” xét tất cả các từ của “Input” và “Output” để đưa ra các trọng số từ nào nên tập trung hay ảnh hưởng đến “Output” nhiều nhất
Hình 13: Khác nhau mô hình RNN và Attention
Ngoài ra để lưu trữ vị trí của từng từ như RNN hay LSTM, cơ chế Attention
sử dụng hàm sin và cos để “Positional Encoding” cả “Input” và “Output” giúp các từ trong câu vẫn được tổng hợp theo cơ chế “Attention” mà vẫn dữ được vị trí của từ trong câu
Trang 26Hình 14: Mô hình BERT 27
BERT sử dụng “Bidirectional Transformer”, nghĩa là kết nối các transformer (sử dụng cơ chế attention) theo 2 hướng trái qua phải và phải qua trái cho phép học được xác suất xuất hiện của một từ từ các từ trước và sau nó Trong các mô hình biểu diễn từ thành vector hiện tại trong xử lý ngôn ngữ tự nhiên, chỉ có BERT là có thể
phản ảnh ngữ nghĩa của từ trên cả ngữ cảnh bên trái và bên phải trong tất cả các lớp
Hình 15: Tổng hợp Input cho Mô hình BERT 25
Biểu diễn đầu vào BERT Các embedding đầu vào là tổng các token embedding, các lần segment embedding và position embedding Điểm lớn nhất khiến BERT tạo nên một cuộc cách mạng trong ngành xử lý ngôn ngữ tự nhiên, đó không phải là khả năng chống “vanishing gradient”, mà đó việc mô hình BERT huấn luyện trên tập dữ liệu lớn có thể được sử dụng để giải quyết các bài toán cụ thể nhỏ hơn qua việc sử dụng kỹ thuật học chuyển giao hay tinh chỉnh mô đồ, bài nghiên cứu sẽ đề cập ở phần tiếp theo trong luận văn Mô hình BERT hiện nay có nhiều cải tiến khác
Trang 27nhau từ mô hình ban đầu, tuy nhiên chủ yếu là mô hình được huấn luyện trên tập dữ liệu tiếng Anh hoặc tập dữ liệu đa ngôn ngữ Mô hình BERT cho tiếng Việt phổ biến nhất hiện nay là PhoBERT28, được công bố bởi Nguyễn Quốc Đạt, VinAI trong hội nghị “Association for Computational Linguistics” năm 2020 PhoBERT sử dụng kiến trúc mô hình RoBERTa29 , một cải tiến tốc độ tối ưu cho mô hình BERT PhoBERT được huấn luyện trên 20GB câu tiếng Việt được thu thập từ báo chí và Wikipedia Luận văn cũng so sánh với các mô hình BERT được huấn luyện trên các dữ liệu đa ngôn ngữ so với lớp mô hình được huấn luyện để biểu diễn cho tiếng Việt, kết quả sẽ được trình bày trong phần thực nghiệm
1 Mô hình huấn luyện biểu diễn đa ngôn ngữ
Lớp mô hình huấn luyện sẵn để biểu diễn từ thường được chia thành 2 dạng chính: (1) mô hình huấn luyện cho một ngôn ngữ cụ thể, (2) mô hình huấn luyện đa ngôn ngữ Trong đó lớp mô hình huấn luyện một ngôn ngữ là mô hình huấn luyện trên dữ liệu của một ngôn ngữ, ví dụ như tiếng Anh hay tiếng Pháp…nhằm mục đích biểu diễn từ thuộc ngôn ngữ đã lựa chọn Trong khi lớp mô hình huấn luyện đa ngôn ngữ dựa trên giả thiết các từ trong các ngôn ngữ có sự tương đồng khi biểu diễn hoặc
mô hình học sâu có thể học được cách biểu diễn đồng thời nhiều ngôn ngữ task learning)
(multi-Để chọn biểu diễn tốt cho bình luận tiếng Việt, bài nghiên cứu đã lựa chọn các
mô hình huấn luyện nổi tiếng biểu diễn đa ngôn ngữ như:
(1) Lớp mô hình Bert đa ngôn ngữ
(a) bert-base-multilingual-cased ; (b) Geotrend/bert-base-15lang-cased;
Trang 28(a) google/mt5-small ; (4) Mô hình Distilbert đa ngôn ngữ
(1) Lớp mô hình Bert đa ngôn ngữ
Bert-base-multilingual-cased30 là pretrained model được huấn luyện trên 104 ngôn ngữ trong đó có các ngôn ngữ phổ biến như: tiếng Anh, tiếng Pháp, tiếng Nga, tiếng Việt Bert-base-multilingual-cased được huấn luyện trên dữ mở Wikipedia với chiến lược Masked Language Modeling (MLM), chiến lược này nhận đầu vào là một câu văn và ngẫu nhiên che đi 15% số từ trong câu văn đó, sau đó huấn luyện mô hình
để dự đoán các từ bị che đi (masked word) Bert-base-multilingual-cased đạt độ chính xác31 81.9% trên bộ dữ XNLI tiếng Anh và 76.6% trên bộ dữ liệu tiếng Trung
Geotrend/bert-base-15lang-cased là pretrained model con của mô hình base-multilingual-cased được huấn luyện trên tập dữ liệu Wikipedia của 15 ngôn ngữ lớn nhất như tiếng Anh, tiếng Pháp, tiếng Trung hay tiếng Việt Mô hình này được huấn luyện bởi công ty start-up Geotrend của Pháp, với bộ tham số 141 triệu, nhỏ hơn
Bert-178 triệu tham số của mô hình BERT, thời gian chạy dự đoán của mô hình chỉ là 3.1 giây / lần Ngoài mô hình pretrained cho 15 ngôn ngữ lớn nhất, công ty Geotrend cũng chia sẻ miễn phí hô mình pretrained trên tập dữ liệu dành cho tiếng tiếng Việt: Geotrend/bert-base-vi-cased
(2) Lớp mô hình XLM đa ngôn ngữ
Nếu như lớp mô hình BERT là lớp mô hình “Monolingual language model pretraining” nghĩa là huấn luyện dựa trên câu văn đơn ngôn ngữ, thì lớp mô hình XLM sử dụng chiến lược “Cross-lingual language model pretraining” nghĩa là huấn luyện dựa trên câu văn đa ngôn ngữ bằng cách kết hợp với mô hình dịch ngôn ngữ
Trang 29(Translation Language Modeling) Ví dụ như trong hình 16, mô hình XLM kết hợp câu văn tiếng anh và câu văn được dịch sang tiếng Pháp để giúp mô hình thống nhất được các biểu diễn trong tiếng Anh và tiếng Pháp
Hình 16: Cách tiếp cận “Cross-lingual language” của mô hình XLM
Mô hình jplu/tf-xlm-roberta-base là mô hình kết hợp giữ cách tiếp cận lingual language” và mô hình Roberta32 Roberta là một cải tiến của mô hình BERT giúp mô hình hội tụ nhanh hơn và tăng khả năng mở rộng của mô hình Mô hình tf-xlm-roberta-base được huấn luyện bởi Dr Julien Plu, đại học EURECOM, Pháp, trên 2.5TB dữ liệu từ hơn 100 ngôn ngữ (trong đó có tiếng Việt) thu thập từ Wikipedia và các trang báo mạng Mô hình jplu/tf-xlm-r-ner-40-lang là mô hình được tác giả Dr Julien Plu “fine-tuning” mô hình XLM-RoBERTa trên tập dữ liệu XTREME 33của Google Research với các ngôn ngữ phổ biến trong đó có tiếng Việt
“Cross-(3) Mô hình MT5 đa ngôn ngữ
MT534 là pretrained model được giới thiệu bởi nhóm nghiên cứu Google giới thiệu tháng 3 năm 2021 MT5 được huấn luyện trên bộ dữ liệu đa ngôn ngữ C435 , một tập dữ liệu được làm sạch từ bộ dữ liệu Common Crawl trên trang web https://commoncrawl.org MT5 đạt kết quả tốt hơn so với lớp mô hình BERT hay
Trang 30XLM trên nhiều dữ liệu và bài toán khác nhau như bộ dữ liệu XNLI, mT5 đạt 85%
độ chính xác so với 69.1% của mô hình XLM hay 65.4% của mô hình mBERT
Hình 17: mT5 đạt kết quả tốt nhất trên nhiều tập dữ liệu và “task” khác nhau
(4) Mô hình Distilbert đa ngôn ngữ
DistilBERT là mô hình thu gọn của lớp mô hình BERT khi sử dụng ít hơn 40% tham số so với mô hình BERT và đạt tốc độ nhanh hơn 60% trong khi độ chính xác đạt khoảng 97% so với mô hình BERT Mô hình DistilBERT có 6 lớp “module Attention” với 134 triệu tham số, huấn luyện trên bộ dữ liệu Wikipedia với 104 ngôn ngữ khác nhau, trong đó có tiếng Việt
(5) Mô hình LaBSE đa ngôn ngữ
LaBSE hay “Language-agnostic BERT Sentence Embedding” là mô hình lớp
mô hình BERT tiếp cận theo hướng biểu diễn câu thay vì biểu diễn từ như các mô hình BERT truyền thống sử dụng cách tiếp cận biểu diễn từ Kiến trúc LaBSE hình
18 sử dụng “Pretrained BERT” làm trọng số ban đầu, sau đó huấn luyện mô hình dựa theo kiến trúc “Sentence Similarity”, nghĩa là câu nào tương tự nhau sẽ có biểu diễn gần nhau trong không gian và câu nào trái nghĩa nhau sẽ có biểu diễn xa nhau trong không gian
Trang 31Hình 18: Kiến trúc mô hình LaBSE
(6) Mô hình Roberta đa ngôn ngữ
Mô hình RoBERTa là mô hình cải tiến của mô hình BERT giúp tăng độ hội
tụ trong quá trình huấn luyện mô hình Mô hình typeform/roberta-large-mnli được nhóm tác giả công ty Typeform huấn luyện cho bộ dữ liệu đa ngôn ngữ MNLI36 với hơn 433 nghìn cặp câu văn Mô hình typeform/roberta-large-mnli được giới thiệu vào tháng 11 năm 2020 và hỗ trợ đa ngôn ngữ
(7) Mô hình MBART đa ngôn ngữ
MBART hay “Multilingual Denoising Pre-training for Neural Machine Translation” là mô hình “sequence-to-sequence” bằng việc loại bỏ nhiễu trong toàn
bộ câu văn từ nhiều ngôn ngữ khác nhau Mô hình facebook/mbart-large-cc25 được huấn luyện trên 25 ngôn ngữ, trong đó có tiếng Việt Mô hình này được nhóm tác giả
từ trung tâm nghiên cứu Facebook giới thiệu vào tháng 8 năm 2020
2 Mô hình huấn luyện biểu diễn tiếng Việt
Mặc dù số lượng mô hình biểu diễn đa ngôn ngữ rất nhiều về cả số lượng và chất lượng, tuy nhiên số lượng mô hình biểu diễn tiếng Việt lại rất hạn chế Hiện tại
Trang 32ở Việt Nam, chỉ có trung tâm nghiên cứu VINAI, thuộc tập đoàn VINGROUP, công
bố những mô hình biểu diễn mạnh cho tiếng Việt với các mô hình sau:
(1) Lớp mô hình BARTPHO:
(a) vinai/bartpho-word ; (b) vinai/bartpho-word-base;
từ, vinai/bartpho-word-base - sử dụng kiến trúc BART-base huấn luyện để biểu diễn
từ và vinai/bartpho-syllable-base – sử dụng kiến trức BART-base huấn luyện để biễu diễn ký tự
(2) Lớp mô hình BERT cho tiếng Việt
Mô hình PHOBERT là mô hình đầu tiên và nổi tiếng nhất, được nhóm tác giả Nguyễn Quốc Đạt, trung tâm nghiên cứu VINAI, huấn luyện trên dữ liệu Wikipedia
và báo mạng tiếng Việt ứng dụng kiến trúc RoBERTa, sử dụng trong biểu diễn tiếng Việt Lớp mô hình PHOBERT gồm 2 pretrained model: vinai/phobert-base – được huấn luyện sử dụng kiến trúc RoBERTa-base với đầu ra của biểu diễn từ là vector
768 chiều và vinai/phobert-large – được huấn luyện sử dụng kiến trúc base với đầu ra của biểu diễn từ là vector 1024 chiều
RoBERTa-Mô hình “vibert-base-cased”39 được nhóm tác giả Bùi Thế Việt, trung tâm nghiên cứu FPT AI giới thiệu tháng 9 năm 2020 Bộ dữ liệu sử dụng kiến trúc mô hình BERT kết hợp với mô hình ELECTRA huấn luyện trên hơn 60GB dữ liệu tiếng Việt
Trang 332.4 Mô hình học sâu
Bắt đầu từ sự thành công của mô hình ResNet trong lĩnh vực thị dạng máy tính, lớp các mô hình học sâu (deep learning) đang cho thấy sự thành công mạnh mẽ trong các lĩnh vực khác như xử lý ngôn ngữ tự nhiên, bài toán chuỗi thời gian hay các
dữ liệu dạng bảng Đặc điểm chính của các bài toán xử lý ngôn ngữ tự nhiên là dữ liệu ở dạng chuỗi (sequence), nên các mô hình học sâu phổ biến trong xử lý ngôn ngữ
tự nhiên thường là LSTM, GRU hay gần đây với sự vượt trội của lớp mô hình Transformer Dù lớp mô hình CNN thường được đánh giá chỉ phù hợp cho dữ liệu dạng ảnh, tuy nhiên với nhiều bài toán lớp trong xử lý ngôn ngữ tự nhiên, mô hình CNN vẫn cho thấy sự hiệu quả
2.4.1 Convolutional Neural Network (CNN)
CNN – Convolutional Neural Network là lớp mô hình mở ra kỷ nguyên của
mô hình học sâu (deep learning) với sự thành công của mô hình ResNet trong xử lý ảnh, khi lần đầu tiên mô hình học sâu có thể vượt qua con người trong khả năng nhận diện hình ảnh Năm 2014, nghiên cứu sinh Yoon Kim, đại học New York, Mỹ lần đầu tiên dưới thiệu hướng sử dụng CNN cho bài toán phân loại câu với nghiên cứu
“Convolutional Neural Networks for Sentence Classification” Ý tưởng của mô hình
là đưa “word vector” qua các lớp Convolution để trích xuất đặc trưng, sau đó đưa qua lớp Maxpooling và Fully connected layer để tổng hợp thành dự đoán phân loại câu
Ưu điểm của mô hình CNN là thời gian huấn luyện và dự đoán của mô hình rất nhanh,
dễ dàng tìm được đặc trưng giữa các từ gần nhau Tuy nhiên, nhược điểm của hướng tiếp cận này là không bảo toàn được tính thứ tự của các từ trong câu, một trong những yếu tố tiên quyết ảnh hướng đến ngữ nghĩa của câu văn
Trang 34Hình 19: Ý tưởng mô hình CNN cho bài toán phân loại câu
2.4.2 Long Short-term Memory (LSTM)
Câu văn hay văn bản được hợp thành bởi chuỗi các từ, trong đó tính tuần tự quyết định ý nghĩa của câu văn hay văn bản Ví dụ trong tiếng Việt câu “bạn không biết” và câu “bạn biết không” là hai câu có ý nghĩa khác nhau Bởi vậy việc học tính tuần tự trong câu văn hay văn bản đóng vai trò quan trọng trong việc huấn luyện mô hình hiểu được ngôn ngữ Và mô hình Long Short-Term Memory đã được chứng tỏ rất thành công khi ứng dụng cho bài toán phân loại bình luận xây dựng 22
Hình 20: Mô hình Recurrent Neural Network (RNN)
40
Hình 21: Mô hình Long Short-Term Memory
RNN (hình 5) là mô hình chuỗi (sequential), thông tin của bước trước tước tổng hợp thành input của bước sau Mô hình RNN có dạng tổng quát St = f(U * X1 +
W * St-1 ) LSTM là mô hình cải tiến từ RNN với 3 cổng “Update”, “Forget” và
“Output” giúp quá trình tổng hợp thông tin từ bước trước sang bước sau không bị thất thoát thông tin do quá trình mất mát đạo hàm hay còn gọi là “vanishing gradient”
Đầu vào của mô hình LSTM cùng cần là một chuỗi vectơ Các câu ở dạng text được tách thành các từ, sau đó đưa qua mô hình biến đổi từ thành vectơ đã huấn luyện