Lời cam đoanTôi cam đoan các kết quả thử nghiệm cho bài toán rút trích quan hệ, bài toán phân giải đồng tham chiếu trong văn bản tiếng Việt và hệ thống minh họa cho bài toán rút trích qu
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Mã số: 8480201
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS NGUYÊN LƯU THÙY NGÂN
Trang 2Lời cam đoan
Tôi cam đoan các kết quả thử nghiệm cho bài toán rút trích quan hệ, bài toán phân giải đồng tham chiếu trong văn bản tiếng Việt và hệ thống minh họa cho bài toán rút trích
quan hệ trong văn bản tiếng Việt được trình bày trong luận văn này được chính tôi thực hiện với sự hướng dẫn của Tiến sĩ Nguyễn Lưu Thùy Ngân.
Những tài liệu tham khảo từ các công trình liên quan đều được trích dẫn nguồn gốc rõ ràng trong phan tài liệu tham khảo Tắt cả các kết quả thử nghiệm của luận văn đều được thử nghiệm thực tế.
Học viên
Phạm Minh Mẫn
Trang 3Lời cảm ơn
Tôi xin chân thành cám ơn Trường đại học công nghệ thông tin đã tạo điều kiện cho tôi
thực hiện đề tài này và Quý thầy cô đã truyền đạt, giảng dạy cho tôi những kiến thức vô
cùng quý báu trong thời gian vừa qua Đặc biệt tôi xin cảm ơn TS Nguyễn Lưu Thùy Ngân đã tận tình hướng dẫn tôi trong quá trình nghiên cứu và hoàn thành luận văn này.
Bên cạnh đó, tôi xin gửi lời biết ơn sâu sắc đến ba mẹ và những bạn bè đã giúp đỡ, động viên tôi trong suốt quá trình học tập và nghiên cứu vừa qua.
Mặc dù tôi đã rất cố gắng hoàn thành luận văn trong trong khả năng của mình nhưng
cũng khó tránh khỏi những thiếu sót, kính mong nhận được sự thông cảm và góp ý của Quý thầy cô và mọi người.
Thanh phó Hồ Chí Minh, tháng 06 năm 2023
Học viên thực hiện
Phạm Minh Mẫn
Trang 4Chương 1 TONG QUAN - 5-2221 2 221 21122121122121121121111121111111121 1x re 5
1.1 Giới thiệu bài toán ¿- + + + 5++E+E+*£+2EE 2x22 9 221217113 E211 1.1 Tre LÕ
1.2 Mục tiêu và phạm vi nghiên cứu
13.Y nghia thuc tiễn - khoa HOC seeeceesccssessesssssecsessessessesssssscsuessessesssessssssesssesssesessesseesees 8 1.3.1 Ý nghĩa thực tiễn 2222222++2222222212212222222111112 222221111111 1.1 xee §
1.3.2 Ý nghĩa khoa hỌc ¿ 222+2¿22EE++222211122222111122711112771112271112 221112 re 8
Chương 2 CÁC CONG TRÌNH LIÊN QUAN - -:222+2222vzzsccvvvcerrrveree 9 2.1 Các nghiên cứu trên thế giới - ::-22++22©+2++22EE+++ttEES++tttEEEvretrrxrrrerrrrrree 9
2.1.1 Phương pháp dựa trên đặc trưng ¿5:5 S+2c+ Street 9
2.1.2 Phương pháp dựa trên CNN
2.1.3 Phương pháp dựa trên RNN hoặc LSTM -. ¿+55 5+ Se+t+xrrersrerrrrer 9
2.1.4 Phương pháp dựa trên BEERTT, - - - ¿St SEk*k E121 1y 10
2.2 Các nghiên cứu trong TƯỚC -¿- + 5252 229*‡E#EtSE2E2EEEEEEEEEkeEEkrrkrkrrerree 10
2.2.1 Phương pháp lan truyền nhãn 2¿©©++++22EEE+tEEEEEEtrEEEEErrrrrrkrerrrrkk 10 2.2.2 Phương pháp dựa trên mệnh đề 2¿-©+++22EE++++EEEEEtrEEEESztrrrrkrrrrrrks 10
Trang 52.3.1 Mô hình 'TrannSfOTIN€T- ¿+ SE k1 E1 11T TH ng nưến II
2.3.1.1 Giới thiệu về Transformer c.scsccssssssesssessssesssssessssessssesssseessseessseessssecssseesssecsseeess 11
2.3.1.2 Kiến trúc mô hình Transformer -+£+22E+2vv+++r+ttvzvxvzrrrezrre 12
2.3.2 Mô hình BIERTT - - ¿1 2222.2322 9222121 7171.T21212 00 11212101 111110 re 16
2.3.2.1 Giới thiệu về mô hình BERIT .2¿ 222++2222++222S2++ttEvvvrrrsrrvrrrrrres 16 2.3.2.2 Kiến trúc của BERT co c c2 E iiiiiiriie 17 2.3.2.3 Cách huấn luyện mô hình BERT -++£222©vvvvvrre+tttrrrverrrrrrte 17
2.3.8 Phân giải đồng tham chiều -2-©222+2222+++222ES++ttEEEEEvetEEEvrrrrrrkrrrrrrek 26
2.3.8.1 Giới thiệu CR trong rút trích quan hệ
2.3.8.2 Phương pháp CR trong văn bản tiếng Việt đề xuất -cccc -e, 29
Chương 3 XÂY DỰNG BỘ DU LIỆU 22-222¿222222+SEEESE+2EEEESEtrerrrrerrrrex 32
3.1 Bộ dữ liệu rút trích quan hệ UIT-ViRLE - ¿+2 +52 + ++t+++£vxsrererkersrerxre 32
3.2 Bộ dữ liệu phân giải đồng tham chiếu UIT-ViCR ¿ ccccczz+e 37 Chương 4 PHƯƠNG PHAP, KET QUA THU NGHIỆM VA UNG DUNG MINH
HỌA 5 tt HH HH HH HH HH0 HH 39
4.1 Phương pháp đánh giá - 5c St re 39
4.2 Kết quả thử nghiệm -2222+++222222Y22 2222211111112 cm 42
Trang 64.3 Xây dựng hệ thống minh họa 2¿©2+++22EE++++E2EE++tt2EEEEvettrrvrrrrrrrree 44
Trang 7Danh mục các kí hiệu và chữ viết tắt
BERT: Bidirectional Encoder Representations from Transformers
CNN: Convolutional Neural Network
CR: Coreference Resolution
LSTM: Long Short Term Memory
MLE: Maximum Likelihood Estimation
MLM: Masked Language Model
NE: Named Entity
NER: Named Entity Recognition
NLP: Natural Language Processing
NSP: Next Sentence Prediction
RE: Relation Extraction
VLSP: Vietnamese Language and Speech Processing
Trang 8Danh mục các bảng
Bảng 2.1 Các chỉ số về kiến trúc của BERT-base và BERT-large -. 17 Bảng 2.2 So sánh hiệu suất của BERT và XLNet trên cùng một dữ liệu huấn luyện và
bon 23
Bảng 2.3 Minh họa gán nhãn IOB cho các token
Bảng 2.4 Các kết quả đánh giá F1 cho các mô hình NER nổi bật - 26
Bảng 3.1 Cấu trúc của bộ dit liệu UIT-ViCR 5c5cccvcvcceerrerrrrrrrrirrrrrrrrrrree 37
Bang 4.1 Kết quả đánh giá các mô hình rút trích quan hệ -: ++ 4 Bảng 4.2 Kết quả đánh giá của mô hình CR được đề xuất -:-c-+ 43
Trang 9Danh mục các hình vẽ
Hình 2.1 Kiến trúc mô hình Transformer - -:-+¿++z+22v++++2tvvvrezrrseee 12 Hình 2.2 Biểu diễn 3 vector Query, Key, Value và 3 ma trận trọng số Wg, Wk, Wv 13
Hình 2.3 Các từ trong dữ liệu đầu vào tương ứng với vector Key, Query và Value 13
Hình 2.4 Quá trình tính toán kết quả của Self-Attention .-:2ccsccc+cc++ 14
Hình 2.5 Minh họa xử lý của Multi-head Attention 6 -ccscrerrkerererree 15
Hình 2.6 Sơ đồ kiến trúc BERT cho nhiệm vụ MLM -cccccccccccccccvcee 18
Hình 2.7 Minh họa xử lý MLM - 6 kg ngư 19 Hình 2.8 Minh họa xử lý NSP - Sàn HH HH r 19
Hình 2.9 Đại diện đầu vào của BERT cccckrkkkiiiiiiirrirrrrrrrrrrrriirriie 20
Hình 2.10 Kiến trúc pre-training trong BERT -cz2222v+vscccczzez 20
Hình 2.11 Minh họa việc huấn luyện mô hình SpanBERTT :- + 2
Hình 2.12 Quá trình xử lý CTR -¿- ¿E21 E k1 1 1 1 1 H1 HH ngư 27
Hình 2.13 Ví dụ minh họa kết quả của RE trước khi áp dụng CR - 28
Hình 2.14 Ví dụ minh họa kết quả của RE sau khi áp dụng CR : 28 Hình 2.15 Kết quả căn chỉnh từ của các token ở cấp độ âm tiết - 30 Hình 2.16 Kết quả căn chỉnh từ của các token ở cấp độ từ - c:-cssc+ 30
31
Hình 3.1 Cấu trúc dữ liệu dạng JSON thể hiện quan hệ của một cặp NE 33
Hình 3.2 Minh họa dữ liệu định dạng WebAnno TSV 3.2 cho RE (phan dau) 35
Hình 3.3 Minh họa dữ liệu định dang WebAnno TSV 3.2 cho RE (có chứa các quan
Hình 2.17 Sơ đồ mô tả các bước xử lý CR cho văn bản tiếng Việt
Hình 4.1 Các phân vùng của K và R - 22+ St 2t t2 2e 40
Hình 4.2 Các bước xây dựng ứng dụng sử dụng mô hình rút trích quan hệ 45
Hình 4.3 Kết quả thu thập dữ liệu từ web -c¿£222222vv+rttttvvvvvrrrrrrrrrrxes 46 Hình 4.4 Kết quả lây dữ liệu từ file sẵn có -22¿++222+++zeEvxverrerrrrerrrres 47
Trang 10MỞ ĐẦU
Rút trích quan hệ là một trong những bài toán quan trọng trong xử lý ngôn ngữ tự nhiên
(NLP) Nó là bài toán con của bài toán trích xuất thông tin, được ứng dụng rộng rãi trong
nhiều bài toán như sơ đồ tri thức, hỏi đáp tự động, tóm tắt văn ban, Với sự phát triển
không ngừng của dữ liệu, đặc biệt là dữ liệu dạng văn bản, bài toán này càng nhận được
sự quan tâm hơn đối với các nhà nghiên cứu cả trong và ngoài nước Tuy nhiên, số lượng các nghiên cứu về bài toán rút trích quan hệ trong văn bản tiếng Việt vẫn còn hạn chế so
với các ngôn ngữ khác như tiếng Anh, tiếng Trung, Do đó, luận văn nghiên cứu sâu
hơn về đề tài này.
Cấu trúc luận văn gồm 5 chương:
Chương 1: Tổng quan - Giới thiệu bài toán rút trích quan hệ trong văn bản tiếng Việt va
các bài toán có liên quan; trình bày các mục tiêu, phạm vi nghiên cứu, ý nghĩa khoa học
và ý nghĩa thực tiễn của đề tài.
Chương 2: Các công trình liên quan - Trình bày một số công trình nghiên cứu trong và
ngoài nước và chỉ tiết các cơ sở lý thuyết.
Chương 3: Xây dựng bộ dữ liệu - Mô tả và trình bày quá trình xây dựng bộ dữ liệu rút
trích quan hệ UIT-ViRE và bộ dữ liệu phân giải đồng tham chiếu UIT-ViCR.
Chương 4: Phương pháp, kết quả thử nghiệm và ứng dụng minh họa - Trinh bày phương pháp và kết quả thử nghiệm cho bài toán rút trích quan hệ, bài toán phân giải đồng tham
chiếu và ứng dụng minh họa cho bài toán rút trích quan hệ.
Chương 5: Kết luận và hướng phát triển - Tông hợp các kết quả đã đạt được và đề xuất
các hướng phát triển tiếp theo.
Trang 11Chương 1 TONG QUAN
Tom tắt chương:
Chương này trình bày tổng quan về bài toán rút trích quan hệ giữa các thực thể trong
văn bản tiếng Việt và các bài toán có liên quan Chương này cũng đề cập phạm vi, mục tiêu nghiên cứu, ý nghĩa thực tiễn và ý nghĩa khoa hoc cua đề tài.
1.1 Giới thiệu bài toán
Rút trích quan hệ là nhiệm vụ tìm và phân lớp các quan hệ ngữ nghĩa giữa các thực thể văn bản như quan hệ con cái, công việc, bộ phận - toàn thẻ, và quan hệ không gian địa
Xét ví dụ sau: “Năm 2010, Trần Ngọc Anh đã thành lập Công ty Ngôi Sao Trẻ.” Khi đó, kết quả sau rút trích sẽ là:
- FounderOf (Trần Ngọc Anh, Công ty Ngôi Sao Trẻ): đây là quan hệ giữa người sáng
lập và tổ chức.
- FoundedIn (Công ty Ngôi Sao Trẻ, 2010): đây là quan hệ giữa tổ chức và thời gian
thành lập.
Trước khi rút trích quan hệ giữa các thực thể, ta cần xử lý một số bài toán khác có liên
quan như tách từ, nhận dạng thực thé (NER), xử ly đồng tham chiếu (CR) Trong đó:
- Tách từ: nhiệm vụ chính là tách một văn bản thành những token (từ hoặc âm tiếu) riêng
lẻ Ranh giới giữa các từ ở trong tiếng Việt thông thường không phải là khoảng trắng do
cấu trúc của chúng có thé được thé hiện bằng một hoặc nhiều âm tiết (từ đơn hoặc từ ghép, từ láy) Tách từ có ý nghĩa trong bài toán nhận dạng thực thể, từ đó làm cơ sở để xác định các quan hệ giữa các thực thê đó.
- Nhận dạng thực thể: là bài toán tìm các từ hoặc cụm từ trong một văn bản được xem là thực thé (NE) và phân loại chúng vào những nhóm được xác định trước như thời gian,
Trang 12- Phân giải đồng tham chiếu (Coreference resolution): là bài toán xác định hai hoặc
nhiều cụm từ cùng nói đến một thực thé trong một văn bản Đồng tham chiếu có ảnh hưởng đáng kể đến bài toán rút trích quan hệ Nó không những có thẻ giúp rút trích được nhiều quan hệ hơn mà còn giúp liên kết các quan hệ của các thực thể có cùng tham chiều, làm giảm vấn đề phân mảnh các quan hệ được rút trích.
1.2 Mục tiêu và phạm vi nghiên cứu
Mục tiêu nghiên cứu:
- Xây dựng bộ dữ liệu rút trích quan hệ UIT-ViRE từ việc chuẩn hóa bộ dữ liệu rút trích
quan hệ VLSP2020 và xây dựng bộ đữ liệu phân giải đồng tham chiếu UIT-ViCR.
- Nghiên cứu, đánh giá phương pháp phân giải đồng tham chiếu trên văn bản tiếng Việt
dé phục vụ bài toán rút trích quan hệ dựa trên mô hình phân giải đồng tham chiếu trên văn bản tiếng Anh với bộ dữ liệu UIT-ViCR.
- Nghiên cứu, đánh giá một số phương pháp rút trích quan hệ dựa trên mô hình dựa trên
BERT riêng lẻ và kết hợp (ensemble) trên bộ dữ liệu UIT-ViRE.
Pham vi nghiên cứu:
- Rút trích các quan hệ trong phạm vi từng câu.
- Các loại thực thể được giới hạn chỉ gồm 3 loại: người (PER), tổ chức (ORG), địa danh
(LOC).
- Các quan hệ được nghiên cứu trong đề tài được tham khảo từ công trình [17], gồm 8
loại sau LOCATED, IS LOCATED, PART WHOLE, WHOLE_PART,
PERSONAL_SOCIAL, AFFILIATION, AFFILIATION_TO, OTHERS Trong đó:
+ LOCATED: là quan hệ thé hiện vị trí thực tế của một người tại một địa danh hoặc quan hệ giữa một tổ chức và địa danh kinh đoanh nơi đặt trụ sở (PER-LOC, ORG-
LOC).
+IS_LOCATED: tương tự như quan hệ LOCATED nhưng đảo ngược thứ tự các
Trang 13e _ Nếu xét cặp thực thé theo thứ tự Trần Hùng, Bình Dương thì ta có quan hệ
chức khác; hoặc quan hệ liên kết các quan hệ hành chính và các quan hệ thứ bậc khác
giữa các tô chức (LOC-LOC, ORG-ORG, ORG-LOC).
+ WHOLE_PART: tương tự như quan hệ PART_WHOLE nhưng đảo ngược thứ
tự các thực thể (LOC-LOC, ORG-ORG, LOC-ORG) Ví dụ: Ông Tran Hùng quê ở Di
+ PERSONAL_SOCIAL: là quan hệ thé hiện quan hệ giữa hai người trong quan
hệ nghề nghiệp, chính trị hoặc kinh doanh; hoặc quan hệ gia đình, họ hàng; hoặc quan
hệ cá nhân khác (PER-PER) Quan hệ này không có hướng Ví dụ: Bà Phạm Thị Hong
là trợ lý của ông Bài Công Tân Khi đó, xét cặp thực thé theo thứ tự Phạm Thị Hồng và
Bùi Công Tân hay Bùi Công Tân và Phạm Thị Hồng thì đều có quan hệ
PERSONAL_SOCIAL.
+ AFFILIATION: là quan hệ giữa một người va tổ chức sử dụng lao động hay
thuộc sở hữu của người đó hoặc tổ chức mà người đó là thành viên; hoặc quan hệ giữa
người sáng lập / nhà đầu tư và một tổ chức; hoặc quan hệ giữa một người và một cơ sở
giáo dục mà người này đã hoặc đang theo học; hoặc quan hệ giữa một vị trí địa chính trị
Trang 14+ AFFILIATION_TO: tương tự như quan hệ AFFILIATION nhưng đảo ngược
thứ tự các thực thê (ORG-PER, LOC-PER, ORG-ORG, ORG-LOC) Ví dụ: Năm 2010, Tran Ngoc Anh đã thành lập Công ty Ngôi Sao Trẻ.
¢ Nếu xét cặp thực thé theo thứ tự Trần Ngọc Anh, Công ty Ngôi Sao Trẻ
thì ta có quan hệ AFFILIATION.
e Ngược lại, nếu xét cặp thực thé theo thứ tự Công ty Ngôi Sao Trẻ, Tran
Ngọc Anh thi ta có quan hệ AFFILIATION_TO.
+ OTHERS: các thực thé dang quan sát không thuộc các loại quan hệ trên.
1.3 Ý nghĩa thực tiễn - khoa học
1.3.1 Ý nghĩa thực tiễn
Vé mặt thực tiễn, rút trích quan hệ ứng dụng nhiều trong các lĩnh vực bao gồm:
- Khai phá dữ liệu từ Web (Web mining): nghiên cứu đối thủ cạnh tranh, rút trích tên
người nổi tiếng, các sản phẩm đang thịnh hành, so sánh giá ca sản phẩm, phân tích tâm
lý của khách hàng.
- Trí tuệ doanh nghiệp (Business intelligent): đánh giá thông tin thị trường từ các điều
luật mới trong thị trường kinh doanh, các thông tin về chính trị giữa các nước
1.3.2 Ý nghĩa khoa học
Về khía cạnh khoa học, luận văn có những đóng góp sau:
- Nắm được tình hình nghiên cứu trong nước và trên thế giới, cũng như xu hướng phát
triển của bài toán rút trích quan hệ và các bài toán có liên quan như đồng tham chiếu.
- Thảo luận, đánh giá phương pháp rút trích quan hệ và phương pháp phân giải đồng tham chiếu và đề xuất các hướng phát triển tiếp theo của đề tài.
Trang 15Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN
Tóm tắt chương:
Chương này trình bày tình hình các nghiên cứu trên thế giới và trong nước về bài toán
rút trích quan hệ Bên cạnh đó, chương này cũng trình bày một số nội dung cơ sở lý
thuyết liên quan.
2.1 Các nghiên cứu trên thế giới
Một số phương pháp được sử dụng trên thế giới cho bài toán RE gồm:
2.1.1 Phương pháp dựa trên đặc trưng
Đây là phương pháp học máy có giám sát Ý tưởng chính dựa vào các đặc trưng ngữ nghĩa và cú pháp được rút trích từ văn bản dé quyết định xem các thực thé trong câu có quan hệ với nhau hay không [7] Các đặc trưng cú pháp được rút trích trong câu bao gồm
chính các thực thé đang quan sát, loại của các thực thê, trình tự từ giữa các thực thể, số lượng từ giữa các thực thể và đường dẫn trong cây phân tích cú pháp có chứa hai thực
thể Các đặc trưng ngữ nghĩa bao gồm đường dẫn giữa hai thực thể trong phân tích cú
pháp phụ thuộc Cả hai đặc trưng ngữ nghĩa và cú pháp đưa vào bộ phân lớp dưới dạng
một vector đặc trưng dé huấn luyện hoặc phân loại.
2.1.2 Phương pháp dựa trên CNN
Mô hình đầu tiên sử dung CNN trên RE được dé xuất boi Liu [13] Mô hình này biến
câu thành một loạt các word vector, được đưa vào CNN và lớp đầu ra softmax để có xác suất phân loại Phương pháp này vẫn phụ thuộc vào các bộ công cụ NLP, hầu như không
xem xét ngữ nghĩa, cấu trúc mô hình và lựa chọn đặc trưng [26] Về sau, phương pháp dựa trên CNN cũng có nhiều cải tiến, nhưng nhìn chung phương pháp này chưa nắm
được thông tin ngữ cảnh và chưa xử lý tốt cho các văn bản dài.
2.1.3 Phương pháp dựa trên RNN hoặc LSTM
Dé học các quan hệ trong một ngữ cảnh dài và xem xét thông tin vị trí của các từ, kiến
Trang 16độ câu Ở cuối mô hình, nó tiến hành max-pooling để chọn một số đặc trưng đề dự đoán Bên cạnh đó, mô hình RNN cho thay van dé vé su bing nổ gradient hoặc triệt tiêu gradient Do đó, mô hình LSTM ra đời đề giải quyết vấn đề này và sau đó Xu [27] dựa trên mô hình LSTM dé dé xuất mô hình mới SDP-LSTM Mô hình này tận dụng bốn loại thông tin: vector từ, thé gan nhãn từ loại, quan hệ ngữ pháp va WordNet dé xây dựng bốn kênh Sau đó, nó nối kết quả của bốn kênh với lớp softmax dé dự đoán Mô hình này
xem xét rat nhiều cú pháp và thông tin ngữ nghĩa bổ sung nhưng cũng khá phức tạp Bên
cạnh đó, một hạn chế chung cho cả hai phương pháp này là chuỗi dữ liệu đầu vào được đưa vào xử lý tuần tự nên không tận dụng hiệu quả khả năng tính toán song song của máy tinh dẫn đến tốc độ huan luyện chậm.
2.1.4 Phương pháp dựa trên BERT
Gần đây, việc sử dụng mô hình dựa trên BERT cho các bài toán phân loại đã đạt được
những kết quả ấn tượng, trong đó có bài toán rút trích quan hệ Một số mô hình dựa trên
BERT được sử dụng trong bài toán rút trích quan hệ như ALBERT, BioBERT, XLNet
Đặc biệt, việc kết hợp các mô hình dựa trên BERT đã và đang mở ra một hướng tiếp cận
tiếp theo đê cải thiện hiệu quả các mô hình trong nhiều bài toán khác nhau 1221.
2.2 Các nghiên cứu trong nước
2.2.1 Phương pháp lan truyền nhãn
Đây là phương pháp học máy bán giám sát Xét dé thị G = (V, E), với V là tập các nút
chứa các dữ liệu huấn luyện đã được gán nhãn một phần Mỗi nút tương ứng với một
câu và các cạnh E cho thấy độ tương đồng của các dữ liệu đó Ý tưởng là lan truyền nhãn
ở mỗi nút cho cho các nút kế bên đó và lặp lại quá trình này cho đến khi đã gán nhãn cho toàn bộ những điểm trong đồ thị [2].
2.2.2 Phương pháp dựa trên mệnh đề
Phương pháp dựa trên mệnh đề (clause-based) được Diem [23] đề xuất, tập trung vào
việc khai thác việc phân tích cú pháp tiếng Việt bằng cách sử dụng các mệnh đề ngữ
Trang 17pháp dé xem xét tat cả các quan hệ có thé có trong một câu Tuy nhiên, phương pháp nay
còn nhiều hạn chế với những câu dài và có cấu trúc phức tạp.
2.2.3 Phương pháp kết hợp các mô hình dựa trên BERT
- Phương pháp kết hợp R-BERT và BERT-ES: Hướng tiếp cận này được đề xuất bởi Minh [19] Cả hai mô hình R-BERT và BERT-ES đều tăng cường ngữ nghĩa giữa các từ
trong câu theo hai chiều và khai thác năng lực tính toán song song của máy tính Phương
pháp này sử dụng “âm tiết” là đơn vị cơ bản của câu Kết quả F1 micro trung bình đạt
67.56% trên bộ Test của bộ dữ liệu VLSP2020.
- Phương pháp kết hợp PhoBERT [15] và XLM-RoBERTa [8]: Hướng tiếp cận này được
đề xuất bởi Thuật [17] Phương pháp này sử dụng “từ” làm đơn vị cơ bản và áp dụng
kết hợp mô hình XLM-RoBERTa và PhoBERT Kết quả đánh giá với F1 micro trung bình đạt 72.06% trên bộ Test của bộ dữ liệu VLSP2020 Phương pháp này đạt giải nhất
trong cuộc thi về RE trong văn bản tiếng Việt do VLSP tổ chức.
2.3 Cơ sở lý thuyết
2.3.1 Mô hình Transformer
2.3.1.1 Giới thiệu về Transformer
Transformer là mô hình học sâu có giám sát được ra đời năm 2017 bởi một nhóm tác giả tại Google Brain Transformer cho phép xử lý song song dữ liệu nên làm giảm thời gian
huấn luyện thay vì xử lý tuần tự như RNN Transformer sử dụng cơ chế multi-head attention đề giữ lại quan hệ của các từ trong văn bản, đồng thời áp dụng mạng thần kinh
self-truyền thang (feedforward neural network) dé biến đổi đầu ra của cơ chế attention.
Một số ứng dụng của mô hình Transformer như:
- Dịch văn bản và lời nói gần như theo thời gian thực, mở các cuộc họp và lớp học trực tuyến cho những người khiếm thính.
- Giúp các nhà nghiên cứu hiéu được chuỗi gen trong DNA và axit amin trong protein
Trang 18- Phát hiện các xu hướng và điểm bat thường dé ngăn chặn gian lận, đưa ra khuyến nghị
trực tuyến hoặc cải thiện chăm sóc sức khỏe.
- Mô hình được tích hợp trong công cụ tìm kiếm của Bing và Google.
2.3.1.2 Kiến trúc mô hình Transformer
Kiến trúc Transformer tuân theo cấu trúc bộ Encoder-Decoder.
Hình 2.1 Kiến trúc mô hình Transformer [5]
Bộ Encoder: nhận chuỗi đầu vào và chuyển đổi chúng thành chuỗi biéu diễn liên tục Encoder bao gồm 6 layer xếp chồng lên nhau và áp dụng những phép biến đổi tuyến tính
cho toàn bộ các từ trong chuỗi đầu vào, nhưng mỗi layer sử dụng trọng số, bias khác nhau và bao gồm 2 sub-layer là Multi-Head Self-Attention và Fully Connected Feed-
Forward Sau quá trình Encoder thu được các embedding vector ứng với các từ (word
embedding), sau đó được đưa vào khối Decoder Trong Encoder, nhờ cơ chế
self-attention giúp nó chú ý đến các từ khác khi mã hóa một từ nên mô hình có thé học ngữ
Trang 19Quá trình self-attention gồm 4 bước [6]:
Bước 1: Xây dựng bộ ba vector Query, Key và Value từ các vector đầu vào của Encoderbằng cách nhân ma trận vector đầu vào với các ma trận trọng sỐ Wq, Wk, Wv được khởitạo ngẫu nhiên Ba ma trận Wq, Wk, Wv chính là những hệ số mà mô hình cần huấn
Trang 20Bước 2: Tính điểm của từng từ với tất cả các từ trong câu để giúp xác định quan hệ ngữcảnh giữa từ đó với các từ trong câu Cách tính điểm được xác định bằng tích vô hướng
của vector Query của từ đang quan sát và các vector Key tương ứng với mỗi từ trong
bỏ qua những từ không liên quan.
{Attention layer output)
Hình 2.4 Quá trình tính toán kết qua của Self-Attention [5]
Như vậy, phương trình Attention được biểu diễn như sau:
T
Attention(Q, K,V) = Softmax (=) V (2.1)
Trong đó:
Q: ma trận với mỗi dòng là một vector Query biểu diễn cho các từ đầu vào
K: ma trận với mỗi dòng là một vector Key biểu diễn cho các từ đầu vào
V: ma trận với mỗi dòng là một vector Value biểu diễn cho các từ đầu vào
dx: số chiều của vector Key
Mỗi quá trình như vậy được gọi là 1 head của Attention Khi quá trình này lặp lại nhiềulần tạo ra quá trình Multi-head Attention Sau khi thu được ba ma trận Attention ở đầu
ra chúng ta nối các ma trận này theo các cột dé thu được ma trận tong hop multi-headmatrix với chiều cao bằng chiều cao ma trận ban đầu Tiếp đó, nhân ma trận tổng hợp
Trang 21với ma trận chuyên đôi Wo đê tạo ra ma trận kêt quả có sô chiêu băng sô chiêu của ma
Hình 2.5 Minh họa xử lý cua Multi-head Attention [5]
Nhu vay, ma tran tong hợp có thể biéu diễn như sau:
Do Transformer vốn không thé năm bắt bat kỳ thông tin vị trí của các từ trong chuỗi vì
nó không sử dụng hồi quy nên thông tin vị trí phải được đưa vào bằng cách thêm
positional encoding (mã hóa vị trí) cho các embedding đầu vào.
Bộ Decoder (khôi bên phải của kiến trúc Transformer): nhận đầu ra của bộ Encoder cùng
với dau ra của của chính nó ở layer trước đó dé tạo ra chuỗi dau ra và đưa ra dự đoán Bộ
Decoder cũng có 6 layer liên tiếp giống nhau nhưng mỗi layer có 3 sub-layer:
- Masked Multi-Head Attention: Đây là sub-layer đầu tiên giúp bỏ qua các từ phía sau
khỏi quá trình attention.
Trang 22- Multi-Head Attention: sub-layer thứ hai này hoạt động tương tự như sub-layer đầu tiêncủa bộ Encoder Cơ chế multi-head ở bộ Decoder nhận các truy vấn từ lớp con của bộDecoder trước đó cũng như các Key và Value từ kết quả của bộ Encoder Điều này cho
phép bộ Decoder chú ý đến tat cả các từ trong chuỗi đầu vào.
- Fully connected feed-forward: hoạt động tương tự như sub-layer thứ hai của bộ
Encoder.
Tóm lai, mô hình Transformer hoạt động theo các bước như sau [30]:
Bước 1: Chuyên đổi từng từ trong chuỗi đầu vào thành một embedding vector nhiềuchiều và được bổ sung thêm thông tin vị trí của từ bang cách kết hợp nó với một vector
mã hóa vi trí có cùng chiêu dài tạo thành các embedding vector tăng cường.
Bước 2: Đưa các embedding vector tăng cường vào bộ Encoder Bộ Encoder xử lý tất
cả các từ trong chuỗi đầu vào, bat ké chúng đứng trước hay đứng sau từ dang được xem
xét.
Bước 3: Bộ Decoder nhận đầu vào từ đầu ra dự đoán của chính nó và đầu vào của nócũng được tăng cường bằng vector mã hóa vi trí theo cách tương tự được thực hiện ở bộ
Encoder, sau đó được đưa vào ba sub-layer của bộ Decoder như đã giải thích ở trên Mặt
nạ được áp dụng trong sub-layer đầu tiên dé ngăn bộ Decoder sử dụng các từ tiếp theo
Ở sub-layer thứ hai, bộ Decoder cũng nhận đầu ra của bộ Encoder, nhưng giờ cho phép
bộ Decoder sử dụng tât cả các từ trong chuỗi đầu vào.
Bước 4: Cuối cùng, đầu ra của bộ Decoder đi qua một lớp fully connected, tiếp theo làlớp softmax, để tạo dự đoán cho từ tiếp theo của chuỗi đầu ra
2.3.2 Mô hình BERT
2.3.2.1 Giới thiệu về mô hình BERT
BERT là mô hình dựa trên Transformer nhưng chi sử dụng bộ Encoder dé biéu diễn từ
dưới dạng các vector theo ngữ cảnh hai chiều của từ [9] Các vector này có thể hiểu đượcngữ cảnh xung quanh của từ tốt hơn so với RNN, BiLSTM Bên cạnh đó, mô hình
Trang 23cũng dựa trên Transformer nhưng chỉ sử dụng bộ Decoder đó là GPT Tuy nhiên, trong
khi GPT phù hợp cho các bài toán tạo ngôn ngữ như dịch thuật, hỏi đáp nhanh và sắp
xếp lại các từ thì BERT lại được sử dụng cho các bài toán cần hiểu sâu về ngữ cảnh trong
văn bản, các bài toán phân loại.
BERT giới thiệu vào cuối năm 2018 bởi Google được ứng dụng trong các bài toán như:
- Phân tích cảm xúc.
- Dự đoán văn bản: Dự đoán văn bản của bạn khi viết email (Gmail)
- Tạo văn bản: Có thể viết một bài báo về bat kỳ chủ đề nào chỉ với một vài câu đầu vào
- Tóm tắt văn bản: Có thé nhanh chóng tóm tắt các hợp đồng pháp lý dài.
- Polysemy resolution: Có thể phân biệt các từ có nhiều nghĩa dựa trên văn bản xung
quanh.
2.3.2.2 Kiến trúc của BERT
Mô hình BERT có 2 kiến trúc là: BERT-base và BERT-large, trong đó, các chỉ số về
kiến trúc của chúng được thê hiện trong bảng bên dưới
Bảng 2.1 Các chỉ số về kiến trúc của BERT-base và BERT-large
Số lượng các Kích thước Số lượng head Số thamkhối Encoder | embedding vector | trong multi-head số
layer
BERToase 12 768 12 110 triệu
BERTuarge 24 1024 16 340 triệu
2.3.2.3 Cách huấn luyện mô hình BERT
Mô hình BERT huấn luyện song song 2 nhiệm vụ MLM và NSP
Chi tiết 2 nhiệm vụ này như sau:
Trang 24- Masked Language Model (MLM): nhiệm vụ này thực hiện việc dự đoán các từ được
che trong câu Cụ thé, che đi 15% số từ trong câu dé đưa vào mô hình huấn luyện, sau
đó dự đoán những từ bị che đó dựa vào những từ còn lại Điều này khác với các mạngthần kinh hồi quy (RNN) truyền thống thường nhìn thấy các từ nối tiếp nhau hoặc với
các mô hình tự hồi quy như GPT che giấu các token trong tương lai MLM cho phép mô
hình học cách biểu diễn hai chiều của câu
†o vocab +
softmax
Hinh 2.6 So dé kién trac BERT cho nhiém vu MLM [4]
Trong so đô trên, W¿ là từ được che di, W’4 là từ can được dự đoán và O1, O2, O3, Oa,
Os là các embedding vector đại diện cho các từ trong câu đầu vào Mô hình BERT nhậntất cả đầu vào cùng một lúc và cũng tạo ra tất cả các đầu ra của nó đồng thời Bên dưới
là một ví dụ cho quá trình MLM.
Trang 25you has the highest probability | you, they, your |
Input (CLS], | how | | are asi)| |doing today | | [SEP]
Hinh 2.7 Minh hoa xu ly MLM [32]
- Next Sentence Prediction (NSP): nhiệm vu bai toán nay là xác định hai câu được xét
có phải kế tiếp nhau hay không Đây là bài toán phân loại nhị phân với đầu vào chính làmột cặp câu đã được che một sỐ từ tương tự như MLM và đảm bảo sao cho 50% các câuthứ hai được chọn đúng là câu kế tiếp của câu thứ nhất Đối với 50% còn lại thì câu thứ
hai có thể được lựa chọn ngẫu nhiên Sau đó, tiền hành dự đoán câu thứ hai có đúng là
câu kế tiếp của câu thứ nhất không Nếu đúng trả về 1 còn sai trả về 0 Bên dưới là một
ví dụ cho quá trình xử lý của NSP.
A: Lan thích ăn các loại trái cây!
Trang 26Vi dụ nối 2 câu “Hôm nay em đến trường” và “Mẹ dắt tay từng bước” thì thu được kếtquả là [CLS] Hôm nay em đến trường [SEP] Mẹ dắt tay từng bước [SEP]
Bước 2: Cộng vector Sentence Embedding và vector Positional Encoding cho từngvector đại diện của từng token trong câu dé bé sung thông tin vị trí của câu và vị trí từng
từ trong câu đã nôi ở bước 1 Sau đó đưa vào mô hình.
Hình 2.9 Đại diện đầu vào của BERT [32]
Bước 3: Lay két qua cua Encoder 6 token [CLS] da dugc chuyén đổi sang một vector có
hai phan tử và tính softmax trên vector đó dé xác định nhãn C cần tìm
Class Label
Sentence 1 Sentence 2
Hình 2.10 Kiến trúc pre-training trong BERT [32]
Có hai hướng tiếp cận đối với BERT:
Trang 27- Trích xuất đặc trưng: sử dụng BERT làm mô hình trích xuất các đặc trưng với kiếntrúc của BERT được giữ nguyên và đầu ra của nó là các vector đặc trưng làm đầu vàocho các bài toán tiếp theo.
- Hiệu chỉnh mô hình: sửa đổi kiến trúc của mô hình (fine-tuning) bằng cách thêm một
số lớp vào cuối mô hình BERT Các lớp này tham gia vào việc huấn luyện lại mô hình
và giải quyết vấn đề cho các bài toán khác nhau
2.3.3 PhoBERT
PhoBERT là mô hình dựa trên BERT được huấn luyện trước trên dữ liệu tiếng Việt vớikhoảng 1GB dữ liệu được lay tu Wikipedia tiéng Việt và 19GB dữ liệu được thu thập từcác báo tin tức về tiếng Việt Cách tiếp cận mô hình này tương tự mô hình RoBERTa làchỉ áp dụng bài toán MLM và bỏ qua bài toán NSP Giống như mô hình BERT,PhoBERT có hai kiến trúc là: PhoBERT-base với 12 bộ Encoder và PhoBERT-large với
24 bộ Encoder PhoBERT đã cho thấy được sự hiệu quả trên bộ dữ liệu cấp độ từ.PhoBERT đã sử dụng mô hình VnCoreNLP — RDRSegmenter [25] của dé tách câu vatách từ ở cấp độ từ cho bộ dữ liệu đầu vào trước khi áp dụng cho việc huấn luyện Một
số kết quả vượt trội của PhoBERT trong một số bài toán xử lý ngôn ngữ cho tiếng Việt
- Suy luận ngôn ngữ tự nhiên (NLI) với FI đạt 78.5% trên PhoBERTuase và 80.0% trên
Với những kết quả trên cho thấy, đối với ngôn ngữ tiếng Việt, mô hình PhoBERT thấy
aaahon so trên bộ dữ liệu tách từ ở cap độ âm tiệt.
2.3.4 XLM-RoBERTa
Trang 28Mô hình XLM-RoBERTa (XLM-R) [8] là mô hình đa ngôn ngữ dựa trên BERT được
huấn luyện trước trên 100 ngôn ngữ (có tiếng Việt) với hơn 2TB dữ liệu Tương tự mô
hình PhoBERT, mô hình XLM-R cũng có hai phiên bản (XLM-Ru¿se và XUM-R¿r;e) và được xây dựng trên mô hình RoBERTa của Facebook, chỉ áp dung bài toán MLM với
cơ chế dynamic masking, tức trong mỗi epoch các token được che trong câu không cố
định.
2.3.5 SpanBERT
SpanBERT được giới thiệu bởi Joshi và các cộng sự [11] năm 2020, là mô hình BERT
nhưng huấn luyện lại mô hình ở cấp độ cụm từ (span-level) SpanBERT giới thiệu khái
niệm Span-Boundary Objective (SBO) dé mô hình học cách dự đoán toàn bộ cum từ
được che từ ngữ cảnh của những token được quan sát trong biên của nó Ví dụ:
£(football) = £Zrw(football) + Zsnso(football)
— log P(football | xz) — log P(football | xạ, xạ, p3)
Hình 2.11 Minh họa việc huấn luyện mô hình SpanBERT
Ưu điển: Với bài toán đồng tham chiếu, SpanBERT có được kết quả cải thiện vượt trội
so với các phương pháp trước đó với F1 trung bình của ba độ đo MUC, B3, CEAF bằng
79.6%.
Nhược điểm: Chưa hỗ trợ ngôn ngữ tiếng Việt
2.3.6 XLNet
Trang 29Mô hình XLNet được Google AT giới thiệu vào năm 2019, được mở rộng từ
Transformer-XL (mô hình tự hồi quy tiên tiến nhất) dé biểu diễn từ theo ngữ cảnh hai chiều thông qua
mô hình ngôn ngữ hoán vị [28] Mô hình ngôn ngữ hoán vị được huấn luyện dé dự đoán
một token đã được cho trước ngữ cảnh giống như mô hình ngôn ngữ truyền thống, nhưng thay vì dự đoán các token theo thứ tự tuần tự, nó dự đoán các token theo một số thứ tự
ngẫu nhiên Xem xét ví dụ sau dé làm rõ điều này: “Sometimes we have to be our own
hero” Nếu sử dụng mô hình truyền thống sẽ dự đoán các token theo thứ tự “Sometimes”,
“we”, “have”, “to”, “be”, “our”, “own”, “hero”, trong đó mỗi token sử dụng tất cả cáctoken trước đó làm ngữ cảnh Tuy nhiên, nếu ding mô hình ngôn ngữ hoán vi, thứ tự dựđoán không nhất thiết phải từ trái sang phải Ví dụ, nó có thé là “own”, “Sometimes”,
của toàn bộ các từ xung quanh.
Như vậy có thé thấy, XLNet là sự kết hợp của hai mô hình AR va AE để tạo ra mô hìnhmới tận dụng được những điểm mạnh của hai mô hình trên
Một vài kết quả thu được của XLNet trong những nhiệm vụ:
Bang 2.2 So sánh hiệu suất của BERT và XLNet trên cùng một dữ liệu huấn luyện và siêu
tham số.
Trang 30Model | MNLI | SquAD2.0 | QNLI | SQuADI.I | RACE | QQP | RTE | SST-2 | STS-B | CoLA | MRPC
Dựa vào bảng 2.1 có thé thay, XLNet vượt trội hon BERT một cách đáng kê trên các bộ
đữ liệu được xem xét.
2.3.7 Nhận dạng thực thể
Trước khi xử lý bài toán rút trích quan hệ, nhận dạng thực thé là một trong những bài
toán đầu tiên cần phải được giải quyết Nhận dạng thực thể (NER) là một bài toán con
của bài toán trích xuất thông tin trong lĩnh vực NLP nhăm tìm những từ hoặc cụm từtrong văn bản được xem là thực thê (NE) và phân loại chúng vào những nhóm được quyđịnh trước đó như tô chức (ORG), tên người (PER), thời gian (TIME), địa điểm (LOC),
tỷ lệ phần trăm (PERCENT), giá trị tiền tệ (MONEY) Kết quả của bài toán NER được
sử dụng trong nhiều bài toán khác phức tạp hơn như phân tích cảm xúc, search engine,
trong đó có bài toán rút trích quan hệ.
Đề gán nhãn cho các thực thể thường dùng nhãn I(Inside)-O(Outside)-B(Beginning)
[12] Với mỗi thực thể kiểu W (đại diện cho PER, LOC, ORG, ), ta có hai nhãn B-W
và I-W, trong đó nhãn B-W là đánh dấu bắt đầu của thực thé kiều W, I-W là phần bêntrong của thực thé kiêu W Bên cạnh đó còn có nhãn O đánh dấu không phải thực thé
Xem ví dụ trong bảng bên dưới.
Bảng 2.3 Minh họa gán nhãn IOB cho các token
Các token Nhãn IOB
Kiên B-LOC
Trang 31Một số trường hợp sử dụng NER bao gồm:
- Tuyển dụng: Giúp day nhanh quá trình tuyển dụng bang cách tóm tắt CV của ứng
viên; cải thiện quy trình công việc nội bộ bằng cách phân loại các khiếu nại và thắc mắc
của nhân viên.
- Hỗ trợ khách hàng: Giúp cắt ngắn thời gian phản hồi bằng cách phân loại yêu cầu,
khiếu nại và câu hỏi của người dùng và lọc theo từ khóa ưu tiên.
- Công cụ khuyến nghị và tìm kiếm
- Chăm sóc sức khỏe: Cải thiện các tiêu chuân chăm sóc bệnh nhân và giảm khôi lượng
công việc bằng cách trích xuất thông tin cần thiết từ các báo cáo trong phòng thí nghiệm
- Giáo dục: Cho phép sinh viên và nhà nghiên cứu tìm tài liệu liên quan nhanh hơn bằngcách tóm tắt những tài liệu và bài báo đã lưu trữ và làm nồi bật các thuật ngữ, chủ đề
chính.
- Chatbot: Xác định những thực thé liên quan được nhắc đến trong cuộc hội thoại của
người dùng Điều này giúp hiểu ngữ cảnh câu hỏi người dùng và cải thiện câu trả lời của
họ.
Các phương pháp được áp dụng trong NER:
- Dựa trên đặc trưng
Trang 32- Dựa trên quy tắc
- Phương pháp sử dụng mạng noron
Một số mô hình NER nỗi bật trong tiếng Việt:
Bang 2.4 Các kết quả đánh giá F1 cho các mô hình NER nổi bật
2.3.8 Phân giải đồng tham chiếu
2.3.8.1 Giới thiệu CR trong rút trích quan hệ
Ngoài việc phụ thuộc vào NER, kết quả của RE còn phụ thuộc vào kết quả của việc xử
lý phân giải đồng tham chiếu trong văn bản Phân giải đồng tham chiếu (CR) là bài toánxác định hai hoặc nhiều cụm từ cùng đề cập đến một thực thể cụ thé trong một văn bản
Sơ đồ hình 2.12 cho thấy quá trình xử lý CR.
Theo Yannick [24], CR được sử dụng trong nhiều bài toán liên quan khác như: hỏi đáp
tự động, trích xuất thông tin, tự động sinh các biéu diễn tương đương của đoạn văn bản,tóm tắt văn bản
Trang 33Văn bản đâu vào |
Một số loại đồng tham chiếu:
- Tham chiếu đồng nhất (Identity coreference)
Ví dụ: Bà Trương Mỹ Linh là một họa sĩ nỗi tiếng Bà ấy còn có giọng hát rất hay
- Tham chiếu bộ phận-toàn thé (Part/whole coreference)
Vi dụ: Hùng va Hoa là đôi bạn thân từ thời cấp 3 Ho đã kết hôn vào tháng trước
- Tham chiếu cùng chủng loại (Type-token coreference)
Ví dụ: Người đàn ông đưa tiền lương của mình cho vợ được cho là khôn ngoan hơn
người đàn ông đưa nó cho tình nhân.
- Hoán vụ (Metonymy): Tham chiếu một thứ nay đến một thứ khác dựa trên sự liên kết
hoặc mức độ gân gũi của chúng.
Ví dụ: Phạm Hữu Danh là một trong những ngôi sao của đội tuyên bóng đá Việt Nam.Chân sút xứ Nghệ này đã nhiều lần nhận danh hiệu Cầu thủ xuất sắc nhất
- Quan hệ sở hữu (Possessive relations)
Ví dụ: Bạn Trần Nguyên Phương, học sinh trường Nguyễn Binh Khiêm đã thi đậu môn
tiếng Anh với điểm số cao nhất trường Theo cha của bạn, Phương học tiếng Anh từnăm lớp 1.
Trang 34Phân giải đồng tham chiếu thé hiện sự kết nối giữa các cụm từ trong một câu cũng như
giữa những câu chứa những cụm từ đó Do đó, nếu xác định được kết nối đó sẽ làm tănghiệu quả cho bài toán RE Nó không những có thể giúp rút trích được nhiều quan hệ hơn
mà còn làm tăng môi liên kêt gitra các quan hệ của những thực thê có cùng tham chiêu.
Ví dụ: Ông Lê Văn Sáu là trợ lý của ông Trần Nguyên Anh Ông Sáu quê ở Bến Tre.Nếu không xử lý đồng tham chiếu thì chỉ rút trich được quan hệPERSONAL_SOCIAL(Ong Lê Văn Sáu, ông Trần Nguyên Anh), LOCATED(Ông Sáu,Bến Tre) Các thực thể Ông Lê Văn Sáu và Ông Sáu được xem như là hai thực thé khác
Hình 2.13 Ví dụ minh họa kết qua của RE trước khi áp dung CR
Tuy nhiên sau xử lý, các quan hệ được rút trích bao gồm: PERSONAL_SOCIAL(Lé Văn
Sáu, Trần Nguyên Anh), LOCATED(Lê Văn Sáu, Bến Tre) Khi đó, thực thé Ông Lê
Van Sau trong cả hai quan hệ trên cùng là một thực thê (hình 2.14)
PERSONAL-SOCIAL LOCATED
ông Tran Nguyên Anh
Hình 2.14 Ví dụ minh họa kết quả của RE sau khi áp dụng CR
Từ các ví dụ trên chứng minh việc xử lý CR có tác động đáng kê đến bài toán rút trích
quan hệ.
Trang 352.3.8.2 Phương pháp CR trong văn bản tiếng Việt đề xuất
Có một số phương pháp CR đã được nghiên cứu như phương pháp xếp hạng [14], phương
pháp máy vector hỗ trợ (SVM) [3], phương pháp sử dụng mô hình SpanBERT [11] Tuy
nhiên, những phương pháp đó chủ yếu được áp dụng cho văn bản tiếng Anh Do đó, luậnvăn này đề xuất phương pháp xử lý CR cho văn bản tiếng Việt từ việc tận dụng mô hình
CR cho ngôn ngữ tiếng Anh có sẵn Ý tưởng của phương pháp này được tham khảo từ cách xây dựng bộ dữ liệu đồng tham chiếu cho tiếng Việt [1] với đầu vào là văn bản
tiếng Việt, đầu ra là những cụm đồng tham chiếu với văn bản tiếng Việt sau xử lý CR.Phương pháp đề xuất gồm 6 bước xử lý như sau:
Bước 1: Sứ dụng mô hình vinai-translate-vi2en [16] dé dịch văn bản tiếng Việt T sangvăn bản tiếng Anh S Mô hình vinai-translate-vi2en là mô hình dịch văn ban từ ngôn ngữtiếng Việt sang tiếng Anh tiên tiến nhất ở thời điểm hiện tại, vượt trội hơn Google Dịch
trong cả đánh giá dựa trên BLEU score và đánh giá của con người Mô hình này được
tích hợp trong hệ thống VinAI Translate (https://vinai-translate.vinai.io)
Bước 2: Tir văn ban tiếng Anh S, sử dụng mô hình SpanBERT-large [11] để rút tríchcác cụm đông tham chiếu kèm theo danh sách từ đã được tách từ S SpanBERT cải thiệnđáng kê kết quả đạt được trong bài toán CR với văn bản tiếng Anh so với mô hình trước
đó với F1 đạt 79.6% (kết quả tốt nhất trước đó là 73.0%).
Bước 3: Tách từ văn bản tiếng Việt T với thư viện UITws-v1 [18] UITws hiện tai là mô
hình tiên tiến nhất cho việc tách từ cho văn bản tiếng Việt với F1 score đạt 98.06%
Bước 4: Xác định các quan hệ dịch thuật giữa các từ của S và T bằng việc sử dụng công
cụ Awesome-alien [10] Awesome-align (Aligning Word Embedding Spaces Of
Multilingual Encoders) là công cụ có thé trích xuất word alignment, được xây dựng từviệc tinh chỉnh mô hình mBERT [20] trên kho ngữ liệu song song dé có kết quả tốt hơn.Theo Dat [15], các mô hình xử lý ngôn ngữ tiếng Việt được huấn luyện trước trên bộ dit
liệu được tách từ ở cấp độ từ hiệu quả hơn so với việc huấn luyện trên bộ dữ liệu đượctách từ ở cấp độ âm tiết Do đó, luận văn đã thử nghiệm việc tách từ ở cấp độ từ trước
Trang 36khi tích hợp voi cong cu Awesome-align.
Xét ví du sau: T: “Hiện tại, cô gái khỏe nhiều hon so với những ngày trước đây ” va S:
“Currently, the girl is much healthier than in the past days.” Khi đó, mối quan hệ giữa
các token sau tách từ ở cấp độ âm tiết và cấp độ từ được thể hiện trong hai hình bên dưới.
Hiện tại khỏe nhiều hơn với những eee :
Currently the girl much healthier than in the past days :
Hình 2.15 Kết quả căn chỉnh từ của các token ở cấp độ âm tiết
Hiện tại a cô gai khoe nhiéu hon so với những ngày trước đây F
Currently ` the girl is much healthier than in the past days
Hình 2.16 Kết qua căn chỉnh từ của các token ở cấp độ từ
Bước 5: Ánh xạ các cum đồng tham chiếu được rút trích từ tiếng Anh sang tiếng Việt.Dựa trên các cụm đồng tham chiếu trong S và kết qua word alignment ở bước 4 dé xácđịnh các cụm đồng tham chiếu trong T
Bước 6: Xác định ngữ danh từ trung tâm và thay thế các ngữ danh từ khác trong từng
cum đồng tham chiếu Việc xác định ngữ danh từ trung tâm được thực hiện theo quy tắc sau: Ngữ danh từ trung tâm phải chứa NE, trường hợp tất cả các ngữ danh từ trong cụm
đều không chứa NE thì bỏ qua cụm đó bởi vì nó không phục vụ cho bài toán rút tríchquan hệ Nếu có nhiều ngữ danh từ trong cụm đều chứa NE thì chọn ngữ danh từ dàinhất làm ngữ danh từ trung tâm Hình 2.16 minh họa các bước xử lý CR cho bài toán rút
trích quan hệ.
Trang 37(3) Tách từ văn bản
tiếng Việt
(UITws v1)
(1) Dịch tiếng Việt (4) Gióng hàng ở (5) Chiếu nhãn đồng (6) Xác định ngữ danh từ trung
sang tiếng Anh mức độ từ tham chiều từ tiếng tâm và thay thể các ngữ danh từ
(vinai-translate-vi2en) (mBERT] Anh sang tiếng Việt khác theo từng cụm
Hình 2.17 So đồ mô tả các bước xử ly CR cho văn bản tiếng Việt
Hiện tại, chưa có nhiều công trình nghiên cứu về bài toán CR cho tiếng Việt nhưng lại
có nhiều mô hình ưu việt trên ngôn ngữ khác và chưa được thử nghiệm, đánh giá trêntiếng Việt Do đó, phương pháp CR dựa trên mô hình SpanBERT được đề xuất được
xem như là bước mở đầu trong việc nghiên cứu sâu hơn về bài toán CR trong văn bản
tiếng Việt Phương pháp này tận dụng kết quả của các mô hình tối ưu sẵn có mà khôngcần huấn luyện mô hình lại từ dau; không cần xây dựng bộ dữ liệu đủ lớn để huấn luyện
mô hình; dễ dàng thay đôi, cải tiến phương pháp này với việc sử dụng nhiều tô hợp các
mô hình cải tiến mới trong tương lai Tuy nhiên, kết quả của phương pháp này phụ thuộcnhiều vào độ chính xác của mô hình đồng tham chiếu trong văn bản tiếng Anh được sửdụng cũng như kết quả của quá trình dịch văn bản từ tiếng Việt sang tiếng Anh, quá trìnhtách từ và quá trình chiếu nhãn đồng tham chiếu Ngoài ra, thời gian xử lý cũng phụthuộc nhiều vào thời gian xử lý của các bài toán đã đề cập trên và phụ thuộc vào độ dài
của văn bản.
Trang 38Chương 3 XÂY DỰNG BỘ DỮ LIỆU
Tóm tắt chương:
Chương này mô tả chỉ tiết về bộ dữ liệu UIT-ViRE dé phục vụ cho việc huấn luyện vàđánh giá mô hình RE và bộ dữ liệu UIT-ViCR dé đánh giá phương pháp xử lý CR được
dé xuất Ngoài ra, chương này cũng trình bày quá trình xây dựng dit liệu cho cả hai bộ
dit liệu trên.
3.1 Bộ dữ liệu rút trích quan hệ UIT-ViRE
Bộ dữ liệu UIT-ViRE được sử dụng dé huấn luyện và đánh giá các mô hình RE và được
xây dựng dựa trên bộ dữ liệu rút trích quan hệ của VLSP2020 [29] Trong đó, bộ dữ liệu
VLSP2020 được lưu với định dạng tập tin WebAnno TSV 3.2, được gan nhãn với bốn
quan hệ (LOCATED, PART - WHOLE, AFFILIATION, PERSONAL - SOCIAL) và
được chia thành ba bộ dữ liệu Train (506 văn ban, đã gan nhãn), Dev (250 van ban, đã
gan nhãn) va Test (300 văn bản, chưa gan nhãn) Nội dung của tập tin theo định dang
WebAnno TSV 3.2 bao gồm van bản gốc và 7 cột mô tả những thông tin vị trí của các
token, các NE và các quan hệ giữa các NE (xem hình 3.2 và 3.3) Tuy nhiên, bộ dữ liệu
VLSP2020 này có một số hạn chế sau:
- Chưa tách biệt từng quan hệ cho từng cặp NE trong từng câu.
- Có một số NE được xác định bị lỗi Unicode hoặc bị thừa ký tự đặc biệt như “(“ hoặc
Sở đầu hoặc cuối của NE (xem hình 3.3)
- Có một số quan hệ được gán nhãn cho hai NE trên hai câu khác nhau
- Do cấu trúc phức tạp nên khó khăn trong việc xác định hướng của cặp NE trong mỗi
quan hệ (quan hệ LOCATED, PART_WHOLE, AFFILIATION có hướng còn quan hệ PERSONAL_SOCIAL vô hướng).
Do đó, bộ dữ liệu UIT-ViRE ra đời để giải quyết các hạn chế trên Sau quá trình xử lý
dữ liệu, bộ dữ liệu UIT-ViRE thu được có các đặc điểm như sau:
Trang 39- Được lưu với định dạng tập tin JSON như cấu trúc sau:
“doc_id": "23352327",
“sent_id": 21,
“sentence”: "Vụ tai nan xảy ra lúc 16h3@ chiều 22/3, trên Quốc lộ
1A địa bàn khối 5, thị trấn Cầu giát, huyện Quỳnh Lưu.",
+ doc 1d: Id của văn bản, được lay từ tên thư mục chứa file văn ban đó
+_ sent 1d: Id của câu trong văn ban + sentence: Nội dung của cau
+ spos: Vị trí bat đầu, vi tri kết thúc của câu trong văn ban+ entity_1: Chita vị trí và nội dung của NE thứ nhất trong câu
+ entity_2: Chứa vi trí và nội dung của NE thứ hai trong câu + label: Nhãn quan hệ của entity_1 và entity_2
- Đã tách biệt từng quan hệ cho từng cặp NE trong từng câu.
- Đã xử lý các NE bị lỗi Unicode hoặc bị thừa ký tự đặc biệt Sau khi chuẩn hóa, một số
vị trí của NE bị thay đổi nên ta phải tim vị trí mới của NE trong câu mới
- Được gan nhãn trên 8 loại quan hệ (LOCATED, IS_LOCATED, PART_WHOLE, WHOLE_PART, PERSONAL SOCIAL, AFFILIATION, AFFILIATION_TO,
Trang 40dựa vào loại quan hệ và hướng của các NE trong quan hệ đó Việc sử dụng 8 loại quan
hệ này có tham khảo cách xử lý dữ liệu của công trình [17].
- Được chia thành ba bộ dữ liệu Train, Dev, Test, trong đó:
+ Bộ Train: gồm 10182 câu, với 15666 quan hệ
+ Bộ Dev: gồm 4634 câu, với 9235 quan hệ
+ Bộ Test: gồm 96 câu, với 238 quan hệ
Các bước chuẩn hóa bộ dữ liệu trên gồm:
Bước 1: Tách văn bản gốc thành từng câu riêng biệt và xử lý lỗi cho những trường hợp
tách câu bị lỗi
Bước 2: Xác định danh sách tất cả các NE trong từng câu Nếu trong câu có ít hơn 2 NE
thì bỏ qua câu đó.
Bước 3: Duyệt qua từng cặp NE trong danh sách các NE trong từng câu dé xác định
nhãn quan hệ Xử lý lỗi cho các NE không đúng.
- Nếu cả hai NE không được gán nhãn quan hệ (tức giá trị cột thứ 7 đều là “_”) thì đánhdau nhãn là OTHERS cho cặp NE ấy
- Nếu có tối thiểu một trong hai NE được gán nhãn quan hệ thì dựa vào giá cột thứ 7
để kiểm tra xem cặp NE đang xét có thực sự có quan hệ hay không Nói cách khác,kiểm tra chúng có liên kết với nhau thông qua id của token (cột 1) hay không
+ Nếu không có liên kết thì đánh dau nhãn quan hệ là OTHERS cho cặp NE đang
⁄
xét.
+ Nếu có liên kết thì tiếp tục kiểm tra thứ tự của cặp NE đang xét (cột 4) xem có
khớp với thứ tự các NE được gán nhãn trong cột 7 (nếu có) hay không
e Nếu chúng khớp với nhau hoặc thứ tự các NE được gán nhãn trong cột 7
không có (quan hệ không hướng) thì nhãn quan hệ của cặp NE này chính là
nhãn quan hệ được xác định trước trong cột 6.