Luận văn thạc sĩ Công nghệ thông tin: Rút trích quan hệ giữa các thực thể trong văn bản Tiếng Việt

Lời cam đoanTôi cam đoan các kết quả thử nghiệm cho bài toán rút trích quan hệ, bài toán phân giải đồng tham chiếu trong văn bản tiếng Việt và hệ thống minh họa cho bài toán rút trích qu

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Mã số: 8480201

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS NGUYÊN LƯU THÙY NGÂN

Trang 2

Lời cam đoan

Tôi cam đoan các kết quả thử nghiệm cho bài toán rút trích quan hệ, bài toán phân giải đồng tham chiếu trong văn bản tiếng Việt và hệ thống minh họa cho bài toán rút trích

quan hệ trong văn bản tiếng Việt được trình bày trong luận văn này được chính tôi thực hiện với sự hướng dẫn của Tiến sĩ Nguyễn Lưu Thùy Ngân.

Những tài liệu tham khảo từ các công trình liên quan đều được trích dẫn nguồn gốc rõ ràng trong phan tài liệu tham khảo Tắt cả các kết quả thử nghiệm của luận văn đều được thử nghiệm thực tế.

Học viên

Phạm Minh Mẫn

Trang 3

Lời cảm ơn

Tôi xin chân thành cám ơn Trường đại học công nghệ thông tin đã tạo điều kiện cho tôi

thực hiện đề tài này và Quý thầy cô đã truyền đạt, giảng dạy cho tôi những kiến thức vô

cùng quý báu trong thời gian vừa qua Đặc biệt tôi xin cảm ơn TS Nguyễn Lưu Thùy Ngân đã tận tình hướng dẫn tôi trong quá trình nghiên cứu và hoàn thành luận văn này.

Bên cạnh đó, tôi xin gửi lời biết ơn sâu sắc đến ba mẹ và những bạn bè đã giúp đỡ, động viên tôi trong suốt quá trình học tập và nghiên cứu vừa qua.

Mặc dù tôi đã rất cố gắng hoàn thành luận văn trong trong khả năng của mình nhưng

cũng khó tránh khỏi những thiếu sót, kính mong nhận được sự thông cảm và góp ý của Quý thầy cô và mọi người.

Thanh phó Hồ Chí Minh, tháng 06 năm 2023

Học viên thực hiện

Phạm Minh Mẫn

Trang 4

Chương 1 TONG QUAN - 5-2221 2 221 21122121122121121121111121111111121 1x re 5

1.1 Giới thiệu bài toán ¿- + + + 5++E+E+*£+2EE 2x22 9 221217113 E211 1.1 Tre LÕ

1.2 Mục tiêu và phạm vi nghiên cứu

13.Y nghia thuc tiễn - khoa HOC seeeceesccssessesssssecsessessessesssssscsuessessesssessssssesssesssesessesseesees 8 1.3.1 Ý nghĩa thực tiễn 2222222++2222222212212222222111112 222221111111 1.1 xee §

1.3.2 Ý nghĩa khoa hỌc ¿ 222+2¿22EE++222211122222111122711112771112271112 221112 re 8

Chương 2 CÁC CONG TRÌNH LIÊN QUAN - -:222+2222vzzsccvvvcerrrveree 9 2.1 Các nghiên cứu trên thế giới - ::-22++22©+2++22EE+++ttEES++tttEEEvretrrxrrrerrrrrree 9

2.1.1 Phương pháp dựa trên đặc trưng ¿5:5 S+2c+ Street 9

2.1.2 Phương pháp dựa trên CNN

2.1.3 Phương pháp dựa trên RNN hoặc LSTM -. ¿+55 5+ Se+t+xrrersrerrrrer 9

2.1.4 Phương pháp dựa trên BEERTT, - - - ¿St SEk*k E121 1y 10

2.2 Các nghiên cứu trong TƯỚC -¿- + 5252 229*‡E#EtSE2E2EEEEEEEEEkeEEkrrkrkrrerree 10

2.2.1 Phương pháp lan truyền nhãn 2¿©©++++22EEE+tEEEEEEtrEEEEErrrrrrkrerrrrkk 10 2.2.2 Phương pháp dựa trên mệnh đề 2¿-©+++22EE++++EEEEEtrEEEESztrrrrkrrrrrrks 10

Trang 5

2.3.1 Mô hình 'TrannSfOTIN€T- ¿+ SE k1 E1 11T TH ng nưến II

2.3.1.1 Giới thiệu về Transformer c.scsccssssssesssessssesssssessssessssesssseessseessseessssecssseesssecsseeess 11

2.3.1.2 Kiến trúc mô hình Transformer -+£+22E+2vv+++r+ttvzvxvzrrrezrre 12

2.3.2 Mô hình BIERTT - - ¿1 2222.2322 9222121 7171.T21212 00 11212101 111110 re 16

2.3.2.1 Giới thiệu về mô hình BERIT .2¿ 222++2222++222S2++ttEvvvrrrsrrvrrrrrres 16 2.3.2.2 Kiến trúc của BERT co c c2 E iiiiiiriie 17 2.3.2.3 Cách huấn luyện mô hình BERT -++£222©vvvvvrre+tttrrrverrrrrrte 17

2.3.8 Phân giải đồng tham chiều -2-©222+2222+++222ES++ttEEEEEvetEEEvrrrrrrkrrrrrrek 26

2.3.8.1 Giới thiệu CR trong rút trích quan hệ

2.3.8.2 Phương pháp CR trong văn bản tiếng Việt đề xuất -cccc -e, 29

Chương 3 XÂY DỰNG BỘ DU LIỆU 22-222¿222222+SEEESE+2EEEESEtrerrrrerrrrex 32

3.1 Bộ dữ liệu rút trích quan hệ UIT-ViRLE - ¿+2 +52 + ++t+++£vxsrererkersrerxre 32

3.2 Bộ dữ liệu phân giải đồng tham chiếu UIT-ViCR ¿ ccccczz+e 37 Chương 4 PHƯƠNG PHAP, KET QUA THU NGHIỆM VA UNG DUNG MINH

HỌA 5 tt HH HH HH HH HH0 HH 39

4.1 Phương pháp đánh giá - 5c St re 39

4.2 Kết quả thử nghiệm -2222+++222222Y22 2222211111112 cm 42

Trang 6

4.3 Xây dựng hệ thống minh họa 2¿©2+++22EE++++E2EE++tt2EEEEvettrrvrrrrrrrree 44

Trang 7

Danh mục các kí hiệu và chữ viết tắt

BERT: Bidirectional Encoder Representations from Transformers

CNN: Convolutional Neural Network

CR: Coreference Resolution

LSTM: Long Short Term Memory

MLE: Maximum Likelihood Estimation

MLM: Masked Language Model

NE: Named Entity

NER: Named Entity Recognition

NLP: Natural Language Processing

NSP: Next Sentence Prediction

RE: Relation Extraction

VLSP: Vietnamese Language and Speech Processing

Trang 8

Danh mục các bảng

Bảng 2.1 Các chỉ số về kiến trúc của BERT-base và BERT-large -. 17 Bảng 2.2 So sánh hiệu suất của BERT và XLNet trên cùng một dữ liệu huấn luyện và

bon 23

Bảng 2.3 Minh họa gán nhãn IOB cho các token

Bảng 2.4 Các kết quả đánh giá F1 cho các mô hình NER nổi bật - 26

Bảng 3.1 Cấu trúc của bộ dit liệu UIT-ViCR 5c5cccvcvcceerrerrrrrrrrirrrrrrrrrrree 37

Bang 4.1 Kết quả đánh giá các mô hình rút trích quan hệ -: ++ 4 Bảng 4.2 Kết quả đánh giá của mô hình CR được đề xuất -:-c-+ 43

Trang 9

Danh mục các hình vẽ

Hình 2.1 Kiến trúc mô hình Transformer - -:-+¿++z+22v++++2tvvvrezrrseee 12 Hình 2.2 Biểu diễn 3 vector Query, Key, Value và 3 ma trận trọng số Wg, Wk, Wv 13

Hình 2.3 Các từ trong dữ liệu đầu vào tương ứng với vector Key, Query và Value 13

Hình 2.4 Quá trình tính toán kết quả của Self-Attention .-:2ccsccc+cc++ 14

Hình 2.5 Minh họa xử lý của Multi-head Attention 6 -ccscrerrkerererree 15

Hình 2.6 Sơ đồ kiến trúc BERT cho nhiệm vụ MLM -cccccccccccccccvcee 18

Hình 2.7 Minh họa xử lý MLM - 6 kg ngư 19 Hình 2.8 Minh họa xử lý NSP - Sàn HH HH r 19

Hình 2.9 Đại diện đầu vào của BERT cccckrkkkiiiiiiirrirrrrrrrrrrrriirriie 20

Hình 2.10 Kiến trúc pre-training trong BERT -cz2222v+vscccczzez 20

Hình 2.11 Minh họa việc huấn luyện mô hình SpanBERTT :- + 2

Hình 2.12 Quá trình xử lý CTR -¿- ¿E21 E k1 1 1 1 1 H1 HH ngư 27

Hình 2.13 Ví dụ minh họa kết quả của RE trước khi áp dụng CR - 28

Hình 2.14 Ví dụ minh họa kết quả của RE sau khi áp dụng CR : 28 Hình 2.15 Kết quả căn chỉnh từ của các token ở cấp độ âm tiết - 30 Hình 2.16 Kết quả căn chỉnh từ của các token ở cấp độ từ - c:-cssc+ 30

31

Hình 3.1 Cấu trúc dữ liệu dạng JSON thể hiện quan hệ của một cặp NE 33

Hình 3.2 Minh họa dữ liệu định dạng WebAnno TSV 3.2 cho RE (phan dau) 35

Hình 3.3 Minh họa dữ liệu định dang WebAnno TSV 3.2 cho RE (có chứa các quan

Hình 2.17 Sơ đồ mô tả các bước xử lý CR cho văn bản tiếng Việt

Hình 4.1 Các phân vùng của K và R - 22+ St 2t t2 2e 40

Hình 4.2 Các bước xây dựng ứng dụng sử dụng mô hình rút trích quan hệ 45

Hình 4.3 Kết quả thu thập dữ liệu từ web -c¿£222222vv+rttttvvvvvrrrrrrrrrrxes 46 Hình 4.4 Kết quả lây dữ liệu từ file sẵn có -22¿++222+++zeEvxverrerrrrerrrres 47

Trang 10

MỞ ĐẦU

Rút trích quan hệ là một trong những bài toán quan trọng trong xử lý ngôn ngữ tự nhiên

(NLP) Nó là bài toán con của bài toán trích xuất thông tin, được ứng dụng rộng rãi trong

nhiều bài toán như sơ đồ tri thức, hỏi đáp tự động, tóm tắt văn ban, Với sự phát triển

không ngừng của dữ liệu, đặc biệt là dữ liệu dạng văn bản, bài toán này càng nhận được

sự quan tâm hơn đối với các nhà nghiên cứu cả trong và ngoài nước Tuy nhiên, số lượng các nghiên cứu về bài toán rút trích quan hệ trong văn bản tiếng Việt vẫn còn hạn chế so

với các ngôn ngữ khác như tiếng Anh, tiếng Trung, Do đó, luận văn nghiên cứu sâu

hơn về đề tài này.

Cấu trúc luận văn gồm 5 chương:

Chương 1: Tổng quan - Giới thiệu bài toán rút trích quan hệ trong văn bản tiếng Việt va

các bài toán có liên quan; trình bày các mục tiêu, phạm vi nghiên cứu, ý nghĩa khoa học

và ý nghĩa thực tiễn của đề tài.

Chương 2: Các công trình liên quan - Trình bày một số công trình nghiên cứu trong và

ngoài nước và chỉ tiết các cơ sở lý thuyết.

Chương 3: Xây dựng bộ dữ liệu - Mô tả và trình bày quá trình xây dựng bộ dữ liệu rút

trích quan hệ UIT-ViRE và bộ dữ liệu phân giải đồng tham chiếu UIT-ViCR.

Chương 4: Phương pháp, kết quả thử nghiệm và ứng dụng minh họa - Trinh bày phương pháp và kết quả thử nghiệm cho bài toán rút trích quan hệ, bài toán phân giải đồng tham

chiếu và ứng dụng minh họa cho bài toán rút trích quan hệ.

Chương 5: Kết luận và hướng phát triển - Tông hợp các kết quả đã đạt được và đề xuất

các hướng phát triển tiếp theo.

Trang 11

Chương 1 TONG QUAN

Tom tắt chương:

Chương này trình bày tổng quan về bài toán rút trích quan hệ giữa các thực thể trong

văn bản tiếng Việt và các bài toán có liên quan Chương này cũng đề cập phạm vi, mục tiêu nghiên cứu, ý nghĩa thực tiễn và ý nghĩa khoa hoc cua đề tài.

1.1 Giới thiệu bài toán

Rút trích quan hệ là nhiệm vụ tìm và phân lớp các quan hệ ngữ nghĩa giữa các thực thể văn bản như quan hệ con cái, công việc, bộ phận - toàn thẻ, và quan hệ không gian địa

Xét ví dụ sau: “Năm 2010, Trần Ngọc Anh đã thành lập Công ty Ngôi Sao Trẻ.” Khi đó, kết quả sau rút trích sẽ là:

- FounderOf (Trần Ngọc Anh, Công ty Ngôi Sao Trẻ): đây là quan hệ giữa người sáng

lập và tổ chức.

- FoundedIn (Công ty Ngôi Sao Trẻ, 2010): đây là quan hệ giữa tổ chức và thời gian

thành lập.

Trước khi rút trích quan hệ giữa các thực thể, ta cần xử lý một số bài toán khác có liên

quan như tách từ, nhận dạng thực thé (NER), xử ly đồng tham chiếu (CR) Trong đó:

- Tách từ: nhiệm vụ chính là tách một văn bản thành những token (từ hoặc âm tiếu) riêng

lẻ Ranh giới giữa các từ ở trong tiếng Việt thông thường không phải là khoảng trắng do

cấu trúc của chúng có thé được thé hiện bằng một hoặc nhiều âm tiết (từ đơn hoặc từ ghép, từ láy) Tách từ có ý nghĩa trong bài toán nhận dạng thực thể, từ đó làm cơ sở để xác định các quan hệ giữa các thực thê đó.

- Nhận dạng thực thể: là bài toán tìm các từ hoặc cụm từ trong một văn bản được xem là thực thé (NE) và phân loại chúng vào những nhóm được xác định trước như thời gian,

Trang 12

- Phân giải đồng tham chiếu (Coreference resolution): là bài toán xác định hai hoặc

nhiều cụm từ cùng nói đến một thực thé trong một văn bản Đồng tham chiếu có ảnh hưởng đáng kể đến bài toán rút trích quan hệ Nó không những có thẻ giúp rút trích được nhiều quan hệ hơn mà còn giúp liên kết các quan hệ của các thực thể có cùng tham chiều, làm giảm vấn đề phân mảnh các quan hệ được rút trích.

1.2 Mục tiêu và phạm vi nghiên cứu

Mục tiêu nghiên cứu:

- Xây dựng bộ dữ liệu rút trích quan hệ UIT-ViRE từ việc chuẩn hóa bộ dữ liệu rút trích

quan hệ VLSP2020 và xây dựng bộ đữ liệu phân giải đồng tham chiếu UIT-ViCR.

- Nghiên cứu, đánh giá phương pháp phân giải đồng tham chiếu trên văn bản tiếng Việt

dé phục vụ bài toán rút trích quan hệ dựa trên mô hình phân giải đồng tham chiếu trên văn bản tiếng Anh với bộ dữ liệu UIT-ViCR.

- Nghiên cứu, đánh giá một số phương pháp rút trích quan hệ dựa trên mô hình dựa trên

BERT riêng lẻ và kết hợp (ensemble) trên bộ dữ liệu UIT-ViRE.

Pham vi nghiên cứu:

- Rút trích các quan hệ trong phạm vi từng câu.

- Các loại thực thể được giới hạn chỉ gồm 3 loại: người (PER), tổ chức (ORG), địa danh

(LOC).

- Các quan hệ được nghiên cứu trong đề tài được tham khảo từ công trình [17], gồm 8

loại sau LOCATED, IS LOCATED, PART WHOLE, WHOLE_PART,

PERSONAL_SOCIAL, AFFILIATION, AFFILIATION_TO, OTHERS Trong đó:

+ LOCATED: là quan hệ thé hiện vị trí thực tế của một người tại một địa danh hoặc quan hệ giữa một tổ chức và địa danh kinh đoanh nơi đặt trụ sở (PER-LOC, ORG-

LOC).

+IS_LOCATED: tương tự như quan hệ LOCATED nhưng đảo ngược thứ tự các

Trang 13

e _ Nếu xét cặp thực thé theo thứ tự Trần Hùng, Bình Dương thì ta có quan hệ

chức khác; hoặc quan hệ liên kết các quan hệ hành chính và các quan hệ thứ bậc khác

giữa các tô chức (LOC-LOC, ORG-ORG, ORG-LOC).

+ WHOLE_PART: tương tự như quan hệ PART_WHOLE nhưng đảo ngược thứ

tự các thực thể (LOC-LOC, ORG-ORG, LOC-ORG) Ví dụ: Ông Tran Hùng quê ở Di

+ PERSONAL_SOCIAL: là quan hệ thé hiện quan hệ giữa hai người trong quan

hệ nghề nghiệp, chính trị hoặc kinh doanh; hoặc quan hệ gia đình, họ hàng; hoặc quan

hệ cá nhân khác (PER-PER) Quan hệ này không có hướng Ví dụ: Bà Phạm Thị Hong

là trợ lý của ông Bài Công Tân Khi đó, xét cặp thực thé theo thứ tự Phạm Thị Hồng và

Bùi Công Tân hay Bùi Công Tân và Phạm Thị Hồng thì đều có quan hệ

PERSONAL_SOCIAL.

+ AFFILIATION: là quan hệ giữa một người va tổ chức sử dụng lao động hay

thuộc sở hữu của người đó hoặc tổ chức mà người đó là thành viên; hoặc quan hệ giữa

người sáng lập / nhà đầu tư và một tổ chức; hoặc quan hệ giữa một người và một cơ sở

giáo dục mà người này đã hoặc đang theo học; hoặc quan hệ giữa một vị trí địa chính trị

Trang 14

+ AFFILIATION_TO: tương tự như quan hệ AFFILIATION nhưng đảo ngược

thứ tự các thực thê (ORG-PER, LOC-PER, ORG-ORG, ORG-LOC) Ví dụ: Năm 2010, Tran Ngoc Anh đã thành lập Công ty Ngôi Sao Trẻ.

¢ Nếu xét cặp thực thé theo thứ tự Trần Ngọc Anh, Công ty Ngôi Sao Trẻ

thì ta có quan hệ AFFILIATION.

e Ngược lại, nếu xét cặp thực thé theo thứ tự Công ty Ngôi Sao Trẻ, Tran

Ngọc Anh thi ta có quan hệ AFFILIATION_TO.

+ OTHERS: các thực thé dang quan sát không thuộc các loại quan hệ trên.

1.3 Ý nghĩa thực tiễn - khoa học

1.3.1 Ý nghĩa thực tiễn

Vé mặt thực tiễn, rút trích quan hệ ứng dụng nhiều trong các lĩnh vực bao gồm:

- Khai phá dữ liệu từ Web (Web mining): nghiên cứu đối thủ cạnh tranh, rút trích tên

người nổi tiếng, các sản phẩm đang thịnh hành, so sánh giá ca sản phẩm, phân tích tâm

lý của khách hàng.

- Trí tuệ doanh nghiệp (Business intelligent): đánh giá thông tin thị trường từ các điều

luật mới trong thị trường kinh doanh, các thông tin về chính trị giữa các nước

1.3.2 Ý nghĩa khoa học

Về khía cạnh khoa học, luận văn có những đóng góp sau:

- Nắm được tình hình nghiên cứu trong nước và trên thế giới, cũng như xu hướng phát

triển của bài toán rút trích quan hệ và các bài toán có liên quan như đồng tham chiếu.

- Thảo luận, đánh giá phương pháp rút trích quan hệ và phương pháp phân giải đồng tham chiếu và đề xuất các hướng phát triển tiếp theo của đề tài.

Trang 15

Chương 2 CÁC CÔNG TRÌNH LIÊN QUAN

Tóm tắt chương:

Chương này trình bày tình hình các nghiên cứu trên thế giới và trong nước về bài toán

rút trích quan hệ Bên cạnh đó, chương này cũng trình bày một số nội dung cơ sở lý

thuyết liên quan.

2.1 Các nghiên cứu trên thế giới

Một số phương pháp được sử dụng trên thế giới cho bài toán RE gồm:

2.1.1 Phương pháp dựa trên đặc trưng

Đây là phương pháp học máy có giám sát Ý tưởng chính dựa vào các đặc trưng ngữ nghĩa và cú pháp được rút trích từ văn bản dé quyết định xem các thực thé trong câu có quan hệ với nhau hay không [7] Các đặc trưng cú pháp được rút trích trong câu bao gồm

chính các thực thé đang quan sát, loại của các thực thê, trình tự từ giữa các thực thể, số lượng từ giữa các thực thể và đường dẫn trong cây phân tích cú pháp có chứa hai thực

thể Các đặc trưng ngữ nghĩa bao gồm đường dẫn giữa hai thực thể trong phân tích cú

pháp phụ thuộc Cả hai đặc trưng ngữ nghĩa và cú pháp đưa vào bộ phân lớp dưới dạng

một vector đặc trưng dé huấn luyện hoặc phân loại.

2.1.2 Phương pháp dựa trên CNN

Mô hình đầu tiên sử dung CNN trên RE được dé xuất boi Liu [13] Mô hình này biến

câu thành một loạt các word vector, được đưa vào CNN và lớp đầu ra softmax để có xác suất phân loại Phương pháp này vẫn phụ thuộc vào các bộ công cụ NLP, hầu như không

xem xét ngữ nghĩa, cấu trúc mô hình và lựa chọn đặc trưng [26] Về sau, phương pháp dựa trên CNN cũng có nhiều cải tiến, nhưng nhìn chung phương pháp này chưa nắm

được thông tin ngữ cảnh và chưa xử lý tốt cho các văn bản dài.

2.1.3 Phương pháp dựa trên RNN hoặc LSTM

Dé học các quan hệ trong một ngữ cảnh dài và xem xét thông tin vị trí của các từ, kiến

Trang 16

độ câu Ở cuối mô hình, nó tiến hành max-pooling để chọn một số đặc trưng đề dự đoán Bên cạnh đó, mô hình RNN cho thay van dé vé su bing nổ gradient hoặc triệt tiêu gradient Do đó, mô hình LSTM ra đời đề giải quyết vấn đề này và sau đó Xu [27] dựa trên mô hình LSTM dé dé xuất mô hình mới SDP-LSTM Mô hình này tận dụng bốn loại thông tin: vector từ, thé gan nhãn từ loại, quan hệ ngữ pháp va WordNet dé xây dựng bốn kênh Sau đó, nó nối kết quả của bốn kênh với lớp softmax dé dự đoán Mô hình này

xem xét rat nhiều cú pháp và thông tin ngữ nghĩa bổ sung nhưng cũng khá phức tạp Bên

cạnh đó, một hạn chế chung cho cả hai phương pháp này là chuỗi dữ liệu đầu vào được đưa vào xử lý tuần tự nên không tận dụng hiệu quả khả năng tính toán song song của máy tinh dẫn đến tốc độ huan luyện chậm.

2.1.4 Phương pháp dựa trên BERT

Gần đây, việc sử dụng mô hình dựa trên BERT cho các bài toán phân loại đã đạt được

những kết quả ấn tượng, trong đó có bài toán rút trích quan hệ Một số mô hình dựa trên

BERT được sử dụng trong bài toán rút trích quan hệ như ALBERT, BioBERT, XLNet

Đặc biệt, việc kết hợp các mô hình dựa trên BERT đã và đang mở ra một hướng tiếp cận

tiếp theo đê cải thiện hiệu quả các mô hình trong nhiều bài toán khác nhau 1221.

2.2 Các nghiên cứu trong nước

2.2.1 Phương pháp lan truyền nhãn

Đây là phương pháp học máy bán giám sát Xét dé thị G = (V, E), với V là tập các nút

chứa các dữ liệu huấn luyện đã được gán nhãn một phần Mỗi nút tương ứng với một

câu và các cạnh E cho thấy độ tương đồng của các dữ liệu đó Ý tưởng là lan truyền nhãn

ở mỗi nút cho cho các nút kế bên đó và lặp lại quá trình này cho đến khi đã gán nhãn cho toàn bộ những điểm trong đồ thị [2].

2.2.2 Phương pháp dựa trên mệnh đề

Phương pháp dựa trên mệnh đề (clause-based) được Diem [23] đề xuất, tập trung vào

việc khai thác việc phân tích cú pháp tiếng Việt bằng cách sử dụng các mệnh đề ngữ

Trang 17

pháp dé xem xét tat cả các quan hệ có thé có trong một câu Tuy nhiên, phương pháp nay

còn nhiều hạn chế với những câu dài và có cấu trúc phức tạp.

2.2.3 Phương pháp kết hợp các mô hình dựa trên BERT

- Phương pháp kết hợp R-BERT và BERT-ES: Hướng tiếp cận này được đề xuất bởi Minh [19] Cả hai mô hình R-BERT và BERT-ES đều tăng cường ngữ nghĩa giữa các từ

trong câu theo hai chiều và khai thác năng lực tính toán song song của máy tính Phương

pháp này sử dụng “âm tiết” là đơn vị cơ bản của câu Kết quả F1 micro trung bình đạt

67.56% trên bộ Test của bộ dữ liệu VLSP2020.

- Phương pháp kết hợp PhoBERT [15] và XLM-RoBERTa [8]: Hướng tiếp cận này được

đề xuất bởi Thuật [17] Phương pháp này sử dụng “từ” làm đơn vị cơ bản và áp dụng

kết hợp mô hình XLM-RoBERTa và PhoBERT Kết quả đánh giá với F1 micro trung bình đạt 72.06% trên bộ Test của bộ dữ liệu VLSP2020 Phương pháp này đạt giải nhất

trong cuộc thi về RE trong văn bản tiếng Việt do VLSP tổ chức.

2.3 Cơ sở lý thuyết

2.3.1 Mô hình Transformer

2.3.1.1 Giới thiệu về Transformer

Transformer là mô hình học sâu có giám sát được ra đời năm 2017 bởi một nhóm tác giả tại Google Brain Transformer cho phép xử lý song song dữ liệu nên làm giảm thời gian

huấn luyện thay vì xử lý tuần tự như RNN Transformer sử dụng cơ chế multi-head attention đề giữ lại quan hệ của các từ trong văn bản, đồng thời áp dụng mạng thần kinh

self-truyền thang (feedforward neural network) dé biến đổi đầu ra của cơ chế attention.

Một số ứng dụng của mô hình Transformer như:

- Dịch văn bản và lời nói gần như theo thời gian thực, mở các cuộc họp và lớp học trực tuyến cho những người khiếm thính.

- Giúp các nhà nghiên cứu hiéu được chuỗi gen trong DNA và axit amin trong protein

Trang 18

- Phát hiện các xu hướng và điểm bat thường dé ngăn chặn gian lận, đưa ra khuyến nghị

trực tuyến hoặc cải thiện chăm sóc sức khỏe.

- Mô hình được tích hợp trong công cụ tìm kiếm của Bing và Google.

2.3.1.2 Kiến trúc mô hình Transformer

Kiến trúc Transformer tuân theo cấu trúc bộ Encoder-Decoder.

Hình 2.1 Kiến trúc mô hình Transformer [5]

Bộ Encoder: nhận chuỗi đầu vào và chuyển đổi chúng thành chuỗi biéu diễn liên tục Encoder bao gồm 6 layer xếp chồng lên nhau và áp dụng những phép biến đổi tuyến tính

cho toàn bộ các từ trong chuỗi đầu vào, nhưng mỗi layer sử dụng trọng số, bias khác nhau và bao gồm 2 sub-layer là Multi-Head Self-Attention và Fully Connected Feed-

Forward Sau quá trình Encoder thu được các embedding vector ứng với các từ (word

embedding), sau đó được đưa vào khối Decoder Trong Encoder, nhờ cơ chế

self-attention giúp nó chú ý đến các từ khác khi mã hóa một từ nên mô hình có thé học ngữ

Trang 19

Quá trình self-attention gồm 4 bước [6]:

Bước 1: Xây dựng bộ ba vector Query, Key và Value từ các vector đầu vào của Encoderbằng cách nhân ma trận vector đầu vào với các ma trận trọng sỐ Wq, Wk, Wv được khởitạo ngẫu nhiên Ba ma trận Wq, Wk, Wv chính là những hệ số mà mô hình cần huấn

Trang 20

Bước 2: Tính điểm của từng từ với tất cả các từ trong câu để giúp xác định quan hệ ngữcảnh giữa từ đó với các từ trong câu Cách tính điểm được xác định bằng tích vô hướng

của vector Query của từ đang quan sát và các vector Key tương ứng với mỗi từ trong

bỏ qua những từ không liên quan.

{Attention layer output)

Hình 2.4 Quá trình tính toán kết qua của Self-Attention [5]

Như vậy, phương trình Attention được biểu diễn như sau:

T

Attention(Q, K,V) = Softmax (=) V (2.1)

Trong đó:

Q: ma trận với mỗi dòng là một vector Query biểu diễn cho các từ đầu vào

K: ma trận với mỗi dòng là một vector Key biểu diễn cho các từ đầu vào

V: ma trận với mỗi dòng là một vector Value biểu diễn cho các từ đầu vào

dx: số chiều của vector Key

Mỗi quá trình như vậy được gọi là 1 head của Attention Khi quá trình này lặp lại nhiềulần tạo ra quá trình Multi-head Attention Sau khi thu được ba ma trận Attention ở đầu

ra chúng ta nối các ma trận này theo các cột dé thu được ma trận tong hop multi-headmatrix với chiều cao bằng chiều cao ma trận ban đầu Tiếp đó, nhân ma trận tổng hợp

Trang 21

với ma trận chuyên đôi Wo đê tạo ra ma trận kêt quả có sô chiêu băng sô chiêu của ma

Hình 2.5 Minh họa xử lý cua Multi-head Attention [5]

Nhu vay, ma tran tong hợp có thể biéu diễn như sau:

Do Transformer vốn không thé năm bắt bat kỳ thông tin vị trí của các từ trong chuỗi vì

nó không sử dụng hồi quy nên thông tin vị trí phải được đưa vào bằng cách thêm

positional encoding (mã hóa vị trí) cho các embedding đầu vào.

Bộ Decoder (khôi bên phải của kiến trúc Transformer): nhận đầu ra của bộ Encoder cùng

với dau ra của của chính nó ở layer trước đó dé tạo ra chuỗi dau ra và đưa ra dự đoán Bộ

Decoder cũng có 6 layer liên tiếp giống nhau nhưng mỗi layer có 3 sub-layer:

- Masked Multi-Head Attention: Đây là sub-layer đầu tiên giúp bỏ qua các từ phía sau

khỏi quá trình attention.

Trang 22

- Multi-Head Attention: sub-layer thứ hai này hoạt động tương tự như sub-layer đầu tiêncủa bộ Encoder Cơ chế multi-head ở bộ Decoder nhận các truy vấn từ lớp con của bộDecoder trước đó cũng như các Key và Value từ kết quả của bộ Encoder Điều này cho

phép bộ Decoder chú ý đến tat cả các từ trong chuỗi đầu vào.

- Fully connected feed-forward: hoạt động tương tự như sub-layer thứ hai của bộ

Encoder.

Tóm lai, mô hình Transformer hoạt động theo các bước như sau [30]:

Bước 1: Chuyên đổi từng từ trong chuỗi đầu vào thành một embedding vector nhiềuchiều và được bổ sung thêm thông tin vị trí của từ bang cách kết hợp nó với một vector

mã hóa vi trí có cùng chiêu dài tạo thành các embedding vector tăng cường.

Bước 2: Đưa các embedding vector tăng cường vào bộ Encoder Bộ Encoder xử lý tất

cả các từ trong chuỗi đầu vào, bat ké chúng đứng trước hay đứng sau từ dang được xem

xét.

Bước 3: Bộ Decoder nhận đầu vào từ đầu ra dự đoán của chính nó và đầu vào của nócũng được tăng cường bằng vector mã hóa vi trí theo cách tương tự được thực hiện ở bộ

Encoder, sau đó được đưa vào ba sub-layer của bộ Decoder như đã giải thích ở trên Mặt

nạ được áp dụng trong sub-layer đầu tiên dé ngăn bộ Decoder sử dụng các từ tiếp theo

Ở sub-layer thứ hai, bộ Decoder cũng nhận đầu ra của bộ Encoder, nhưng giờ cho phép

bộ Decoder sử dụng tât cả các từ trong chuỗi đầu vào.

Bước 4: Cuối cùng, đầu ra của bộ Decoder đi qua một lớp fully connected, tiếp theo làlớp softmax, để tạo dự đoán cho từ tiếp theo của chuỗi đầu ra

2.3.2 Mô hình BERT

2.3.2.1 Giới thiệu về mô hình BERT

BERT là mô hình dựa trên Transformer nhưng chi sử dụng bộ Encoder dé biéu diễn từ

dưới dạng các vector theo ngữ cảnh hai chiều của từ [9] Các vector này có thể hiểu đượcngữ cảnh xung quanh của từ tốt hơn so với RNN, BiLSTM Bên cạnh đó, mô hình

Trang 23

cũng dựa trên Transformer nhưng chỉ sử dụng bộ Decoder đó là GPT Tuy nhiên, trong

khi GPT phù hợp cho các bài toán tạo ngôn ngữ như dịch thuật, hỏi đáp nhanh và sắp

xếp lại các từ thì BERT lại được sử dụng cho các bài toán cần hiểu sâu về ngữ cảnh trong

văn bản, các bài toán phân loại.

BERT giới thiệu vào cuối năm 2018 bởi Google được ứng dụng trong các bài toán như:

- Phân tích cảm xúc.

- Dự đoán văn bản: Dự đoán văn bản của bạn khi viết email (Gmail)

- Tạo văn bản: Có thể viết một bài báo về bat kỳ chủ đề nào chỉ với một vài câu đầu vào

- Tóm tắt văn bản: Có thé nhanh chóng tóm tắt các hợp đồng pháp lý dài.

- Polysemy resolution: Có thể phân biệt các từ có nhiều nghĩa dựa trên văn bản xung

quanh.

2.3.2.2 Kiến trúc của BERT

Mô hình BERT có 2 kiến trúc là: BERT-base và BERT-large, trong đó, các chỉ số về

kiến trúc của chúng được thê hiện trong bảng bên dưới

Bảng 2.1 Các chỉ số về kiến trúc của BERT-base và BERT-large

Số lượng các Kích thước Số lượng head Số thamkhối Encoder | embedding vector | trong multi-head số

layer

BERToase 12 768 12 110 triệu

BERTuarge 24 1024 16 340 triệu

2.3.2.3 Cách huấn luyện mô hình BERT

Mô hình BERT huấn luyện song song 2 nhiệm vụ MLM và NSP

Chi tiết 2 nhiệm vụ này như sau:

Trang 24

- Masked Language Model (MLM): nhiệm vụ này thực hiện việc dự đoán các từ được

che trong câu Cụ thé, che đi 15% số từ trong câu dé đưa vào mô hình huấn luyện, sau

đó dự đoán những từ bị che đó dựa vào những từ còn lại Điều này khác với các mạngthần kinh hồi quy (RNN) truyền thống thường nhìn thấy các từ nối tiếp nhau hoặc với

các mô hình tự hồi quy như GPT che giấu các token trong tương lai MLM cho phép mô

hình học cách biểu diễn hai chiều của câu

†o vocab +

softmax

Hinh 2.6 So dé kién trac BERT cho nhiém vu MLM [4]

Trong so đô trên, W¿ là từ được che di, W’4 là từ can được dự đoán và O1, O2, O3, Oa,

Os là các embedding vector đại diện cho các từ trong câu đầu vào Mô hình BERT nhậntất cả đầu vào cùng một lúc và cũng tạo ra tất cả các đầu ra của nó đồng thời Bên dưới

là một ví dụ cho quá trình MLM.

Trang 25

you has the highest probability | you, they, your |

Hinh 2.7 Minh hoa xu ly MLM [32]

- Next Sentence Prediction (NSP): nhiệm vu bai toán nay là xác định hai câu được xét

có phải kế tiếp nhau hay không Đây là bài toán phân loại nhị phân với đầu vào chính làmột cặp câu đã được che một sỐ từ tương tự như MLM và đảm bảo sao cho 50% các câuthứ hai được chọn đúng là câu kế tiếp của câu thứ nhất Đối với 50% còn lại thì câu thứ

hai có thể được lựa chọn ngẫu nhiên Sau đó, tiền hành dự đoán câu thứ hai có đúng là

câu kế tiếp của câu thứ nhất không Nếu đúng trả về 1 còn sai trả về 0 Bên dưới là một

ví dụ cho quá trình xử lý của NSP.

A: Lan thích ăn các loại trái cây!

Trang 26

Vi dụ nối 2 câu “Hôm nay em đến trường” và “Mẹ dắt tay từng bước” thì thu được kếtquả là [CLS] Hôm nay em đến trường [SEP] Mẹ dắt tay từng bước [SEP]

Bước 2: Cộng vector Sentence Embedding và vector Positional Encoding cho từngvector đại diện của từng token trong câu dé bé sung thông tin vị trí của câu và vị trí từng

từ trong câu đã nôi ở bước 1 Sau đó đưa vào mô hình.

Hình 2.9 Đại diện đầu vào của BERT [32]

Bước 3: Lay két qua cua Encoder 6 token [CLS] da dugc chuyén đổi sang một vector có

hai phan tử và tính softmax trên vector đó dé xác định nhãn C cần tìm

Class Label

Sentence 1 Sentence 2

Hình 2.10 Kiến trúc pre-training trong BERT [32]

Có hai hướng tiếp cận đối với BERT:

Trang 27

- Trích xuất đặc trưng: sử dụng BERT làm mô hình trích xuất các đặc trưng với kiếntrúc của BERT được giữ nguyên và đầu ra của nó là các vector đặc trưng làm đầu vàocho các bài toán tiếp theo.

- Hiệu chỉnh mô hình: sửa đổi kiến trúc của mô hình (fine-tuning) bằng cách thêm một

số lớp vào cuối mô hình BERT Các lớp này tham gia vào việc huấn luyện lại mô hình

và giải quyết vấn đề cho các bài toán khác nhau

2.3.3 PhoBERT

PhoBERT là mô hình dựa trên BERT được huấn luyện trước trên dữ liệu tiếng Việt vớikhoảng 1GB dữ liệu được lay tu Wikipedia tiéng Việt và 19GB dữ liệu được thu thập từcác báo tin tức về tiếng Việt Cách tiếp cận mô hình này tương tự mô hình RoBERTa làchỉ áp dụng bài toán MLM và bỏ qua bài toán NSP Giống như mô hình BERT,PhoBERT có hai kiến trúc là: PhoBERT-base với 12 bộ Encoder và PhoBERT-large với

24 bộ Encoder PhoBERT đã cho thấy được sự hiệu quả trên bộ dữ liệu cấp độ từ.PhoBERT đã sử dụng mô hình VnCoreNLP — RDRSegmenter [25] của dé tách câu vatách từ ở cấp độ từ cho bộ dữ liệu đầu vào trước khi áp dụng cho việc huấn luyện Một

số kết quả vượt trội của PhoBERT trong một số bài toán xử lý ngôn ngữ cho tiếng Việt

- Suy luận ngôn ngữ tự nhiên (NLI) với FI đạt 78.5% trên PhoBERTuase và 80.0% trên

Với những kết quả trên cho thấy, đối với ngôn ngữ tiếng Việt, mô hình PhoBERT thấy

aaahon so trên bộ dữ liệu tách từ ở cap độ âm tiệt.

2.3.4 XLM-RoBERTa

Trang 28

Mô hình XLM-RoBERTa (XLM-R) [8] là mô hình đa ngôn ngữ dựa trên BERT được

huấn luyện trước trên 100 ngôn ngữ (có tiếng Việt) với hơn 2TB dữ liệu Tương tự mô

hình PhoBERT, mô hình XLM-R cũng có hai phiên bản (XLM-Ru¿se và XUM-R¿r;e) và được xây dựng trên mô hình RoBERTa của Facebook, chỉ áp dung bài toán MLM với

cơ chế dynamic masking, tức trong mỗi epoch các token được che trong câu không cố

định.

2.3.5 SpanBERT

SpanBERT được giới thiệu bởi Joshi và các cộng sự [11] năm 2020, là mô hình BERT

nhưng huấn luyện lại mô hình ở cấp độ cụm từ (span-level) SpanBERT giới thiệu khái

niệm Span-Boundary Objective (SBO) dé mô hình học cách dự đoán toàn bộ cum từ

được che từ ngữ cảnh của những token được quan sát trong biên của nó Ví dụ:

£(football) = £Zrw(football) + Zsnso(football)

— log P(football | xz) — log P(football | xạ, xạ, p3)

Hình 2.11 Minh họa việc huấn luyện mô hình SpanBERT

Ưu điển: Với bài toán đồng tham chiếu, SpanBERT có được kết quả cải thiện vượt trội

so với các phương pháp trước đó với F1 trung bình của ba độ đo MUC, B3, CEAF bằng

79.6%.

Nhược điểm: Chưa hỗ trợ ngôn ngữ tiếng Việt

2.3.6 XLNet

Trang 29

Mô hình XLNet được Google AT giới thiệu vào năm 2019, được mở rộng từ

Transformer-XL (mô hình tự hồi quy tiên tiến nhất) dé biểu diễn từ theo ngữ cảnh hai chiều thông qua

mô hình ngôn ngữ hoán vị [28] Mô hình ngôn ngữ hoán vị được huấn luyện dé dự đoán

một token đã được cho trước ngữ cảnh giống như mô hình ngôn ngữ truyền thống, nhưng thay vì dự đoán các token theo thứ tự tuần tự, nó dự đoán các token theo một số thứ tự

ngẫu nhiên Xem xét ví dụ sau dé làm rõ điều này: “Sometimes we have to be our own

hero” Nếu sử dụng mô hình truyền thống sẽ dự đoán các token theo thứ tự “Sometimes”,

“we”, “have”, “to”, “be”, “our”, “own”, “hero”, trong đó mỗi token sử dụng tất cả cáctoken trước đó làm ngữ cảnh Tuy nhiên, nếu ding mô hình ngôn ngữ hoán vi, thứ tự dựđoán không nhất thiết phải từ trái sang phải Ví dụ, nó có thé là “own”, “Sometimes”,

của toàn bộ các từ xung quanh.

Như vậy có thé thấy, XLNet là sự kết hợp của hai mô hình AR va AE để tạo ra mô hìnhmới tận dụng được những điểm mạnh của hai mô hình trên

Một vài kết quả thu được của XLNet trong những nhiệm vụ:

Bang 2.2 So sánh hiệu suất của BERT và XLNet trên cùng một dữ liệu huấn luyện và siêu

tham số.

Trang 30

Dựa vào bảng 2.1 có thé thay, XLNet vượt trội hon BERT một cách đáng kê trên các bộ

đữ liệu được xem xét.

2.3.7 Nhận dạng thực thể

Trước khi xử lý bài toán rút trích quan hệ, nhận dạng thực thé là một trong những bài

toán đầu tiên cần phải được giải quyết Nhận dạng thực thể (NER) là một bài toán con

của bài toán trích xuất thông tin trong lĩnh vực NLP nhăm tìm những từ hoặc cụm từtrong văn bản được xem là thực thê (NE) và phân loại chúng vào những nhóm được quyđịnh trước đó như tô chức (ORG), tên người (PER), thời gian (TIME), địa điểm (LOC),

tỷ lệ phần trăm (PERCENT), giá trị tiền tệ (MONEY) Kết quả của bài toán NER được

sử dụng trong nhiều bài toán khác phức tạp hơn như phân tích cảm xúc, search engine,

trong đó có bài toán rút trích quan hệ.

Đề gán nhãn cho các thực thể thường dùng nhãn I(Inside)-O(Outside)-B(Beginning)

[12] Với mỗi thực thể kiểu W (đại diện cho PER, LOC, ORG, ), ta có hai nhãn B-W

và I-W, trong đó nhãn B-W là đánh dấu bắt đầu của thực thé kiều W, I-W là phần bêntrong của thực thé kiêu W Bên cạnh đó còn có nhãn O đánh dấu không phải thực thé

Xem ví dụ trong bảng bên dưới.

Bảng 2.3 Minh họa gán nhãn IOB cho các token

Các token Nhãn IOB

Kiên B-LOC

Trang 31

Một số trường hợp sử dụng NER bao gồm:

- Tuyển dụng: Giúp day nhanh quá trình tuyển dụng bang cách tóm tắt CV của ứng

viên; cải thiện quy trình công việc nội bộ bằng cách phân loại các khiếu nại và thắc mắc

của nhân viên.

- Hỗ trợ khách hàng: Giúp cắt ngắn thời gian phản hồi bằng cách phân loại yêu cầu,

khiếu nại và câu hỏi của người dùng và lọc theo từ khóa ưu tiên.

- Công cụ khuyến nghị và tìm kiếm

- Chăm sóc sức khỏe: Cải thiện các tiêu chuân chăm sóc bệnh nhân và giảm khôi lượng

công việc bằng cách trích xuất thông tin cần thiết từ các báo cáo trong phòng thí nghiệm

- Giáo dục: Cho phép sinh viên và nhà nghiên cứu tìm tài liệu liên quan nhanh hơn bằngcách tóm tắt những tài liệu và bài báo đã lưu trữ và làm nồi bật các thuật ngữ, chủ đề

chính.

- Chatbot: Xác định những thực thé liên quan được nhắc đến trong cuộc hội thoại của

người dùng Điều này giúp hiểu ngữ cảnh câu hỏi người dùng và cải thiện câu trả lời của

họ.

Các phương pháp được áp dụng trong NER:

- Dựa trên đặc trưng

Trang 32

- Dựa trên quy tắc

- Phương pháp sử dụng mạng noron

Một số mô hình NER nỗi bật trong tiếng Việt:

Bang 2.4 Các kết quả đánh giá F1 cho các mô hình NER nổi bật

2.3.8 Phân giải đồng tham chiếu

2.3.8.1 Giới thiệu CR trong rút trích quan hệ

Ngoài việc phụ thuộc vào NER, kết quả của RE còn phụ thuộc vào kết quả của việc xử

lý phân giải đồng tham chiếu trong văn bản Phân giải đồng tham chiếu (CR) là bài toánxác định hai hoặc nhiều cụm từ cùng đề cập đến một thực thể cụ thé trong một văn bản

Sơ đồ hình 2.12 cho thấy quá trình xử lý CR.

Theo Yannick [24], CR được sử dụng trong nhiều bài toán liên quan khác như: hỏi đáp

tự động, trích xuất thông tin, tự động sinh các biéu diễn tương đương của đoạn văn bản,tóm tắt văn bản

Trang 33

Văn bản đâu vào |

Một số loại đồng tham chiếu:

- Tham chiếu đồng nhất (Identity coreference)

Ví dụ: Bà Trương Mỹ Linh là một họa sĩ nỗi tiếng Bà ấy còn có giọng hát rất hay

- Tham chiếu bộ phận-toàn thé (Part/whole coreference)

Vi dụ: Hùng va Hoa là đôi bạn thân từ thời cấp 3 Ho đã kết hôn vào tháng trước

- Tham chiếu cùng chủng loại (Type-token coreference)

Ví dụ: Người đàn ông đưa tiền lương của mình cho vợ được cho là khôn ngoan hơn

người đàn ông đưa nó cho tình nhân.

- Hoán vụ (Metonymy): Tham chiếu một thứ nay đến một thứ khác dựa trên sự liên kết

hoặc mức độ gân gũi của chúng.

Ví dụ: Phạm Hữu Danh là một trong những ngôi sao của đội tuyên bóng đá Việt Nam.Chân sút xứ Nghệ này đã nhiều lần nhận danh hiệu Cầu thủ xuất sắc nhất

- Quan hệ sở hữu (Possessive relations)

Ví dụ: Bạn Trần Nguyên Phương, học sinh trường Nguyễn Binh Khiêm đã thi đậu môn

tiếng Anh với điểm số cao nhất trường Theo cha của bạn, Phương học tiếng Anh từnăm lớp 1.

Trang 34

Phân giải đồng tham chiếu thé hiện sự kết nối giữa các cụm từ trong một câu cũng như

giữa những câu chứa những cụm từ đó Do đó, nếu xác định được kết nối đó sẽ làm tănghiệu quả cho bài toán RE Nó không những có thể giúp rút trích được nhiều quan hệ hơn

mà còn làm tăng môi liên kêt gitra các quan hệ của những thực thê có cùng tham chiêu.

Ví dụ: Ông Lê Văn Sáu là trợ lý của ông Trần Nguyên Anh Ông Sáu quê ở Bến Tre.Nếu không xử lý đồng tham chiếu thì chỉ rút trich được quan hệPERSONAL_SOCIAL(Ong Lê Văn Sáu, ông Trần Nguyên Anh), LOCATED(Ông Sáu,Bến Tre) Các thực thể Ông Lê Văn Sáu và Ông Sáu được xem như là hai thực thé khác

Hình 2.13 Ví dụ minh họa kết qua của RE trước khi áp dung CR

Tuy nhiên sau xử lý, các quan hệ được rút trích bao gồm: PERSONAL_SOCIAL(Lé Văn

Sáu, Trần Nguyên Anh), LOCATED(Lê Văn Sáu, Bến Tre) Khi đó, thực thé Ông Lê

Van Sau trong cả hai quan hệ trên cùng là một thực thê (hình 2.14)

PERSONAL-SOCIAL LOCATED

ông Tran Nguyên Anh

Hình 2.14 Ví dụ minh họa kết quả của RE sau khi áp dụng CR

Từ các ví dụ trên chứng minh việc xử lý CR có tác động đáng kê đến bài toán rút trích

quan hệ.

Trang 35

2.3.8.2 Phương pháp CR trong văn bản tiếng Việt đề xuất

Có một số phương pháp CR đã được nghiên cứu như phương pháp xếp hạng [14], phương

pháp máy vector hỗ trợ (SVM) [3], phương pháp sử dụng mô hình SpanBERT [11] Tuy

nhiên, những phương pháp đó chủ yếu được áp dụng cho văn bản tiếng Anh Do đó, luậnvăn này đề xuất phương pháp xử lý CR cho văn bản tiếng Việt từ việc tận dụng mô hình

CR cho ngôn ngữ tiếng Anh có sẵn Ý tưởng của phương pháp này được tham khảo từ cách xây dựng bộ dữ liệu đồng tham chiếu cho tiếng Việt [1] với đầu vào là văn bản

tiếng Việt, đầu ra là những cụm đồng tham chiếu với văn bản tiếng Việt sau xử lý CR.Phương pháp đề xuất gồm 6 bước xử lý như sau:

Bước 1: Sứ dụng mô hình vinai-translate-vi2en [16] dé dịch văn bản tiếng Việt T sangvăn bản tiếng Anh S Mô hình vinai-translate-vi2en là mô hình dịch văn ban từ ngôn ngữtiếng Việt sang tiếng Anh tiên tiến nhất ở thời điểm hiện tại, vượt trội hơn Google Dịch

trong cả đánh giá dựa trên BLEU score và đánh giá của con người Mô hình này được

tích hợp trong hệ thống VinAI Translate (https://vinai-translate.vinai.io)

Bước 2: Tir văn ban tiếng Anh S, sử dụng mô hình SpanBERT-large [11] để rút tríchcác cụm đông tham chiếu kèm theo danh sách từ đã được tách từ S SpanBERT cải thiệnđáng kê kết quả đạt được trong bài toán CR với văn bản tiếng Anh so với mô hình trước

đó với F1 đạt 79.6% (kết quả tốt nhất trước đó là 73.0%).

Bước 3: Tách từ văn bản tiếng Việt T với thư viện UITws-v1 [18] UITws hiện tai là mô

hình tiên tiến nhất cho việc tách từ cho văn bản tiếng Việt với F1 score đạt 98.06%

Bước 4: Xác định các quan hệ dịch thuật giữa các từ của S và T bằng việc sử dụng công

cụ Awesome-alien [10] Awesome-align (Aligning Word Embedding Spaces Of

Multilingual Encoders) là công cụ có thé trích xuất word alignment, được xây dựng từviệc tinh chỉnh mô hình mBERT [20] trên kho ngữ liệu song song dé có kết quả tốt hơn.Theo Dat [15], các mô hình xử lý ngôn ngữ tiếng Việt được huấn luyện trước trên bộ dit

liệu được tách từ ở cấp độ từ hiệu quả hơn so với việc huấn luyện trên bộ dữ liệu đượctách từ ở cấp độ âm tiết Do đó, luận văn đã thử nghiệm việc tách từ ở cấp độ từ trước

Trang 36

khi tích hợp voi cong cu Awesome-align.

Xét ví du sau: T: “Hiện tại, cô gái khỏe nhiều hon so với những ngày trước đây ” va S:

“Currently, the girl is much healthier than in the past days.” Khi đó, mối quan hệ giữa

các token sau tách từ ở cấp độ âm tiết và cấp độ từ được thể hiện trong hai hình bên dưới.

Hiện tại khỏe nhiều hơn với những eee :

Currently the girl much healthier than in the past days :

Hình 2.15 Kết quả căn chỉnh từ của các token ở cấp độ âm tiết

Hiện tại a cô gai khoe nhiéu hon so với những ngày trước đây F

Currently ` the girl is much healthier than in the past days

Hình 2.16 Kết qua căn chỉnh từ của các token ở cấp độ từ

Bước 5: Ánh xạ các cum đồng tham chiếu được rút trích từ tiếng Anh sang tiếng Việt.Dựa trên các cụm đồng tham chiếu trong S và kết qua word alignment ở bước 4 dé xácđịnh các cụm đồng tham chiếu trong T

Bước 6: Xác định ngữ danh từ trung tâm và thay thế các ngữ danh từ khác trong từng

cum đồng tham chiếu Việc xác định ngữ danh từ trung tâm được thực hiện theo quy tắc sau: Ngữ danh từ trung tâm phải chứa NE, trường hợp tất cả các ngữ danh từ trong cụm

đều không chứa NE thì bỏ qua cụm đó bởi vì nó không phục vụ cho bài toán rút tríchquan hệ Nếu có nhiều ngữ danh từ trong cụm đều chứa NE thì chọn ngữ danh từ dàinhất làm ngữ danh từ trung tâm Hình 2.16 minh họa các bước xử lý CR cho bài toán rút

trích quan hệ.

Trang 37

(3) Tách từ văn bản

tiếng Việt

(UITws v1)

(1) Dịch tiếng Việt (4) Gióng hàng ở (5) Chiếu nhãn đồng (6) Xác định ngữ danh từ trung

sang tiếng Anh mức độ từ tham chiều từ tiếng tâm và thay thể các ngữ danh từ

(vinai-translate-vi2en) (mBERT] Anh sang tiếng Việt khác theo từng cụm

Hình 2.17 So đồ mô tả các bước xử ly CR cho văn bản tiếng Việt

Hiện tại, chưa có nhiều công trình nghiên cứu về bài toán CR cho tiếng Việt nhưng lại

có nhiều mô hình ưu việt trên ngôn ngữ khác và chưa được thử nghiệm, đánh giá trêntiếng Việt Do đó, phương pháp CR dựa trên mô hình SpanBERT được đề xuất được

xem như là bước mở đầu trong việc nghiên cứu sâu hơn về bài toán CR trong văn bản

tiếng Việt Phương pháp này tận dụng kết quả của các mô hình tối ưu sẵn có mà khôngcần huấn luyện mô hình lại từ dau; không cần xây dựng bộ dữ liệu đủ lớn để huấn luyện

mô hình; dễ dàng thay đôi, cải tiến phương pháp này với việc sử dụng nhiều tô hợp các

mô hình cải tiến mới trong tương lai Tuy nhiên, kết quả của phương pháp này phụ thuộcnhiều vào độ chính xác của mô hình đồng tham chiếu trong văn bản tiếng Anh được sửdụng cũng như kết quả của quá trình dịch văn bản từ tiếng Việt sang tiếng Anh, quá trìnhtách từ và quá trình chiếu nhãn đồng tham chiếu Ngoài ra, thời gian xử lý cũng phụthuộc nhiều vào thời gian xử lý của các bài toán đã đề cập trên và phụ thuộc vào độ dài

của văn bản.

Trang 38

Chương 3 XÂY DỰNG BỘ DỮ LIỆU

Tóm tắt chương:

Chương này mô tả chỉ tiết về bộ dữ liệu UIT-ViRE dé phục vụ cho việc huấn luyện vàđánh giá mô hình RE và bộ dữ liệu UIT-ViCR dé đánh giá phương pháp xử lý CR được

dé xuất Ngoài ra, chương này cũng trình bày quá trình xây dựng dit liệu cho cả hai bộ

dit liệu trên.

3.1 Bộ dữ liệu rút trích quan hệ UIT-ViRE

Bộ dữ liệu UIT-ViRE được sử dụng dé huấn luyện và đánh giá các mô hình RE và được

xây dựng dựa trên bộ dữ liệu rút trích quan hệ của VLSP2020 [29] Trong đó, bộ dữ liệu

VLSP2020 được lưu với định dạng tập tin WebAnno TSV 3.2, được gan nhãn với bốn

quan hệ (LOCATED, PART - WHOLE, AFFILIATION, PERSONAL - SOCIAL) và

được chia thành ba bộ dữ liệu Train (506 văn ban, đã gan nhãn), Dev (250 van ban, đã

gan nhãn) va Test (300 văn bản, chưa gan nhãn) Nội dung của tập tin theo định dang

WebAnno TSV 3.2 bao gồm van bản gốc và 7 cột mô tả những thông tin vị trí của các

token, các NE và các quan hệ giữa các NE (xem hình 3.2 và 3.3) Tuy nhiên, bộ dữ liệu

VLSP2020 này có một số hạn chế sau:

- Chưa tách biệt từng quan hệ cho từng cặp NE trong từng câu.

- Có một số NE được xác định bị lỗi Unicode hoặc bị thừa ký tự đặc biệt như “(“ hoặc

Sở đầu hoặc cuối của NE (xem hình 3.3)

- Có một số quan hệ được gán nhãn cho hai NE trên hai câu khác nhau

- Do cấu trúc phức tạp nên khó khăn trong việc xác định hướng của cặp NE trong mỗi

quan hệ (quan hệ LOCATED, PART_WHOLE, AFFILIATION có hướng còn quan hệ PERSONAL_SOCIAL vô hướng).

Do đó, bộ dữ liệu UIT-ViRE ra đời để giải quyết các hạn chế trên Sau quá trình xử lý

dữ liệu, bộ dữ liệu UIT-ViRE thu được có các đặc điểm như sau:

Trang 39

- Được lưu với định dạng tập tin JSON như cấu trúc sau:

“doc_id": "23352327",

“sent_id": 21,

“sentence”: "Vụ tai nan xảy ra lúc 16h3@ chiều 22/3, trên Quốc lộ

1A địa bàn khối 5, thị trấn Cầu giát, huyện Quỳnh Lưu.",

+ doc 1d: Id của văn bản, được lay từ tên thư mục chứa file văn ban đó

+_ sent 1d: Id của câu trong văn ban + sentence: Nội dung của cau

+ spos: Vị trí bat đầu, vi tri kết thúc của câu trong văn ban+ entity_1: Chita vị trí và nội dung của NE thứ nhất trong câu

+ entity_2: Chứa vi trí và nội dung của NE thứ hai trong câu + label: Nhãn quan hệ của entity_1 và entity_2

- Đã tách biệt từng quan hệ cho từng cặp NE trong từng câu.

- Đã xử lý các NE bị lỗi Unicode hoặc bị thừa ký tự đặc biệt Sau khi chuẩn hóa, một số

vị trí của NE bị thay đổi nên ta phải tim vị trí mới của NE trong câu mới

- Được gan nhãn trên 8 loại quan hệ (LOCATED, IS_LOCATED, PART_WHOLE, WHOLE_PART, PERSONAL SOCIAL, AFFILIATION, AFFILIATION_TO,

Trang 40

dựa vào loại quan hệ và hướng của các NE trong quan hệ đó Việc sử dụng 8 loại quan

hệ này có tham khảo cách xử lý dữ liệu của công trình [17].

- Được chia thành ba bộ dữ liệu Train, Dev, Test, trong đó:

+ Bộ Train: gồm 10182 câu, với 15666 quan hệ

+ Bộ Dev: gồm 4634 câu, với 9235 quan hệ

+ Bộ Test: gồm 96 câu, với 238 quan hệ

Các bước chuẩn hóa bộ dữ liệu trên gồm:

Bước 1: Tách văn bản gốc thành từng câu riêng biệt và xử lý lỗi cho những trường hợp

tách câu bị lỗi

Bước 2: Xác định danh sách tất cả các NE trong từng câu Nếu trong câu có ít hơn 2 NE

thì bỏ qua câu đó.

Bước 3: Duyệt qua từng cặp NE trong danh sách các NE trong từng câu dé xác định

nhãn quan hệ Xử lý lỗi cho các NE không đúng.

- Nếu cả hai NE không được gán nhãn quan hệ (tức giá trị cột thứ 7 đều là “_”) thì đánhdau nhãn là OTHERS cho cặp NE ấy

- Nếu có tối thiểu một trong hai NE được gán nhãn quan hệ thì dựa vào giá cột thứ 7

để kiểm tra xem cặp NE đang xét có thực sự có quan hệ hay không Nói cách khác,kiểm tra chúng có liên kết với nhau thông qua id của token (cột 1) hay không

+ Nếu không có liên kết thì đánh dau nhãn quan hệ là OTHERS cho cặp NE đang

⁄

xét.

+ Nếu có liên kết thì tiếp tục kiểm tra thứ tự của cặp NE đang xét (cột 4) xem có

khớp với thứ tự các NE được gán nhãn trong cột 7 (nếu có) hay không

e Nếu chúng khớp với nhau hoặc thứ tự các NE được gán nhãn trong cột 7

không có (quan hệ không hướng) thì nhãn quan hệ của cặp NE này chính là

nhãn quan hệ được xác định trước trong cột 6.

Tiêu đề	Rút trích quan hệ giữa các thực thể trong văn bản Tiếng Việt
Tác giả	Phạm Minh Mẫn
Người hướng dẫn	TS. Nguyễn Lưu Thùy Ngân
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Công nghệ thông tin
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2023
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	83
Dung lượng	41,52 MB