Mục tiêu cụ thể và phạm vi nghiên cứu của luận án Như đã nêu trong lý do chọn đề tài, luận án tập trung vào bài toán nhận dạngthực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau l
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN MAI VŨ
NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN
VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2018
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN MAI VŨ
NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN
VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG
Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.05.01
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 PGS.TS Hà Quang Thụy
2 PGS.TS Nguyễn Lê Minh
Hà Nội – 2018
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả đượcviết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khiđưa vào luận án Các kết quả nêu trong luận án là trung thực và chưa từngđược
công bố trong các công trình nào khác
Tác giả
Trần Mai Vũ
Trang 4LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống thông tin - Khoa Công nghệthông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, dưới sự hướngdẫn khoa học của PGS.TS Hà Quang Thụy và PGS.TS Nguyễn Lê Minh
Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS Hà QuangThụy và PGS.TS Nguyễn Lê Minh, những người đã đưa tôi đến với lĩnh vựcnghiên cứu này Các thầy đã tận tình giảng dạy, hướng dẫn giúp tôi tiếp cận và đạtđược thành công trong công việc nghiên cứu của mình Các thầy đã luôn tận tâmđộng viên, khuyến khích và chỉ dẫn giúp tôi hoàn thành được bản luận án này.Tôi xin bày tỏ lòng biết ơn tới các Thầy Cô thuộc Khoa Công nghệ thông tin
và cán bộ Phòng Đào tạo - Trường Đại học Công nghệ, đã tạo mọi điều kiện thuậnlợi giúp đỡ tôi trong quá trình học tập và nghiên cứu tại trường
Tôi xin cảm ơn PGS TS Nigel Collier và cộng sự đã đóng góp ý kiến quý báugiúp tôi hoàn thiện bản luận án
Sự động viên, cổ vũ của bạn bè là nguồn động lực quan trọng để tôi hoànthành luận án Tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, vợ và các con tôi đãtạo điểm tựa vững chắc cho tôi có được thành công như ngày hôm nay
Tác giả
Trần Mai Vũ
Trang 5MỤC LỤC
LỜ
I
1
LỜ
I
2
M
D
A
7
D
A
8
D
A
10
M
Ở
11
L
ý11
M
ụ
12
C
ấ
15
Ch
ươ
17
1.1 Một số khái niệm cơ bản 17
1.1.1 Định nghĩa bài toán nhận dạng thực thể 17
1.1.2 Thách thức 19
1.1.3 Độ đo đánh giá 19
1.1.4 Ứng dụng của nhận dạng thực thể 21
1.2 Sơ lược về lịch sử nghiên cứu và một số hướng giải quyết bài toán 22
1.3 Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số nghiên cứu liên quan 24
1.3.1 Những thách thức đối với xử lý dữ liệu tiếng Việt 24
1.3.2 Động cơ nghiên cứu 26
1.3.3 Các nghiên cứu liên quan 26 1.4 Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số
ng
hiê
29
1.4
.1 29
1.4
.2
30
1.4
.3
31
Trang 61.5 Tổng kết chương 34
Chương 2 – NHẬN DẠNG THỰC THỂ TÊN NGƯỜI KẾT HỢP VỚI NHẬN DẠNG THUỘC TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN TIẾNG VIỆT 36
2.1 Giới thiệu 36
2.2 Các nghiên cứu liên quan 38
2.2.1 Các nghiên cứu liên quan trên thế giới 38
2.2.2 Các nghiên cứu liên quan ở Việt Nam 39
2.3 Một mô hình giải quyết bài toán nhận dạng thực thể tên người kết hợp với nhận dạng thuộc tính thực thể 40
2.3.1 Mô hình Entropy cực đại giải mã bằng tìm kiếm chùm (MEM+BS) 40
2.3.2 Phương pháp trường ngẫu nhiên có điều kiện (CRF) 41
2.3.3 Mô hình đề xuất 42
2.3.4 Tập đặc trưng 46
2.4 Thực nghiệm, kết quả và đánh giá 47
2.4.1 Công cụ và dữ liệu đánh giá 47
2.4.2 Kết quả thực nghiệm đánh giá trên toàn hệ thống 49
2.4.3 Kết quả thực nghiệm đánh giá trên từng nhãn 50
2.5 Mô hình áp dụng vào hệ thống hỏi đáp tên người tiếng Việt 52
2.5.1 Khái quát bài toán 52
2.5.2 Đặc trưng câu hỏi liên quan đến thực thể tên người trong tiếng Việt 53
2.5.3 Mô hình đề xuất 55
2.5.4 Phương pháp và dữ liệu đánh giá mô hình hỏi đáp tự động 61
2.5.6 Thực nghiệm và đánh giá 61
2.6 Tổng kết chương 64
Chương 3 – NHẬN DẠNG THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN Y SINH TIẾNG ANH 66
3.1 Giới thiệu 66
3.1.1 Động cơ và khái quát bài toán nhận dạng thực thể biểu hiện 66
Trang 73.1.2 Một số khái niệm cơ bản liên quan đến thực thể biểu hiện và một số
thực thể liên quan 69
3.1.3 Vấn đề về thích nghi miền trong nhận dạng thực thể y sinh 74
3.2 Mô hình nhận dạng thực thể biểu hiện và một số thực thể liên quan 75
3.2.1 Cơ sở lý thuyết 76
3.2.2 Dữ liệu đánh giá và tài nguyên hỗ trợ 77
3.2.3 Mô hình đề xuất 82
3.2.4 Tập đặc trưng và đánh giá đặc trưng 84
3.2.5 Phương pháp đánh giá 88
3.3 Thực nghiệm 89
3.3.1 Thực nghiệm 1: đánh giá hiệu quả của mô hình đề xuất với các kỹ thuật học máy khác nhau 89
3.3.2 Thực nghiệm 2: so sánh kết quả của mô hình đề xuất với một số nghiên cứu liên quan 90
3.3.3 Thực nghiệm 3: đánh giá đóng góp của từng tài nguyên đối với kết quả nhận diện thực thể 94
3.3.4 Thực nghiệm 4: ứng dụng mô hình đề xuất để nhận dạng thực thể y sinh trong cuộc thi BioCreAtIvE V CDR Task 95
3.4 Thích nghi miền dữ liệu trong nhận dạng thực thể y sinh 97
3.4.1 Thực nghiệm 98
3.4.2 Kết quả và đánh giá 99
3.5 Tổng kết chương 101
Chương 4 – MỘT MÔ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 103 4.1 Mô hình nâng cấp nhận dạng thực thể biểu hiện và các thực thể liên quan 103 4.2
4
4
1
4
Trang 8
1
1
4
1
1
4
1
1
4.3.3 Thực nghiệm kiểm thử tin cậy trong quá trình đánh giá hiệu quả của
các tài nguyên 114
4.3.4 Thảo luận và phân tích lỗi 115
4.4 Kết luận chương 118
KẾT LUẬN 120
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ CÓ LIÊN QUAN ĐẾN LUẬN ÁN 122
TÀI LIỆU THAM KHẢO 123
Trang 9DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT
Trang 10DANH MỤC CÁC BẢNG
Bảng 2.1 Một ví dụ về trích chọn thực thể tên người và các thuộc tính liên quan 37
Bảng 2.2 Các nhãn được sử dụng trong mô hình 43
Bảng 2.3 Tập đặc trưng được sử dụng 46
Bảng 2.4 Thống kê thực thể trong tập dữ liệu được gán nhãn 48
Bảng 2.5 Kết quả đánh giá toàn hệ thống trên hai mô hình với hai phương pháp MEM+BS và CRF 49
Bảng 2.6 Kết quả thực nghiệm đối với từng nhãn 51
Bảng 2.7 Ví dụ về một số thành phần câu hỏi 56
Bảng 2.8 Các thành phần xuất hiện trong câu hỏi về thực thể tên người 57
Bảng 2.9 Ví dụ gán nhãn tổng quát cho câu hỏi về thực thể tên người tiếng Việt 58
Bảng 2.10 Thống kê trên tập dữ liệu câu hỏi đánh giá 61
Bảng 2.11 Kết quả đánh giá thành phần phân tích câu hỏi 62
Bảng 2.12 Kết quả đánh giá của hệ thống trả lời tự động 63
Bảng 3.1 Danh sách các bệnh tự miễn dịch được sử dụng để xây dựng dữ liệu Phenominer A 78
Bảng 3.2 Các đặc điểm của dữ liệu Phenominer A về bệnh tự miễn dịch và Phenominer B về bệnh tim mạch 80
Bảng 3.3 Các đặc trưng sử dụng trong thực nghiệm 84
Bảng 3.4 Thực nghiệm so sánh các phương pháp học máy khác nhau 90
Bảng 3.5 Thực nghiệm so sánh mô hình đề xuất và các hệ thống khác 92
Bảng 3.6 Kết quả đánh giá tài nguyên của mô hình nhận dạng thực thể 94
Bảng 3.7 Thống kê trên ba tập dữ liệu của nhiệm vụ CDR [WPL15] 96
Bảng 3.8 Kết quả mô hình nhận dạng trên tập dữ liệu kiểm thử 96
Bảng 3.9 Kết quả F1 của hệ thống NER sử dụng phương pháp thực nghiệm 1-6 99
Bảng 4.1 Các đặc trưng được MEM + BS sử dụng để quyết định kết quả 109
Bảng 4.2 Kết quả của mô hình trên tập dữ liệu Phenominer A khi sử dụng các phương pháp khác nhau để lai ghép kết quả 112
Trang 11Bảng 4.3 Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng
xấp xỉ ngẫu nhiên đối với các thực nghiệm loại bỏ lần lượt từng tài nguyên 113Bảng 4.4 Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng
xấp xỉ ngẫu nhiên đối với các thực nghiệm 114Bảng 4.5 Các lỗi của mô đun quyết định kết quả sử dụng danh sách ưu tiên (PL) và
học xếp hạng sử dụng SVM (LTR) 116
Trang 12DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 0.1 Thống kê các công trình nghiên cứu liên quan đến cụm từ “named entity
recognition” trên Springer từ 2002 - tháng 11/2017 11Hình 0.2 Biểu đồ phân bố các công trình đã công bố của nghiên cứu sinh tương ứng
với các chương của luận án 16Hình 1.1 Mô tả các độ đo độ chính xác, độ hồi tưởng và độ đo F1 20Hình 1.2 Các nhiệm vụ về xử lý ngôn ngữ tự nhiên cho văn bản y sinh trong giai
đoạn 2002-2014 [HL15] 31Hình 2.1 Đồ thị vô hướng mô tả CRF 41Hình 2.2 Một ví dụ về câu được gán nhãn 44Hình 2.3 Mô hình tích hợp NER và trích chọn thuộc tính của thực thể tên người 45Hình 3.1 Biểu diễn của biểu hiện trong văn bản tường thuật và các thuật ngữ trước
và sau biên soạn 67Hình 3.2 Ví dụ chứa các thực thể biểu hiện, gen, bệnh và mối quan hệ giữa chúng 68Hình 3.3 Lược đồ ngữ nghĩa của các loại thực thể nhận dạng trong luận án 73Hình 3.4 Mô hình nhận dạng thực thể biểu hiện của Khordad và cộng sự [KMR11] 76Hình 3.5 Mô hình nhận dạng thực thể biểu hiện và các thực thể liên quan 82Hì
Trang 13Nhận dạng thực thể có tên (Named entity recognition: NER; còn được gọi là
“nhận dạng thực thể định danh”) là một bài toán chính thuộc lĩnh vực xử lý ngônngữ tự nhiên (NLP) Đây là một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữhay khai phá dữ liệu văn bản như trích xuất sự kiện, hỏi đáp tự động hay tìm kiếmngữ nghĩa Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet,bài toán này cũng nhận được sự quan tâm của cộng đồng nghiên cứu trong khoảng
20 năm trở lại đây
160 145 182 187
217
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
Năm
Hình 0.1 Thống kê các công trình nghiên cứu liên quan đến cụm từ “named
entity recognition” trên Springer từ 2002 - tháng 11/2017
Kết quả trả lời của trang web tìm kiếm của Springer với truy vấn “Namedentity recognition” theo cách chính xác cụm từ (“with the exact phrase”) 1 cho thấy
từ năm 2002 đến nay có trên 3500 công trình liên quan, với trên 1800 công trìnhcông bố trong 5 năm gần đây từ 2013 đến 2017 (khoảng 350 công trình/năm) nhưchỉ ra ở Hình 0.1 Không chỉ nhiều về số lượng, các nghiên cứu về NER cũng xuất
Trang 14hiện thường xuyên tại các hội nghị thường niên hàng đầu về NLP như ACL,EMNLP, NAACL,… hay các tạp chí danh tiếng có chỉ số IF (impact factor) caonhư PLOS ONE, Bioinformatics, TKDE, TACL,…
Mặc dù đã có khá nhiều công trình nghiên cứu cho một số loại thực thể thôngthường trong văn bản tiếng Anh tuy nhiên những nghiên cứu liên quan đến các thựcthể trong ngôn ngữ khác như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữliệu y sinh vẫn còn rất nhiều hạn chế và thách thức Có thể kể đến là sự khuyết thiếucác tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền hay các địnhnghĩa hình thức về kiểu thực thể cần nhận dạng… Luận án này tiếp nối nhữngnghiên cứu trước đó nhằm giải quyết một phần những hạn chế được nêu ra ở trên.Mục tiêu cụ thể và phạm vi nghiên cứu của luận án sẽ được mô tả kỹ hơn ở phầntiếp theo
Mục tiêu cụ thể và phạm vi nghiên cứu của luận án
Như đã nêu trong lý do chọn đề tài, luận án tập trung vào bài toán nhận dạngthực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữliệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh
Mục tiêu cụ thể của luận án là phát triển vấn đề, đề xuất giải pháp và xây dựngthực nghiệm cho việc nhận dạng các loại thực thể thuộc hai miền dữ liệu trên.Nhìn chung, bài toán nhận dạng thực thể đã được quan tâm nghiên cứu và đạtđược một số kết quả nhất định, tuy nhiên các kết quả này hầu hết chỉ xử lý cho cácthực thể thông thường trong văn bản tiếng Anh Trong khi đấy, nhận dạng thựcthể với miền dữ liệu văn bản thông thường tiếng Việt và văn bản y sinh vẫn cònnhiều vấn đề lớn đặt ra như không có một tập dữ liệu chuẩn cùng những mô tả rõràng về khái niệm liên quan đến các thực thể hay các tài nguyên công cụ phục vụcho việc nhận dang Nhìn nhận được các hạn chế này, luận án tập trung vào giảiquyết hai bài toán nói trên trong phạm vi dữ liệu có tính chất đặc thù hơn, cụ thể là:
Giải quyết bài toán nhận dạng thực thể cho dữ liệu văn bản tiếng Việt
Nghiên cứu sinh đi sâu vào việc tìm hiểu những thành quả nghiên cứu tiêntiến về nhận dạng thực thể với mong muốn áp dụng và đề xuất các cải tiếnmới nhằm áp dụng và cải thiện hiệu quả cho quá trình nhận dạng thực thểtrong văn bản tiếng Việt Bên cạnh đấy, luận án tìm hiểu một trong những
Trang 15hướng ứng dụng điển hình của các mô hình nhận dạng thực thể tiếng Việt, cụthể ở đây là bài toán hỏi đáp tự động cho tiếng Việt.
Giải quyết bài toán nhận dạng thực thể cho dữ liệu y sinh (tiếng Anh)
Số lượng dữ liệu y sinh dưới dạng điện tử đang tăng với tốc độ cao tạo nêntiềm năng lớn phục vụ cho một loạt các ứng dụng xã hội, đặc biệt là y tếcộng đồng Với tiềm năng nói trên và tính chất phức tạp từ đặc thù chuyênngành, khai phá dữ liệu y sinh đang là một thách thức lớn đối với các nhàkhoa học trên toàn thế giới Nắm bắt được xu hướng nghiên cứu này, luận ánkhảo sát và đề xuất phương án giải quyết bài toán nhận dạng thực thể trongvăn bản y sinh kết hợp nhiều nguồn tài nguyên tri thức cũng như các kỹ thuậthọc máy thống kê Luận án tập trung vào bài toán nhận dạng thực thể biểuhiện (phenotype) và các thực thể liên quan như: gene, bệnh, bộ phận cơthể,…
Trên cơ sở phân tích công phu các giải pháp tiên tiến trên thế giới, luận ánđược định hướng vào việc nghiên cứu phát triển các giải pháp hiệu quả tương thíchvới miền dữ liệu có nhiều đặc trưng đặc biệt và xây dựng thực nghiệm đánh giá Cụthể, luận án giải đáp các vấn đề nghiên cứu sau đây:
Khảo sát và đưa ra các phương án xử lý các đặc điểm riêng biệt của với dữ
liệu tiếng Việt và dữ liệu y sinh tiếng
Xây dựng bộ dữ liệu phục vụ cho thực nghiệm
Xây dựng các thực nghiệm để đánh giá các mô hình giải quyết bài toán đã
đề xuất
Xây dựng hệ thống chạy thực tế đối với các mô hình đạt kết quả khả quan
Định hướng phát triển nâng cấp nghiên cứu
Trang 16Ở Việt Nam, đã có một số luận án tiến sĩ nghiên cứu về các bài toán nhận dạngthực thể trong tiếng Việt Luận án tiến sĩ của Sam Chanrathany (2013) [SC13] làm
về trích xuất thực thể và một số mối quan hệ hai ngôi giữa các thực thể trong tiếng
Trang 17Việt sử dụng phương pháp học bán giám sát Luận án tiến sĩ của Nguyễn ThanhHiên (2011) [NTH11] giải quyết vấn đề phân biệt nhập nhằng giữa các thực thể dựatrên nguồn tri thức từ các ontology miền đóng và miền mở Cả hai luận án này đãđưa ra được một số cách giải quyết nhận dạng thực thể cùng xử lý nhập nhằngthông qua các thuộc tính có quan hệ đến thực thể Tuy nhiên tập dữ liệu đánh giá làtương đối nhỏ (1200 câu) chưa thể hiện rõ được hiệu quả mà các phương pháp đemlại.
Luận án khảo sát một số luận án Tiến sỹ trên thế giới liên quan đến chủ đềnhận dạng thực thể gene và thực thể biểu hiện, điển hình là [VA10, KM14].Vlachos (2010) [VA10] tập trung giải quyết hai bài toán là nhận dạng thực thể cácthực thể gene và trích xuất sự kiện tại hội thảo BioNLP, các phương pháp được ápdụng hầu hết dựa trên kỹ thuật nhận dạng bằng luật và một ít kỹ thuật học máy nêncác mô hình chưa cho kết quả cao Khordad (2014) [KM14] đi sâu vào bài toánnhận dạng thực thể biểu hiện và thực thể gene, sau đó dựa vào kết quả nhận dạng đểphát hiện các mỗi quan hệ giữa biểu hiện – gene Luận án này mặc dù đã đề cập đếnthực thể biểu hiện tuy nhiên chưa nêu được một định nghĩa rõ ràng về thực thể biểuhiện nên bỏ sót khả nhiều kết quả trong quá trình nhận dạng, bên cạnh đấy, luận ánnày cũng chỉ quan tâm đến mối quan hệ giữa biểu hiện – gene mà chưa quan tâmđến mối quan hệ giữa biểu hiện và các loại thực thể khác như bệnh, hóa chất, bộphận cơ thể v.v
Đối sánh nội dung các công trình nghiên cứu trong và ngoài nước, trong đó cóluận án Tiến sỹ, luận án của nghiên cứu sinh có những điểm khác biệt về khía cạnhphương pháp tiếp cận cũng như về khía cạnh dữ liệu Cụ thể là:
- Đối với bài toán nhận dạng thực thể trong văn bản tiếng Việt, luận án tậptrung vào hai vấn đề đó là kết hợp cùng lúc cả nhận dạng thực thể và nhậndạng thuộc tính thực thể trong cùng một mô hình và kiểm chứng trên tập
dữ liệu đủ tin cậy (10.000 câu gán nhãn) Hơn nữa, nghiên cứu sinh cũng
áp dụng mô hình đề xuất vào bài toán hỏi đáp tự động để kiểm định hiệuquả thực tế của mô hình
- Đối với bài toán nhận dạng thực thể y sinh trong văn bản tiếng Anh, luận
án đưa ra những định nghĩa cụ thể hơn về các khái niệm liên quan đến cácthực thể biểu hiện, xây dựng hai tập dữ liệu đánh giá tin cậy (900 câu gán
Trang 18nhãn mỗi tập) cũng như các thử nghiệm khách quan với các độ đo chuẩncho nhận dạng thực thể y sinh.
Luận án là kết quả của việc kết hợp nghiên cứu lý thuyết với nghiên cứu thựcnghiệm, thông qua một quá trình lô-gic từ khảo sát bài toán, nghiên cứu lý thuyếtnền tảng, tiến tới đề xuất giải pháp đối với bài toán, xây dựng thực nghiệm đánh giágiải pháp được đề xuất, rút ra kết luận và công bố kết quả nghiên cứu
Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp nhận dạngthực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh Cácgiải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thứcnguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bàitoán Kết quả của các mô hình đạt hiệu quả khả quan có thể áp dụng được trong các
hệ thống chạy thực tế
Luận án trình bày một cách hệ thống các vấn đề liên quan đến bài toán nhậndiện thực thể biểu hiện và các thực thể liên quan như: định nghĩa cụ thể về kháiniệm thực thể biểu hiện, cách thức gán nhãn dữ liệu, phương pháp đánh giá và kiểmthử hiệu quả hay vấn đề thích nghi miền (domain adaptation) trong miền dữ liệuthực thể biểu hiện Hơn nữa, luận án cũng đưa ra được một số khung làm việc(framework) cho việc trích xuất sự kiện cho tiếng Việt cũng như sự kiện trong vănbản y sinh tiếng Anh
Các kết quả nghiên cứu lý thuyết của luận án được công bố trong các ấn phẩmkhoa học chuyên ngành có uy tín [CTLA1, CTLA2, CTLA4 - CTLA7] là minhchứng cho ý nghĩa khoa học của luận án
Về triển khai ứng dụng, luận án đã đề xuất thực thi mô hình hỏi đáp tự độngtiếng Việt dựa trên nhận dạng thực thể [CTLA5] Xây dựng hệ thống tra cứu vàtham khảo các mối quan hệ giữa thực thể biểu hiện – bệnh PhenoMiner (tại địa chỉ
h t t p :/ / p h e n o m i n e r mm l c a m a c u k / )
Kết quả triển khai ứng dụng thông qua các hệ thống thử nghiệm và tra cứu nóitrên cho thấy luận án có ý nghĩa thực tiễn
Cấu trúc của luận án
Tiếp nối phần mở đầu này, nội dung chính của luận án được bố cục thành bốnchương và phần kết luận Chương 1 của luận án trình bày hệ thống các lý thuyết cơ
Trang 19bản về nhận dạng thực thể cũng như khảo sát lịch sử nghiên cứu và điểm lại một sốnghiên cứu tiêu biểu Các chương tiếp theo đi sâu vào những bài toán con đượcluận án tập trung giải quyết Chương 2 trình bày về bài toán nhận dạng thực thể vàứng dụng nhận dạng thực thể vào bài toán hỏi đáp tự động trong văn bản tiếngViệt Tiếp theo đó, chương 3 trình bày một mô hình nhận dạng thực thể biểu hiện
và các thực thể liên quan cũng như vấn đề thích nghi miền giữa các tập dữ liệu ysinh Chương 4, luận án giới thiệu một kỹ thuật nâng cấp hiệu quả của mô hình đềxuất trong chương 3 bằng kỹ thuật lai ghép các mô hình (ensemble models) dựatrên tri thức và dựa trên học máy để nhận dạng thực thể trong văn bản y sinhtiếng Anh Phần kết luận tổng hợp các kết quả đạt được cũng như nêu lên một sốhạn chế của luận án và trình bày một số định hướng nghiên cứu trong tương lai.Dưới đây là danh sách các công trình đã công bố của nghiên cứu sinh liênquan được sử dụng trong các chương của luận án
Hình 0.2 Biểu đồ phân bố các công trình đã công bố của nghiên cứu sinh tương
ứng với các chương của luận án
Trang 20Chương 1 - KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ
Chương 1 của luận án hệ thống hóa các lý thuyết cơ bản về nhận dạng thựcthể Chương này được cấu trúc thành bốn phần nội dung chính Phần 1 trình bày vàphân tích các khái niệm cơ bản và các thuật ngữ cần quan tâm trong lĩnh vực nghiêncứu, ngoài các định nghĩa, phần này cũng khái quát hóa các độ đo thường được sửdụng trong nhận dạng thực thể Phần 2 nêu ra một số hướng tiếp cận giải quyếtchính cũng như một số hướng tiếp cận mới trong nghiên cứu về nhận dạng thực thể.Các hướng tiếp cận này sẽ được nêu ra trong hai phần, tương ứng với từng loại dữliệu là dữ liệu văn bản tiếng Anh và dữ liệu văn bản tiếng Việt Phần 3 trình bày cụthể một số kỹ thuật học máy tiêu biểu thường được sử dụng trong nhận dạng thựcthể cũng như trong các nghiên cứu của luận án Cuối cùng, phần 4 nêu ra tiềm năngnghiên cứu và điểm qua một vài ứng dụng nổi bật của nhận dạng thực thể
1.1 Một số khái niệm cơ bản
1.1.1 Định nghĩa bài toán nhận dạng thực thể
Bài toán nhận dạng thực thể (hay còn gọi là bài toán nhận dạng thực thể địnhdanh; Named Entity Recognition; NER) là bài toán xác định (phát hiện) các biểudiễn trong văn bản và phân lớp chúng vào các kiểu thực thể định danh được địnhnghĩa trước như Người, Địa danh, Thời gian, Số, tiền tệ, v.v Bài toán này có thểbao gồm cả việc nhận dạng các thông tin hay thuộc tính mô tả về thực thể Ví dụ,trong trường hợp của thực thể tên người, hệ thống NER có thể trích xuất cả cácthông tin về Chức danh, Quốc tịch, Địa chỉ, Giới tính, v.v
Một thực thể định danh là một chuỗi các từ chỉ đến một thực thể trong thế giớithực, ví dụ như "California", “Hà Nội”, “Võ Nguyên Giáp”, "Steve Jobs" và
"Apple" Một thực thể định danh có thể được xếp vào một loại thực thể nào đó, nhưNgười, Địa điểm, Tổ chức, Thời gian, v.v Như vậy, các thực thể chính là nhữngđối tượng cơ bản nhất trong một văn bản dù ở bất kì ngôn ngữ nào
Trang 21Luận án sử dụng định nghĩa bài toán nhận dạng thực thể do Aggarwal và Zhaiphát biểu [AZ12]:
“Bài toán nhận dạng thực thể (Named entity recognition, NER) làbài toán xác định thực thể định danh từ các văn bản dưới dạng tự do vàphân lớp chúng vào một tập các kiểu được định nghĩa trước như người,
tổ chức và địa điểm.”
Các kiểu thực thể định danh không chỉ bao gồm một số kiểu thông dụng nhưtên người, địa danh, tên tổ chức mà còn có rất nhiều kiểu khác phụ thuộc vào đặctrưng của loại dữ liệu, miền dữ liệu hay mục đích của hệ thống ứng dụng nhận dạngthực thể Có thể kể đến một số kiểu thực thể được nêu ra tại các nhiệm vụ xử lýngôn ngữ tự nhiên (task/shared task) như sau:
- Những kiểu thực thể định danh thông dụng nhất được tập trung nghiên cứu làngười, tổ chức và địa điểm, chúng được định nghĩa lần đầu tại MessageUnderstanding Conference-6 (MUC-6) Những kiểu thực thể này là phổ biến đủ để
có thể trở nên hữu ích trong nhiều miền ứng dụng Việc trích xuất các biểu diễnngày tháng, giờ, tiền tệ và tỷ lệ phần trăm, cũng được MUC-6 giới thiệu, thườngcũng được xử lý trong NER, mặc dù nói đúng ra thì các biểu diễn này không phải làthực thể định danh
- Nhiệm vụ tại chương trình Automatic Content Extraction (ACE) đưa ra thêmnhiều loại thực thể mới, các loại thực thể được tổ chức dưới dạng cây phân cấp, chitiết hơn MUC6 Ví dụ như kiểu thực thể tên tổ chức (organisation) có các loại connhư tên tổ chức chính phủ, tổ chức giáo dục hay tổ chức thương mại [DMP04]
- Bên cạnh các kiểu thực thể thông thường trong văn bản tin tức, các loại thựcthể liên quan đến y sinh cũng nhận được nhiều sự quan tâm Hội thảoBioNLP/JNLPBA 2004 có nhiệm vụ yêu cầu nhận diện thực thể y sinh gene vàprotein [KOT04] hay nhiệm vụ Track3-CDR tại hội thảo BioCreative V (2015) yêucầu phát hiện thực thể bệnh và thuốc [WPL15]
Trang 221.1.2 Thách thức
Tuy là một bài toán cơ bản, nhưng nhận dạng thực thể cũng gặp phải không ítthách thức cần giải quyết do độ phong phú và sự nhập nhằng của ngôn ngữ Thôngthường thì bài toán này không thể được thực hiện một cách đơn giản nếu chỉ sửdụng đối sánh chuỗi với các từ điển đã được xây dựng trước vì các thực thể địnhdanh của một kiểu thực thể thường không phải là một một tập đóng, do đó bất kỳ từđiển nào cũng sẽ là không đầy đủ Một lý do khác là loại thực thể định danh có thểphụ thuộc vào ngữ cảnh Ví dụ, "JFK" có thể chỉ tới người "John F Kennedy”, địađiểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó.Tương tự “Sông Lam Nghệ An” có thể là địa điểm chỉ tên một con sông tạitỉnh Nghệ An hay tên một đội bóng “Sông Lam Nghệ An” Để xác định loại chothực thể "JFK" hay“Sông Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cầnphải xem xét đến ngữ cảnh chứa nó
Bên cạnh yếu tố về ngữ nghĩa, các yếu tố liên quan đến đặc trưng ngôn ngữcũng góp phần làm bài toán nhận dạng thực thể trở nên khó khăn Một số ngôn ngữnhư tiếng Việt ngoài việc thiếu các tài nguyên xử lý ngôn ngữ tự nhiên cònphải thực hiện một số bài toán con như tách từ trước khi nhận dạng thực thể, tỷ lệlỗi của các bài toán con sẽ ảnh hưởng đến kết quả của bài toán nhận dạng thựcthể Ngoài ra, từng loại thực thể cũng có những thách thức riêng khác nhau ảnhhưởng đến hiệu quả của mô hình nhận dạng Ví dụ thực thể tên tổ chức “Ủy bannhân dân Thành phố Hà Nội” có chứa thực thể tên địa danh “Thành phố Hà Nội”.1.1.3 Độ đo đánh giá
Để đánh giá các mô hình nhận dạng thực thể cần phải tạo ra tập các tài liệuđược gán nhãn bằng tay Đối với việc đánh giá trên từng miền cụ thể, các tài liệuđược lựa chọn gán nhãn phải liên quan đến dữ liệu miền mục tiêu Ví dụ, để đánhgiá việc trích xuất các thực thể gen và protein, ta phải sử dụng các tài liệu y sinhnhư các tóm tắt từ kho dữ liệu PubMed Nhưng nếu mục đích là để đánh giá so sánhgiữa các kỹ thuật nhận diện thực thể nói chung, cần phải sử dụng một tập dữ liệu
Trang 23tiêu chuẩn đã được cộng đồng nghiên cứu chấp nhận [AZ12] Các tập dữ liệuthường được dùng để đánh giá chung cho các loại thực thể định danh thông thường
có thể kể đến là tập dữ liệu của hội nghị MUC, CoNLL-2003 và ACE 2004, còn đểđánh giá cho các loại thực thể trong y sinh có thể sử dụng tập dữ liệu GENIA[KOT03], CHEMDNER [KLR15]
Các số đo đánh giá điển hình được sử dụng cho nhận dạng thực thể là độ chínhxác (precision - P), độ hồi tưởng (recall - R) và độ đo F1 (F1-measure) Độ chínhxác được tính bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn dươngcủa hệ thống Độ hồi tưởng là phần trăm các trường hợp được gán nhãn đúng trongtất cả các mẫu dương có trong dữ liệu Độ đo F1 là trung bình điều hòa của độ chínhxác và độ hồi tưởng Hình 1.1 mô tả một cách trực quan các độ đo này
Hình 1.1 Mô tả các độ đo độ chính xác, độ hồi tưởng và độ đo F1
Trong nhận dạng thực thể, nói một cách chính xác thì một thực thể định danhđược nhận dạng cần phải thỏa mãn hai tiêu chí: Một là xác định đúng biên thực thể
và hai là xác định đúng kiểu thực thể Hầu hết các đánh giá đòi hỏi việc ánh xạchính xác biên thực thể Tuy nhiên, đôi khi trong một số trường hợp thì việc ánh xạmột phần cũng được chấp nhận, ví dụ khi mục tiêu chỉ là xác định liệu thực thể nào
đó có được nhắc đến trong văn bản hay câu hay không [TWC06]
Trang 241.1.4 Ứng dụng của nhận dạng thực thể
Nhận dạng thực thể là một bài toán quan trọng, thường được sử dụng như làmột bước tiền xử lý trong các hệ thống trích xuất thông hay trích chọn thông tinphức tạp Có thể kể đến nhận dạng thực thể xuất hiện trong một số các ứng dụngsau:
Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ nghĩa giữa hai
thực thể hay giữa một thực thể và một khái niệm [GLR06], ví dụ như mốiquan hệ người-nơi làm việc (Ronaldo, Real Madrid) hay quan hệ nơi sinh(Hồ Chí Minh, Nghệ An) Trong bài toán này, bài toán nhận diện thực thể làvấn đề đầu tiên cần được giải quyết trước khi trích xuất quan hệ
Trích xuất sự kiện là bài toán phức tạp hơn trích xuất quan hệ khi sự kiệnlà
một tổ hợp của nhiều yếu tố thể hiện các thông tin biểu diễn về ai/cái gì đãlàm gì, với ai/cái gì, bao giờ, ở đâu, bằng cách nào và tại sao Các sự kiện cóthể là một sự kiện trong thế giới thực như sự kiện khủng bố, sự kiện tàichính,… hay cũng có thể là một sự kiện xảy ra của một quá trình tự nhiênnhư các sự kiện y sinh liên quan đến biến đổi gene hay gene gây bệnh.Tương tự như trích xuất quan hệ, trong trích xuất sự kiện vấn đề nhận dạngthực thể cũng đặt lên hàng đầu khi yêu cầu phải nhận ra đủ và chính xác cácthành phần cấu thành nên sự kiện Nhiều hệ thống về trích xuất sự kiện đã ápdụng thành công NER trong các thành phần xử lý như hệ thống BioCaster
Hệ thống hỏi đáp tự động đang là một lĩnh vực nhận được sự quan tâm lớn
trong thời điểm lượng thông tin và tri thức bùng nổ Khá nhiều các hệ thốnghỏi đáp tự động dựa trên khai phá văn bản cần đến nhận dạng thực thể như làmột yếu tố làm tăng khả năng phân tích, hiểu câu hỏi và dữ liệu trả lời trong
hệ thống [HWY05] Có thể kể đến một số nghiên cứu sử dụng nhận dạngthực thể cho hệ thống hỏi đáp như nghiên cứu của Yao và Van Durme (2014)
Trang 25[YD14] sử dụng NER trong pha phân tích câu hỏi để xác định chủ đề hỏi hay
hệ hỏi đáp của West và cộng sự (2014) [WGM14] áp dụng NER cho việc
Trang 26phát hiện các mối quan hệ có trong log được trả về từ máy tìm kiếm hỗ trợcho thành phần trả lời câu hỏi.
1.2 Sơ lược về lịch sử nghiên cứu và một số hướng giải quyết bài toánBài toán nhận dạng thực thể đã xuất hiện từ đầu những năm 1990 [RA91],nhưng chỉ được chính thức giới thiệu vào năm 1995 tại hội nghị MUC-6 với tư cách
là một bài toán con của trích xuất thông tin Kể từ đó, NER đã thu hút nhiều sự chú
ý của cộng đồng nghiên cứu Đã có khá nhiều hệ thống và chương trình được xâydựng thực thi bài toán này, có thể kể đến Automatic Content Extraction2, các công
bố trong nhiệm vụ cộng đồng thuộc hội nghị Conference on Natural LanguageLearning (CoNLL) năm 2002 và 2003, và chuỗi nhiệm vụ nhận dạng thực thể y sinhtại hội thảo BioCreative3 (Critical Assessment of Information Extraction Systems inBiology)
Các giải pháp ban đầu cho nhận dạng thực thể dựa vào các mẫu được tạo mộtcách thủ công [AHB93] Sau đó các nghiên cứu đầu nhưng năm 2000 về nhận dạngthực thể đã đạt được rất nhiều kết quả khả quan bằng việc sử dụng các phương pháphọc máy thống kê Một loạt các mô hình học máy khác nhau đã được đề xuất để giảiquyết bài toán nhận dạng thực thể như mô hình Entropy cực đại (Maximum EntropyModel, MaxEnt Model) [BPP96], mô hình trường ngẫu nhiên điều kiện(Conditional Random Field; CRF) [LMP01] Bên cạnh sử dụng từng phương phápriêng biệt để giải quyết bài toán, các phương pháp kết hợp hoặc lai ghép các môhình học máy (ensemble models method) để đưa ra kết quả tốt hơn cũng là mộthướng đi đạt được hiệu quả cao, điển hình là nghiên cứu của Florian và cộng sự(2003) đã đạt được hiệu quả tốt nhất (88,76) tại nhiệm vụ CONLL-2003 [FIJ03]
2
Automatic content extraction (ACE) evaluation http : / /w w w.i t l ni s t g o v / i a d / m i g / t e st s / a ce/
3
h t t p : / /w w w b i oc r ea t i v e o r g /
Trang 27Sau khi các phương pháp học máy đạt được nhiều hiệu quả khả quan đối vớinhận dạng thực thể trong văn bản tiếng Anh thông thường, các nghiên cứu gần đây
đi theo hai hướng chính [AZ12]:
Hướng tiếp tục nâng cấp hiệu quả của phương pháp nhận dạng thực thể bằng
cách đưa thêm các thông tin được sinh ra từ một lượng lớn dữ liệu không cónhãn, điển hình của hướng đi này là việc áp dụng các kỹ thuật học máy bángiám sát (semi-supervised) và học máy sâu (deep learning) Ando và Zhang
áp dụng học máy bán giám sát sử dụng 27 triệu từ chưa gán nhãn để nângcấp chất lượng nhận dạng [AZ05], Ratinov và Roth cũng sử dụng bán giámsát với dữ liệu từ Wikipedia kết hợp với các cụm từ vựng (word clusters)được sinh ra bằng phương pháp gom cụm Brown [RR09] Kết quả của hainhóm đều đạt cao hơn mô hình của Florian và cộng sự (2003) với các độ đoF1 tương ứng là 90,8 và 89,31 Collobert và cộng sự (2011) đưa ra một cáchgiải quyết khác bằng việc sử dụng kỹ thuật học sâu với việc áp dụng mạngnơron nhiều tầng để huấn luyện mô hình nhận dạng thực thể kết hợp với cácthông tin hỗ trợ từ 852 triệu từ chưa được gán nhãn, kết quả trên độ đo F1 đạtđược là 89,59 cũng cao hơn mô hình cơ sở của Florian và cộng sự Mặc dùkết quả tăng chưa cao so với mô hình chuẩn tuy nhiên các nghiên cứu nàytạo được sự quan tâm lớn của cộng đồng nghiên cứu khi đưa ra một hướng đimới cho việc tăng cường ngữ nghĩa thông qua lượng dữ liệu lớn chưa cónhãn
Một hướng đi khác của cộng đồng nghiên cứu là áp dụng các kỹ thuật học
máy đã có vào các dạng thực thể khó hơn trong các miền dữ liệu khác như
dữ liệu y sinh, địa lý, mạng xã hội,… hay một loại ngôn ngữ khác khôngnhiều tài nguyên như tiếng Anh Bên cạnh đấy việc nghiên cứu các kỹ thuậtthích nghi miền (domain adaptation) cũng được đặt ra khi các nhà nghiêncứu cố gắng áp dụng những mô hình nhận dạng thực thể đã tốt cho một miền
dữ liệu mới chưa có dữ liệu gán nhãn Một số nghiên cứu có thể kể đến nhưnghiên cứu của Daume (2007) đánh giá việc thích nghi miền giữa một số tập
Trang 28dữ liệu nhận dạng thực thể [DA07] hay nghiên cứu của Wang và cộng sự(2009) đánh giá thích nghi miền trong nhận diện các thực thể protein[WKS09].
1.3 Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số
nghiên cứu liên quan
Bắt nhịp với tình hình phát triển chung trên toàn thế giới, các văn bản tiếngViệt cũng ngày càng xuất hiện nhiều dưới dạng văn bản điện tử, và cùng với đóchính là nguyên nhân phát sinh nhu cầu khai thác thông tin có giá trị từ các văn bảnnày Nhận dạng thực thể đóng một vai trò chủ chốt trong khai phá văn bản, chính vìthế nó cũng nhanh chóng trở thành một lĩnh vực nghiên cứu được nhiều nhà khoahọc trong nước quan tâm
Áp dụng được NER cho dữ liệu tiếng Việt đồng nghĩa với việc đặt một nềntảng quan trọng trong việc xây dựng được các hệ thống ứng dụng cho nhiều lĩnhvực khác như tài chính, kinh tế, xã hội, y sinh, v.v phù hợp với tình hình trongnước
Trong mục này, luận án tóm tắt về một số thách thức cần giải quyết khi xử lývăn bản tiếng Việt, động cơ nghiên cứu và tầm quan trọng của bài toán bài toánnhận dạng thực thể tiếng Việt, điểm qua một số tài nguyên hữu ích cũng như tìnhhình nghiên cứu hiện tại
1.3.1 Những thách thức đối với xử lý dữ liệu tiếng Việt
Có thể nêu ra một số đặc điểm của tiếng Việt khiến cho nó trở nên khác biệt
và khó xử lý như sau, một số các đặc điểm dưới đây được tham khảo từ tài liệu[DH96] và một số khác dựa trên quan điểm của nghiên cứu sinh về tiếng Việt:
Khác với tiếng Anh, Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một
tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bằng một chữviết Từ tiếng, người ta tạo ra các đơn vị từ vựng khác để định danh sự vật,hiện tượng v.v , chủ yếu nhờ phương thức ghép và phương thức láy, ví dụ:
“con người”, “khoa học”, “công nghệ thông tin”, “đu đủ”, “thừa thãi”,
Trang 29v.v Các từ này được viết rời theo từng âm tiết chứ không theo từng từ.Chính điều này khiến cho việc xác định biên của một từ trong tiếng Việt trởnên khó khăn hơn.
Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã
tạo điều kiện thuận lợi cho sự phát triển vốn từ nhưng đồng thời cũng gâykhó khăn trong việc bao quát các thể hiện của ngôn ngữ Ví dụ, bên cạnh cácyếu tố cấu tạo từ thuần Việt, tiếng Việt có vay mượn từ các ngôn ngữ khác
để tạo ra các từ mới, như “ghi đông”, “karaoke”, “siêu liên kết”, v.v Các
từ địa phương xuất hiện trong văn bản cũng là một yếu tố khiến tiếng Việttrở nên phức tạp hơn
Hiện tượng đồng âm khác nghĩa trong tiếng Việt là khá phổ biến, Ví dụ:
“lợi” (có ích lợi – tương ứng với “benefit” trong tiếng Anh) và “lợi” (“lợi”thuộc về răng hàm mặt – “alveolar”)
Ngược lại, cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng lại có thể có nhiều từ ngữ khác nhau biểu thị Hiện tượng các từ gần nghĩa, đồng
nghĩa nhưng cách dùng khác nhau và không thể thay cho nhau trong mọi ngữcảnh cũng khá phổ biến, ví dụ: “hội đàm”, “hội nghị”, “hội thảo”, “toạđàm” hay “tìm” và “kiếm”
Ngữ pháp Việt Nam là ngữ pháp cực kỳ phức tạp Đối với hầu hết người Việt
Nam, câu nói “phong ba bão táp không bằng ngữ pháp Việt Nam” chắc chắnkhông phải là xa lạ Ngữ pháp Việt Nam phức tạp không phải bởi vì nó có bộluật cồng kềnh và chặt chẽ như nhiều ngôn ngữ khác, mà ngược lại, vì nóquá linh động với vô số biến thể và trường hợp ngoại lệ Sự phức tạp của ngữpháp Việt Nam được thể hiện ở nhiều khía cạnh, nó có thể bởi cách tư duykhác nhau của người Việt (ví dụ “áo ấm” và “áo lạnh” là hai từ đồng nghĩatrong khi “lạnh” và “ấm” là hai từ trái nghĩa), do thói quen sử dụng từ (ví
dụ, về mặt lý thuyết thì “con” được dùng trước danh từ chỉ động vật, nhưng
Trang 30trong thực tế “con” lại kết hợp được với một số từ chỉ bất động vật như “conmắt”, “con đường”, “con dao”, v.v ), hay do bản thân các cấu trúc trật tự từ
Trang 31(ví dụ, Trong câu hỏi về tương lai, các từ bao giờ, khi nào, bao nhiêu thườngđược đặt ở đầu câu, trong khi đó nếu để hỏi về quá khứ thì chúng thườngđược đặt ở cuối câu).
Một vấn đề khác mang tính kỹ thuật hơn Đó là vì sự phát triển còn non trẻ của lĩnhvực xử lý ngôn ngữ tự nhiên cũng như khai phá văn bản trong nước, các tài nguyênngôn ngữ và công cụ hỗ trợ được xây dựng cho tiếng Việt còn rất ít và có nhiều hạnchế Cộng đồng nghiên cứu tiếng Việt cũng chưa có sự liên kết chặt chẽ, dẫn tớimỗi nghiên cứu lại có tính cá nhân mà chưa tận dụng được hết những kết quả củacác nghiên cứu trước đó
1.3.2 Động cơ nghiên cứu
Như đã được trình bày, tiếng Việt có những đặc điểm khác biệt so với cácngôn ngữ khác (ví dụ như tiếng Anh), vì vậy, nhiều phương pháp nhận dạng thựcthể đã được áp dụng thành công cho tiếng Anh song không đảm bảo đem lại kết quảtương ứng khi sử dụng cho dữ liệu tiếng Việt Vì vậy việc đề xuất một phương pháphiệu quả đối với dữ liệu tiếng Việt là nhiệm vụ bức thiết của chính những nhànghiên cứu trong nước, trong đó có nghiên cứu sinh
Nắm bắt được nhu cầu thực tế và với mong muốn được cống hiến công sứccủa mình để nghiên cứu tiếng mẹ đẻ từ đó góp phần đem lại thêm những tri thức cógiá trị đến với cộng đồng khoa học trong nước, nghiên cứu sinh coi việc tập trungnghiên cứu bài toán nhận dạng thực thể trong văn bản tiếng Việt là một trong haimục tiêu nghiên cứu chính của luận án
1.3.3 Các nghiên cứu liên quan
Nhận dạng thực thể trong tiếng Việt đang nhận được nhiều sự quan tâm củacộng đồng nghiên cứu trong nước cũng như các nhà nghiên cứu đang sống và làmviệc tại nước ngoài Nhiều công trình nghiên cứu về trích xuất thông tin tiếngViệt đã được đăng và xuất bản tại các hội nghị uy tín như: EACL, IJNLP,PAKDD,… hay các tạp chí có chỉ số cao như TALIP, TKDE,… bên cạnh đấy một
số hội nghị
Trang 32cũng đã có những phiên làm việc tập trung về lĩnh vực này cho tiếng Việt như KSE,RIVF, SoICT,…
Phần lớn các nghiên cứu về nhận dạng thực thể tiếng Việt cũng đi theo
xu hướng của các nghiên cứu trên thế giới là dựa vào các phương pháp học máy,bên cạnh đấy, một số nghiên cứu áp dụng một số luật để nhận dạng như luậtripple- down-rule [NP12, NHP10] hay luật ngữ pháp [LN10, LDN13] cũng được sửdụng Các phương pháp nói trên cho hiệu quả khá tốt với độ đo F nằm trongkhoảng 80-
90% đối với một số loại thực thể phổ biến như người, địa danh, tổ chức, thời gian.Các phương pháp học máy được sử dụng để giải quyết bài toán nhận dạngthực thể tiếng Việt chủ yếu là giám sát và bán giám sát Đối với học máy giám sát,Nguyen Cam Tu và cộng sự [TOH05] áp dụng phương pháp trường ngẫu nhiên cóđiều kiện (CRF) trên tập dữ liệu huấn luyện tự xây dựng gồm 8 loại thực thể (tênngười, địa danh, tổ chức, tiền tệ, thời gian, số, phần trăm, một số loại khác) kết quảđạt 85,51% với độ đo F Cũng sử dụng phương pháp CRF, tuy nhiên, Le và cộng sự[LV13] và Nguyen và cộng sự [NC12] đã đưa thêm một số đặc trưng liên quan đếnontology và kỹ thuật lựa chọn đặc trưng dựa trên giải thuật di truyền nhằm nâng caochất lượng nhận dạng Tran và cộng sự [TTQ07] huấn luyện mô hình nhận dạngthực thể tiếng Việt dựa trên phương pháp máy vector hỗ trợ (SVM) bằng công cụYamcha4, mô hình cho kết quả tương đối khả quan khi so sánh với phương phápCRF trên độ đo F, đạt 87,75% so với 86,48% Thao và cộng sự [TTD07] đã cải tiếnkết quả của Tran và cộng sự bằng việc tổ hợp kết quả đã có với nhiều kết quả củacác phương pháp học khác nhau (ensemble learning) thông qua kỹ thuật bình chọn(voting), phương pháp này làm tăng hiệu quả của mô hình nhận dạng từ 87,75% lên88,02%
Bên cạnh các phương pháp học giám sát, các phương pháp học bán giám sát(semi-supervised learning) cũng được áp dụng trong nhiều nghiên cứu Trong
4
h t t p : / / c h a s e n.or g /~ta k u/ s o f t w a r e / y amc ha/
Trang 33[SLT11a], Sam và cộng sự sử dụng phương pháp học bán giám sát lan truyền nhãndựa trên đồ thị tương tự Với ưu điểm của các phương pháp học máy bán giám sát làtận dụng các nguồn dữ liệu lớn chưa được gán nhãn để hỗ trợ thông tin cho mô hìnhhọc, phương pháp này đã đạt được những kết quả khả quan trong nhận diện ba thựcthể phổ biến là người, địa danh, tổ chức Một hướng tiếp cận khác của học bán giámsát là học dựa trên các mẫu (pattern-based), Le Trung và cộng sự [LLL14] đã ápdụng phương pháp mồi dữ liệu (bootstrapping) để tự động sinh ra các mẫu nhậndạng thực thể từ một số lượng nhỏ các thực thể hạt giống (seed), phương pháp nàycho hiệu quả tốt nếu tập dữ liệu huấn luyện nhỏ, tuy nhiên việc quản lý nhập nhằnggiữa các mẫu ngữ pháp của các thực thể khác nhau là một thách thức không nhỏ khivòng lặp sinh mẫu lớn hay số loại thực thể nhiều.
Bên cạnh các nghiên cứu về nhận dạng thực thể, một số các nghiên cứu ứngdụng nhận dạng thực thể cũng được các nhà nghiên cứu trong nước nêu ra như tríchxuất quan hệ và sự kiện tiếng Việt Sam và cộng sự (2011) [SLT11b] đã áp dụngphương pháp học bán giám sát mồi dữ liệu (bootstrapping) để sinh ra các mẫu ngônngữ nhận biết các cặp thực thể có quan hệ với nhau, bên cạnh đấy nghiên cứu cũng
áp dụng phương pháp SVM để xác định loại quan hệ cũng như làm tốt hơn kết quảtrích xuất các mẫu ngôn ngữ Trong nghiên cứu về trích xuất sự kiện của mình,Nguyen và cộng sự [NN13] đã thực hiện việc trích xuất các sự kiện liên quan đếndịch bệnh trong miền dữ liệu văn bản tiếng Việt, các sự kiện dịch bệnh sẽ là một tổhợp các thực thể liên quan đến dịch bệnh xuất hiện trong văn bản được xét và đượcnhận dạng dựa trên mô hình nhận dạng thực thể Việc xem xét các mối quan hệ giữa
sự kiện và thực thể hay giữa các thực thể và thực thể được thực hiện dựa vào một sốluật đơn giản, chính vì thế hiệu quả của mô hình trích xuất sự kiện chưa đạt kết quảcao như các phương pháp sử dụng các kỹ thuật phân tích ngữ nghĩa sâu trong xử lýngôn ngữ tiếng Anh
Trang 341.4 Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một sốnghiên cứu liên quan
1.4.1 Những thách thức đối với xử lý dữ liệu y sinh
Khai phá văn bản y sinh nói chung và nhận dạng thực thể y sinh nói riêng cónhiều điểm khác biệt so với lĩnh vực nghiên cứu này cho dữ liệu thông thường.Nhận xét này thể hiện ở hai điểm: Thứ nhất, do mục tiêu cụ thể của các hệ thốngkhai phá văn bản y sinh, bên cạnh những đối tượng kinh điển như người, tổ chức,địa điểm, v.v hệ thống khai phá văn bản y sinh thường hướng tới một số đối tượngkhác biệt hơn so với dữ liệu thông thường đòi hỏi phải có những mô hình nhận dạngthực thể chuyên biệt cho từng hệ thống, ví dụ như hệ thống liên quan đến các bệnh
di truyền đòi hỏi nhận diện các loại thực thể liên quan đến gene, protein, bệnh ditruyền, thuốc, triệu chứng…, trong khi các hệ thống giám sát bệnh truyền nhiệm lạiyêu cầu nhận dạng các loại thực thể như bệnh di truyền, số bệnh nhân, nguyênnhân Thứ hai, là ở tính đặc thù của các từ chuyên ngành trong lĩnh vực y sinh, các
từ chuyên ngành này thường không tuân theo những quy luật từ vựng và ngữ nghĩathông thường Các khảo sát gần đây [ZDY07, ZD09] trong lĩnh vực này cho thấycác công cụ để khai phá văn bản và dữ liệu mở thông thường không phù hợp chomiền dữ liệu y sinh chính bởi tính chuyên ngành cao của nó Chính vì lý do này,các nghiên cứu trong lĩnh vực y sinh thường đòi hỏi sự hỗ trợ mang tính kinhnghiệm của các chuyên gia (các nhà sinh vật học và bác sĩ) trong việc xác định
và hỗ trợ giải quyết các nhiệm vụ Cohen và Hunter [CH08] cho rằng phươngpháp tiếp cận hiệu quả nhất đối với khai phá văn bản y sinh là sự kết hợp giữacác tri thức từ chuyên gia và các kỹ thuật tính toán
Phần dưới đây tóm tắt một số khó khăn chung của nhận dạng thực thể tronglĩnh vực y sinh được Lin và cộng sự (2004) nêu ra [LTC04]
Nhiều thực thể chứa các từ viết tắt, chữ cái Hy Lạp, các dấu câu (như dấu
gạch nối), v.v Cho đến nay chưa có một bộ danh pháp hay tiêu chuẩn đặttên chính thức nào cho thực thể biểu hiện
Trang 35 Rất khó xác định chính xác biên của thực thể biểu hiện, một thực thể biểu
hiện không những có thể rất dài mà còn có thể chứa cả liên từ, từ phủ định,
1.4.2 Động cơ nghiên cứu
Hiện nay, số lượng các văn bản y tế và sinh học dưới dạng điện tử trênInternet cũng như được lưu trữ trong các hệ thống y tế đang tăng với tốc độ chóngmặt Việc khai thác hiệu quả nguồn tài nguyên này có thể đưa tới nguồn tri thứchữu ích cho người dùng như phát hiện bệnh dịch sớm, tổng hợp các kinh nghiệmphòng và chữa bệnh, nghiên cứu các cơ chế di truyền, tuyên truyền và nâng caosức khỏe cộng đồng, v.v Vấn đề này càng cần phải được quan tâm thích đáng khicon người đang phải đối mặt với nhiều dịch bệnh truyền nhiễm mới đang pháttriển và có chiều hướng gia tăng trong thời gian gần đây như cúm A H1N1,H5N1, Ebola, MERS- CoV v.v Những nghiên cứu liên quan đến xử lý ngôn ngữ tựnhiên cho văn bản y sinh (Biomedical Natural Language Processing; BioNLP) đãmang đến nhiều lợi ích cho việc khai thác nguồn dữ liệu y sinh, có thể kể đếnnhững cơ sở dữ liệu hay ontology y sinh được xây dựng tự động hỗ trợ cho nhữngnhà nghiên cứu sinh, bác sĩ hay những hệ thống theo dõi thông tin về diễn biếndịch bệnh truyền nhiễm đang phát triển trên thế giới
Trong những hệ thống đấy, nhận dạng thực thể y sinh là một thành phần quantrọng trong quá trình phân tích và tổng hợp thông tin từ văn bản y sinh Đây là mộtbài toán khó vì mỗi một loại thực thể y sinh lại bao hàm nhiều tính chất đặc thùkhác nhau về ngôn ngữ và y sinh đòi hỏi người nghiên cứu cần phải có sự kết hợpkiến thức cả xử lý ngôn ngữ tự nhiên và kiến thức y sinh mới có thể đưa ra mộtphương pháp hay mô hình nhận dạng thực thể hiệu quả
Trang 361.4.3 Các nghiên cứu liên quan
Các hướng nghiên cứu đối với nhận dạng thực thể y sinh thay vì tập trung vàoviệc đề xuất các phương pháp mới có hiệu quả tốt hơn thì tập trung vào việc giảiquyết nhận dạng các loại thực thể y sinh khác nhau với các đặc trưng riêng chotừng miền dữ liệu riêng biệt Hầu hết các nghiên cứu về nhận dạng thực thể ysinh đều tập trung vào một số loại thực thể được đưa ra thông qua một số nhiệm
vụ cộng đồng được công bố tại chuỗi hội nghị hay hội thảo lớn về xử lý ngôn ngữ
tự nhiên cho văn bản y sinh (chẳng hạn, BioNLP) Theo thống kê dựa trên kếtquả nghiên cứu của Huang và Lu (2015) [HL15] có khoảng 14 nhiệm vụ cộngđồng về nhận dạng thực thể y sinh trong giai đoạn 2002-2014 thuộc các chuỗi hộinghị, hội thảo lớn về BioNLP như BioCreAtivE [WAC12], BioNLP [NBK13],i2b2 [USS10], JNLPBA [KOT04], và LLL [NE05],… (xem Hình 1.2)
Hình 1.2 Các nhiệm vụ về xử lý ngôn ngữ tự nhiên cho văn bản y
sinh trong giai đoạn 2002-2014 [HL15]
Các nhiệm vụ này tập trung vào bốn nhóm thực thể chính là gene, hóa chất,thuốc và bệnh, trong từng nhóm lại có các loại thực thể khác ở mức độ cụ thể hơnnhư nhóm gene có thêm protein, tế bào, gene, nhóm bệnh có thể chia nhỏ theo
Trang 37loại bệnh (ung thư, bệnh liên quan đến tim, bệnh tự miễn dịch),… Bên cạnh cácthực thể phổ biến được nêu ra tại các nhiệm vụ, một số loại thực thể cũng nhậnđược nhiều sự quan tâm và đưa vào bài toán nhận dạng thực thể như thực thể biểuhiện, dấu hiệu và triệu chứng (sign and symptom), sinh vật (organism, species),…
Về mặt phương pháp, các nghiên cứu nhận dạng thực thể y sinh cũng sử dụngcác phương pháp nhận dạng thực thể truyền thống và kết hợp thêm các đặc trưnghay tri thức liên quan đến miền dữ liệu y sinh Có thể chia các hướng tiếp cận vềnhận dạng thực thể y sinh theo 3 nhóm: nhóm phương pháp sử dụng luật và mẫungữ nghĩa cấu thành thực thể y sinh, nhóm phương pháp sử dụng học máy thống kê,nhóm phương pháp kết hợp các mô hình nhận dạng (ensemble models methods)
a Phương pháp sử dụng các luật và mẫu ngữ nghĩa cấu thành thực thể
y sinh
Các phương pháp trong nhóm này thường dựa trên các đặc điểm chính tả và từvựng để nhận diện thực thể, các loại thực thể có thể nhận dạng tốt là protein[FTT98] và tên hóa chất [NRV03] Những phương pháp đơn giản này có thể đượccải tiến bằng cách bổ sung thông tin ngữ cảnh đang xem xét [HC03] và kết quả củaphân tích cú pháp để xác định biên thực thể [FEO02] Một số hướng nghiên cứumới hơn sử dụng các ontology để sinh các mẫu tổng quát cho một loại thực thể, nhưcác nghiên cứu sử dụng mô hình EQ (Entity-Quality model) để nhận dạng thực thểbiểu hiện của Collier và cộng sự (2013) [COG13] hay Groza và cộng sự (2013)[GHZ13] Tuy nhiên, trong khi phương pháp tiếp cận dựa trên luật thường đạt đượchiệu suất tốt hơn so với phương pháp tiếp cận dựa trên từ điển, thì việc tạo racác luật một cách thủ công là quá trình tốn nhiều thời gian, bên cạnh đấy việc sinhcác luật luôn rất cụ thể nhằm mục đích đạt được độ chính xác cao nên chúng rấtkhó được sử dụng để mở rộng đến các lớp thực thể khác
b Phương pháp sử dụng kỹ thuật học máy thống kê
Theo xu hướng chung của các nghiên cứu về nhận dạng thực thể, các phươngpháp học máy là nhóm được sử dụng phổ biến và đạt hiệu quả tốt trên nhiều loại
Trang 38thực thể y sinh khác nhau Hầu hết các phương pháp học máy thống kê được sửdụng thuộc về dạng học có giám sát tuy nhiên cũng có một số nghiên cứu sử dụngmột số kỹ thuật như bootstrapping hay các kỹ thuật bán giám sát khác [MHC04,UCO11] Các phương pháp học giám sát được sử dụng cho NER có thể được phânthành hai nhóm: phương pháp tiếp cận dựa trên phân lớp và phương pháp tiếp cậndựa trên chuỗi.
Cách tiếp cận dựa trên phân lớp chuyển đổi nhiệm vụ NER thành một vấn đềphân lớp, có thể được áp dụng cho các từ riêng lẻ hoặc nhóm từ Các bộ phân lớpthường được sử dụng cho NER y sinh bao gồm bộ phân lớp sử dụng Naive Bayes[NCT99] và bộ phân lớp sử dụng máy vector hỗ trợ (Support Vector Machine,SVM) [MFM05, TC05] Một cách tiếp cận phổ biến để phân lớp các cụm là tuântheo lược đồ gán nhãn BIO [RM95], trong đó một từ vựng (token) riêng lẻ đượcphân lớp thành bắt đầu (B) một thực thể, nằm trong biên (I) một thực thể hay nằmngoài (O) biên của thực thể Hiệu suất của cách tiếp cận dựa trên phân lớp phụthuộc rất nhiều vào sự lựa chọn các đặc trưng được sử dụng để huấn luyện, và nhiềutác giả đã nghiên cứu các cách kết hợp đặc trưng khác nhau Ví dụ, nhóm nghiêncứu của Mitsumori [MFM05], xem xét các đặc tính hình thái-cú pháp của các thựcthể định danh, Takeuchi và Collier [TC05] xem xét các đặc trưng chính tả và cácdanh từ chính
Không giống như các phương pháp tiếp cận dựa trên phân lớp, hệ thống NERdựa trên gán nhãn chuỗi xem xét việc gán một chuỗi các từ hoàn chỉnh thay vìtừng từ riêng hoặc cụm từ lẻ Chúng được huấn luyện với các tập dữ liệu được gánnhãn nhằm mục đích dự đoán chuỗi các nhãn có khả năng nhất cho một chuỗi quansát Những kỹ thuật thường được sử dụng cho NER y sinh là mô hình Markov ẩn(Hidden Markov Model, HMM) [KCO05], phương pháp dựa trên mô hình Markoventropy cực đại (Maximum Entropy Markov Model, MEMM) [SSM09] hay trườngngẫu nhiên có điều kiện (Conditional Random Fields, CRF) [OMT06] Cũng giốngnhư các phương pháp thống kê khác, phương pháp tiếp cận dựa trên chuỗi có thể
Trang 39được huấn luyện dựa rên một loạt các đặc trưng bao gồm các đặc trưng chính tả,thông tin tiền tố và hậu tố, và từ loại [KCO05].
c Phương pháp lai ghép các mô hình (ensemble models methods)
Nhóm phương pháp lai ghép các mô hình nhận dạng với cách tiếp cận khôngchỉ sử dụng một phương pháp duy nhất để thực hiện NER y sinh mà thay vào đó làdựa vào nhiều kỹ thuật và các nguồn tài nguyên khác nhau Những cách tiếp cậnkết hợp thường khá thành công trong việc ghép các phương pháp tiếp cận dựatrên từ điển hoặc dựa trên luật với các phương pháp học máy thống kê Một bằngchứng về những ưu điểm của phương pháp tiếp cận lai là nghiên cứu của Abacha vàcộng sự [AZ11b] so sánh hiệu quả của các phương pháp tiếp cận dựa trên luật vàthống kê phổ biến cho NER y tế và kết luận rằng phương pháp kết hợp sử dụnghọc máy và tri thức miền có kết quả tốt hơn Có rất nhiều hệ thống NER y sinh lai
Ví dụ, Sasaki và cộng sự [STM08] sử dụng một phương pháp tiếp cận dựa trên
từ điển để xác định tên protein song song với gán nhãn từ loại Sau đó, họ sửdụng một phương pháp tiếp cận dựa trên CRF để giảm các kết quả sai, thiếu trongchuỗi kết quả được dán nhãn Một phương pháp khác tạo ra một bộ siêu họcmáy (metalearners) từ nhiều phương pháp thống kê Ví dụ, Zhou và cộng sự[ZSZ05] xây dựng bộ nhận dạng thực thể từ việc lai ghép hai mô hình HMMs đượcđào tạo với các dữ liệu khác nhau và đầu ra của chúng được kết hợp sử dụng SVM
để nhận dạng protein và gen Tương tự như vậy, Mika và Rost [MR04] tạo một bộ
đa học máy để nhận dạng tên protein từ ba mô hình SVM huấn luyện trên các tập
dữ liệu và đặc trưng khác nhau, đầu ra của chúng được kết hợp bằng mô hình SVMthứ tư Cuối cùng Cai và Cheng [CC09] trình bày một cách tiếp cận cho NER ysinh sử dụng ba bộ phân lớp khác nhau để nâng cao khả năng tổng quát của hệthống
1.5 Tổng kết chương
Trong chương này, phần đầu tiên luận án đã trình bày khái quát một số kháiniệm cơ bản của vấn đề nhận dạng thực thể bao gồm định nghĩa về bài toán nhậndạng thực thể, một số thách thức, độ đo đánh giá và ứng dụng của nhận dạng thực
Trang 40thể trong các bài toán khác nhau Phần tiếp theo, luận án nêu lên một số nét nổi bậttrong lịch sử nghiên cứu của bài toán nhận dạng thực thể, bên cạnh đấy một sốhướng tiếp cận giải quyết và các công trình nghiên cứu tiêu biểu cũng được đưa ramột cách khái quát Trong hai mục 1.3 và 1.4, luận án tổng kết một số vấn đề cầnlưu ý bao gồm động cơ nghiên cứu, tài nguyên hỗ trợ, tình hình nghiên cứu đối vớihai miền dữ liệu sẽ giải quyết trong luận án là miền dữ liệu văn bản tiếng Việt
và miền dữ liệu văn bản y sinh tiếng Anh Các chương tiếp theo sẽ mô tả chi tiết
về từng bài toán đã được luận án giải quyết trong hai miền dữ liệu trên