1. Trang chủ
  2. » Thể loại khác

Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng

137 24 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 137
Dung lượng 3,14 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu cụ thể và phạm vi nghiên cứu của luận án Như đã nêu trong lý do chọn đề tài, luận án tập trung vào bài toán nhận dạng thực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN MAI VŨ

NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN

VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội–2018

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN MAI VŨ

NGHIÊN CỨU NHẬN DẠNG THỰC THỂ CÓ TÊN

VÀ THỰC THỂ BIỂU HIỆN TRONG VĂN BẢN VÀ ỨNG DỤNG

Chuyên ngành: Hệ thống thông tin

Trang 3

1

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác giả trước khi đưa vào luận án Các kết quả nêu trong luận án là trung thực và chưa từng được công bố trong các công trình nào khác

Tác giả

Trần Mai Vũ

Trang 4

2

LỜI CẢM ƠN

Luận án được thực hiện tại Bộ môn Hệ thống thông tin - Khoa Công nghệ thông tin - Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, dưới sự hướng dẫn khoa học của PGS.TS Hà Quang Thụy và PGS.TS Nguyễn Lê Minh

Trước tiên tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS Hà Quang Thụy và PGS.TS Nguyễn Lê Minh, những người đã đưa tôi đến với lĩnh vực nghiên cứu này Các thầy đã tận tình giảng dạy, hướng dẫn giúp tôi tiếp cận và đạt được thành công trong công việc nghiên cứu của mình Các thầy đã luôn tận tâm động viên, khuyến khích và chỉ dẫn giúp tôi hoàn thành được bản luận án này Tôi xin bày tỏ lòng biết ơn tới các Thầy Cô thuộc Khoa Công nghệ thông tin

và cán bộ Phòng Đào tạo - Trường Đại học Công nghệ, đã tạo mọi điều kiện thuận lợi giúp đỡ tôi trong quá trình học tập và nghiên cứu tại trường

Tôi xin cảm ơn PGS TS Nigel Collier và cộng sự đã đóng góp ý kiến quý báu giúp tôi hoàn thiện bản luận án

Sự động viên, cổ vũ của bạn bè là nguồn động lực quan trọng để tôi hoàn thành luận án Tôi xin bày tỏ lòng biết ơn sâu sắc tới gia đình, vợ và các con tôi đã tạo điểm tựa vững chắc cho tôi có được thành công như ngày hôm nay

Tác giả

Trần Mai Vũ

Trang 5

Mục tiêu cụ thể và phạm vi nghiên cứu của luận án 12

1.3.1 Những thách thức đối với xử lý dữ liệu tiếng Việt 24

1.4.Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số

1.4.1 Những thách thức đối với xử lý dữ liệu y sinh 29

Trang 6

4

Chương 2 – NHẬN DẠNG THỰC THỂ TÊN NGƯỜI KẾT HỢP VỚI NHẬN

DẠNG THUỘC TÍNH THỰC THỂ CÓ TÊN TRONG VĂN BẢN

2.3 Một mô hình giải quyết bài toán nhận dạng thực thể tên người kết hợp với

2.4.2 Kết quả thực nghiệm đánh giá trên toàn hệ thống 492.4.3 Kết quả thực nghiệm đánh giá trên từng nhãn 502.5 Mô hình áp dụng vào hệ thống hỏi đáp tên người tiếng Việt 52

2.5.2 Đặc trưng câu hỏi liên quan đến thực thể tên người trong tiếng Việt 53

Trang 7

3.3.1 Thực nghiệm 1: đánh giá hiệu quả của mô hình đề xuất với các kỹ

3.3.2 Thực nghiệm 2: so sánh kết quả của mô hình đề xuất với một số

3.3.3 Thực nghiệm 3: đánh giá đóng góp của từng tài nguyên đối với kết

3.3.4 Thực nghiệm 4: ứng dụng mô hình đề xuất để nhận dạng thực thể y

3.4 Thích nghi miền dữ liệu trong nhận dạng thực thể y sinh 96

Chương 4 – MỘT MÔ HÌNH NÂNG CẤP HIỆU QUẢ NHẬN DẠNG THỰC THỂ

Y SINH DỰA TRÊN KỸ THUẬT LAI GHÉP VÀ HỌC XẾP HẠNG 1024.1 Mô hình nâng cấp nhận dạng thực thể biểu hiện và các thực thể liên quan 102

4.2.2 Phương pháp lai ghép sử dụng học máy gán nhãn chuỗi 1074.2.3 Phương pháp lai ghép sử dụng học xếp hạng 108

Trang 9

7

DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT

NER Named Entity Recognition Nhận dạng thực thể định

danh NLP Natural Language Processing Xử lý ngôn ngữ tự nhiên BioNLP Biomedical Natural Language

Processing Xử lý ngôn ngữ tự nhiên cho dữ liệu y sinh

IE Information Extraction Trích xuất thông tin

CRF Conditional Random Fields Trường ngẫu nhiên có điều

kiện SVM Support Vector Machine Máy véctơ hỗ trợ

SVM-LTR SVM-Learn to rank Học xếp hạng máy véctơ hỗ

trợ MEModel,

Maxent Model Maximum Entropy Model Mô hình Entropy cực đại MEM+BS Maximum Entropy Model

with Beam Search

Mô hình Entropy cực đại với giải mã tìm kiếm chùm

Trang 11

9

Bảng 4.3 Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng

xấp xỉ ngẫu nhiên đối với các thực nghiệm loại bỏ lần lƣợt từng tài

Bảng 4.4 Kiểm thử độ tin cậy dựa trên thống kê về sự khác biệt hiệu năng sử dụng

Bảng 4.5 Các lỗi của mô đun quyết định kết quả sử dụng danh sách ƣu tiên (PL) và

Trang 12

10

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình 0.1 Thống kê các công trình nghiên cứu liên quan đến cụm từ ―named entity

recognition‖ trên Springer từ 2002 - tháng 11/2017 11Hình 0.2 Biểu đồ phân bố các công trình đã công bố của nghiên cứu sinh tương ứng

Hình 1.1 Mô tả các độ đo độ chính xác, độ hồi tưởng và độ đo F1 20Hình 1.2 Các nhiệm vụ về xử lý ngôn ngữ tự nhiên cho văn bản y sinh trong giai

Hình 3.2 Ví dụ chứa các thực thể biểu hiện, gen, bệnh và mối quan hệ giữa chúng 68Hình 3.3 Lược đồ ngữ nghĩa của các loại thực thể nhận dạng trong luận án 73Hình 3.4 Mô hình nhận dạng thực thể biểu hiện của Khordad và cộng sự [KMR11] 76Hình 3.5 Mô hình nhận dạng thực thể biểu hiện và các thực thể liên quan 82Hình 4.1 Kiến trúc tổng quan của hệ thống NER y sinh 103Hình 4.2 Một ví dụ gán nhãn các đặc trưng dựa trên tài nguyên trong câu 104Hình 4.3 Mô hình hệ thống sử dụng danh sách ưu tiên để quyết định kết quả 106

Hình 4.5 Mô hình hệ thống sử dụng MEM + BS để quyết định kết quả 107Hình 4.6 Mô hình hệ thống sử dụng SVM-LTR để quyết định kết quả 109

Trang 13

11

MỞ ĐẦU

Lý do chọn đề tài

Nhận dạng thực thể có tên (Named entity recognition:NER; còn đƣợc gọi là

―nhận dạng thực thể định danh‖) là một bài toán chính thuộc lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Đây là một bài toán tiền đề cho các hệ thống về hiểu ngôn ngữ hay khai phá dữ liệu văn bản nhƣ trích xuất sự kiện, hỏi đáp tự động hay tìm kiếm ngữ nghĩa.Chính vì vậy, cùng với sự phát triển của dữ liệu văn bản trên Internet, bài toán này cũng nhận đƣợc sự quan tâm của cộng đồng nghiên cứu trong khoảng 20 năm trở lại đây

Hình 0.1 Thống kê các công trình nghiên cứu liên quan đến cụm từ “named entity

recognition” trên Springer từ 2002 - tháng 11/2017

Kết quả trả lời của trang web tìm kiếm của Springervới truy vấn ―Named

entity recognition‖theo cách chính xác cụm từ (―with the exact phrase”)1cho thấy

từ năm 2002 đến nay có trên 3500công trình liên quan,với trên 1800 công trình công bố trong 5 năm gần đây từ 2013 đến 2017(khoảng 350công trình/năm) nhƣ chỉ

ra ở Hình 0.1 Không chỉ nhiều về số lƣợng, các nghiên cứu về NER cũng xuất hiện

1 https://link.springer.com/search?query=%22%E2%80%9CNamed+entity+recognition%E2%80%9D%22&d ate-facet-mode=between&facet-start-year=1998&showAll=true#

Trang 14

12

thường xuyên tại các hội nghị thường niên hàng đầu về NLP như ACL, EMNLP, NAACL,… hay các tạp chí danh tiếng có chỉ số IF (impact factor) cao như PLOSONE, Bioinformatics, TKDE, TACL,…

Mặc dù đã có khá nhiều công trình nghiên cứu cho một số loại thực thể thông thường trong văn bản tiếng Anh tuy nhiên những nghiên cứu liên quan đến các thực thể trong ngôn ngữ khác như tiếng Việt hay các miền dữ liệu đặc biệt như miền dữ liệu y sinh vẫn còn rất nhiều hạn chế và thách thức Có thể kể đến là sự khuyết thiếu các tập dữ liệu gán nhãn chuẩn, tài nguyên ngôn ngữ về tri thức miền hay các định nghĩa hình thức về kiểu thực thể cần nhận dạng…Luận án này tiếp nối những nghiên cứu trước đó nhằm giải quyết một phần những hạn chế được nêu ra ở trên Mục tiêu cụ thể và phạm vi nghiên cứu của luận án sẽ được mô tả kỹ hơn ở phần tiếp theo

Mục tiêu cụ thể và phạm vi nghiên cứu của luận án

Như đã nêu trong lý do chọn đề tài, luận án tập trung vào bài toán nhận dạng thực thể với hai loại dữ liệu thuộc hai ngôn ngữ khác nhau là các thực thể thuộc dữ liệu văn bản tiếng Việt và các thực thể thuộc dữ liệu văn bản y sinh

Mục tiêu cụ thể của luận án là phát triển vấn đề, đề xuất giải pháp và xây dựng thực nghiệm cho việc nhận dạng các loại thực thể thuộc hai miền dữ liệu trên

Nhìn chung, bài toán nhận dạng thực thể đã được quan tâm nghiên cứu và đạt được một số kết quả nhất định, tuy nhiên các kết quả này hầu hết chỉ xử lý cho các thực thể thông thường trong văn bản tiếng Anh.Trong khi đấy, nhận dạng thực thể với miền dữ liệu văn bản thông thường tiếng Việt và văn bản y sinh vẫn còn nhiều vấn đề lớn đặt ra như không có một tập dữ liệu chuẩn cùng những mô tả rõ ràng về khái niệm liên quan đến các thực thể hay các tài nguyên công cụ phục vụ cho việc nhận dang Nhìn nhận được các hạn chế này, luận án tập trung vào giải quyết hai bài toán nói trên trong phạm vi dữ liệu có tính chất đặc thù hơn, cụ thể là:

 Giải quyết bài toán nhận dạng thực thể cho dữ liệu văn bản tiếng Việt

Nghiên cứu sinh đi sâu vào việc tìm hiểu những thành quả nghiên cứu tiên tiến về nhận dạng thực thể với mong muốn áp dụng và đề xuất các cải tiến mới nhằm áp dụng và cải thiện hiệu quả cho quá trình nhận dạng thực thể trong văn bản tiếng Việt Bên cạnh đấy, luận án tìm hiểu một trong

Trang 15

13

nhữnghướng ứng dụng điển hình của các mô hình nhận dạng thực thể tiếng Việt, cụ thể ở đây là bài toán hỏi đáp tự động cho tiếng Việt

 Giải quyết bài toán nhận dạng thực thể cho dữ liệu y sinh (tiếng Anh)

Số lượng dữ liệu y sinh dưới dạng điện tử đang tăng với tốc độ cao tạo nên tiềm năng lớn phục vụ cho một loạt các ứng dụng xã hội, đặc biệt là y tế cộng đồng Với tiềm năng nói trên và tính chất phức tạp từ đặc thù chuyên ngành, khai phá dữ liệu y sinh đang là một thách thức lớn đối với các nhà khoa học trên toàn thế giới Nắm bắt được xu hướng nghiên cứu này, luận án khảo sát và đề xuất phương án giải quyết bài toán nhận dạng thực thể trong văn bản y sinh kết hợp nhiều nguồn tài nguyên tri thức cũng như các kỹ thuật học máy thống kê Luận án tập trung vào bài toán nhận dạng thực thể biểu hiện (phenotype) và các thực thể liên quan như: gene, bệnh, bộ phận cơ thể,…

Trên cơ sở phân tích công phu các giải pháp tiên tiến trên thế giới, luận án được định hướng vào việc nghiên cứu phát triển các giải pháp hiệu quả tương thích với miền dữ liệu có nhiều đặc trưng đặc biệt và xây dựng thực nghiệm đánh giá Cụ thể, luận án giải đáp các vấn đề nghiên cứu sau đây:

 Khảo sát và đưa ra các phương án xử lý các đặc điểm riêng biệt của với dữ liệu tiếng Việt và dữ liệu y sinh tiếng Anh

 Đề xuất phương án tiếp cận mới tận dụng được các nghiên cứu tiên tiến trước

đó và tiếp cận giải quyết được những đặc điểm riêng biệt của miền dữ liệu đang xem xét

 Xây dựng bộ dữ liệu phục vụ cho thực nghiệm

 Xây dựng các thực nghiệm để đánh giá các mô hình giải quyết bài toán đã đề xuất

 Xây dựng hệ thống chạy thực tế đối với các mô hình đạt kết quả khả quan

 Định hướng phát triển nâng cấp nghiên cứu

Ở Việt Nam, đã có một số luận án tiến sĩ nghiên cứu về các bài toán nhận dạng thực thể trong tiếng Việt Luận án tiến sĩ của Sam Chanrathany (2013) [SC13] làm

về trích xuất thực thể và một số mối quan hệ hai ngôi giữa các thực thể trong tiếng

Trang 16

14

Việt sử dụng phương pháp học bán giám sát Luận án tiến sĩ của Nguyễn Thanh Hiên (2011) [NTH11] giải quyết vấn đề phân biệt nhập nhằng giữa các thực thể dựa trên nguồn tri thức từ các ontology miền đóng và miền mở Cả hai luận án này đã đưa ra được một số cách giải quyết nhận dạng thực thể cùng xử lý nhập nhằng thông qua các thuộc tính có quan hệ đến thực thể Tuy nhiên tập dữ liệu đánh giá là tương đối nhỏ (1200 câu) chưa thể hiện rõ được hiệu quả mà các phương pháp đem lại

Luận án khảo sát một số luận án Tiến sỹ trên thế giới liên quan đến chủ đề nhận dạng thực thể gene và thực thể biểu hiện, điển hình là [VA10, KM14] Vlachos (2010) [VA10] tập trung giải quyết hai bài toán là nhận dạng thực thể các thực thể gene và trích xuất sự kiện tại hội thảo BioNLP, các phương pháp được áp dụng hầu hết dựa trên kỹ thuật nhận dạng bằng luật và một ít kỹ thuật học máy nên các mô hình chưa cho kết quả cao Khordad (2014) [KM14] đi sâu vào bài toán nhận dạng thực thể biểu hiện và thực thể gene, sau đó dựa vào kết quả nhận dạng để phát hiện các mỗi quan hệ giữa biểu hiện – gene Luận án này mặc dù đã đề cập đến thực thể biểu hiện tuy nhiên chưa nêu được một định nghĩa rõ ràng về thực thể biểu hiện nên bỏ sót khả nhiều kết quả trong quá trình nhận dạng, bên cạnh đấy, luận án này cũng chỉ quan tâm đến mối quan hệ giữa biểu hiện – gene mà chưa quan tâm đến mối quan hệ giữa biểu hiện và các loại thực thể khác như bệnh, hóa chất, bộ phận cơ thể v.v

Đối sánh nội dung các công trình nghiên cứu trong và ngoài nước, trong đó có luận án Tiến sỹ, luận án của nghiên cứu sinh có những điểm khác biệt về khía cạnh phương pháp tiếp cận cũng như về khía cạnh dữ liệu Cụ thể là:

- Đối với bài toán nhận dạng thực thể trong văn bản tiếng Việt, luận án tập trung vào hai vấn đề đó là kết hợp cùng lúc cả nhận dạng thực thể và nhận dạng thuộc tính thực thể trong cùng một mô hình và kiểm chứng trên tập

dữ liệu đủ tin cậy (10.000 câu gán nhãn) Hơn nữa, nghiên cứu sinh cũng

áp dụng mô hình đề xuất vào bài toán hỏi đáp tự động để kiểm định hiệu quả thực tế của mô hình

- Đối với bài toán nhận dạng thực thể y sinh trong văn bản tiếng Anh, luận

án đưa ra những định nghĩa cụ thể hơn về các khái niệm liên quan đến các thực thể biểu hiện, xây dựng hai tập dữ liệu đánh giá tin cậy (900 câu gán

Trang 17

Về nghiên cứu lý thuyết, luận án tập trung đề xuất một số giải pháp nhận dạng

thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán Kết quả của các mô hình đạt hiệu quả khả quan có thể áp dụng được trong các

hệ thống chạy thực tế

Luận án trình bày một cách hệ thống các vấn đề liên quan đến bài toán nhận diện thực thể biểu hiện và các thực thể liên quan như: định nghĩa cụ thể về khái niệm thực thể biểu hiện, cách thức gán nhãn dữ liệu, phương pháp đánh giá và kiểm thử hiệu quả hay vấn đề thích nghi miền (domain adaptation) trong miền dữ liệu thực thể biểu hiện.Hơn nữa, luận án cũng đưa ra được một số khung làm việc (framework) cho việc trích xuất sự kiện cho tiếng Việt cũng như sự kiện trong văn bản y sinh tiếng Anh

Các kết quả nghiên cứu lý thuyết của luận án được công bố trong các ấn phẩm khoa học chuyên ngành có uy tín [CTLA1, CTLA2, CTLA4 -CTLA7]là minh chứng cho ý nghĩa khoa học của luận án

Về triển khai ứng dụng, luận án đã đề xuất thựcthi mô hình hỏi đáp tự động

tiếng Việt dựa trên nhận dạng thực thể[CTLA5] Xây dựng hệ thống tra cứu và tham khảo các mối quan hệ giữa thực thể biểu hiện – bệnh PhenoMiner (tại địa chỉ http://phenominer.mml.cam.ac.uk/)

Kết quả triển khai ứng dụng thông qua các hệ thống thử nghiệm và tra cứu nói trên cho thấy luận án có ý nghĩa thực tiễn

Cấu trúc của luận án

Tiếp nối phần mở đầu này, nội dung chính của luận án được bố cục thành bốn chương và phần kết luận Chương 1 của luận án trình bày hệ thống các lý thuyết cơ

Trang 18

Dưới đây là danh sách các công trình đã công bố của nghiên cứu sinh liên quan được sử dụng trong các chương của luận án

Hình 0.2 Biểu đồ phân bố các công trìnhđã công bố của nghiên cứu sinh tương ứng

với các chương của luận án

Trang 19

17

Chương 1 - KHÁI QUÁT VỀ NHẬN DẠNG THỰC THỂ

Chương 1 của luận án hệ thống hóa các lý thuyết cơ bản về nhận dạng thực thể Chương này được cấu trúc thành bốn phần nội dung chính Phần 1 trình bày và phân tích các khái niệm cơ bản và các thuật ngữ cần quan tâm trong lĩnh vực nghiên cứu, ngoài các định nghĩa, phần này cũng khái quát hóa các độ đo thường được sử dụng trong nhận dạng thực thể Phần 2 nêu ra một số hướng tiếp cận giải quyết chính cũng như một số hướng tiếp cận mới trong nghiên cứu về nhận dạng thực thể Các hướng tiếp cận này sẽ được nêu ra trong hai phần, tương ứng với từng loại dữ liệu là dữ liệu văn bản tiếng Anh và dữ liệu văn bản tiếng Việt.Phần 3 trình bày cụ thể một số kỹ thuật học máy tiêu biểu thường được sử dụng trong nhận dạng thực thể cũng như trong các nghiên cứu của luận án Cuối cùng, phần 4nêu ra tiềm năng nghiên cứu và điểm qua một vài ứng dụng nổi bật của nhận dạng thực thể

1.1 Một số khái niệm cơ bản

1.1.1 Định nghĩa bài toán nhận dạng thực thể

Bài toán nhận dạng thực thể (hay còn gọi là bài toán nhận dạng thực thể định danh;Named Entity Recognition; NER)là bài toán xác định (phát hiện) các biểu diễn trong văn bản và phân lớp chúng vào các kiểu thực thể định danh được định nghĩa trước như Người, Địa danh, Thời gian, Số, tiền tệ, v.v Bài toán này có thể bao gồm

cả việc nhận dạng các thông tin hay thuộc tính mô tả về thực thể Ví dụ, trong trường hợp của thực thể tên người, hệ thống NER có thể trích xuất cả các thông tin

về Chức danh, Quốc tịch, Địa chỉ, Giới tính, v.v

Một thực thể định danh là một chuỗi các từ chỉ đến một thực thể trong thế giới

thực, ví dụ như "California", “Hà Nội”, “Võ Nguyên Giáp”, "Steve Jobs" và

"Apple" Một thực thể định danh có thể được xếp vào một loại thực thể nào đó, như

Người, Địa điểm, Tổ chức, Thời gian, v.v Như vậy, các thực thể chính là những đối tươ ̣ng cơ bản nhất trong mô ̣t văn bản dù ở bất kì ngôn ngữ nào

Trang 20

tổ chức và địa điểm.”

Các kiểu thực thể định danh không chỉ bao gồm một số kiểu thông dụng như tên người, địa danh, tên tổ chức mà còn có rất nhiều kiểu khác phụ thuộc vào đặc trưng của loại dữ liệu, miền dữ liệu hay mục đích của hệ thống ứng dụng nhận dạng thực thể Có thể kể đến một số kiểu thực thể được nêu ra tạicác nhiệm vụ xử lý ngôn ngữ tự nhiên (task/shared task) như sau:

- Những kiểu thực thể định danh thông dụng nhất được tập trung nghiên cứu là người, tổ chức và địa điểm, chúng được định nghĩa lần đầu tại Message Understanding Conference-6 (MUC-6) Những kiểu thực thể này là phổ biến đủ để

có thể trở nên hữu ích trong nhiều miền ứng dụng Việc trích xuất các biểu diễn ngày tháng, giờ, tiền tệ và tỷ lệ phần trăm, cũng đượcMUC-6 giới thiệu, thường cũng được xử lý trong NER, mặc dù nói đúng ra thì các biểu diễn này không phải là thực thể định danh

- Nhiệm vụ tại chương trình Automatic Content Extraction (ACE) đưa ra thêm nhiều loại thực thể mới, các loại thực thể được tổ chức dưới dạng cây phân cấp, chi tiết hơn MUC6 Ví dụ như kiểu thực thể tên tổ chức (organisation) có các loại con như tên tổ chức chính phủ, tổ chức giáo dục hay tổ chức thương mại [DMP04]

- Bên cạnh các kiểu thực thể thông thường trong văn bản tin tức, các loại thực thể liên quan đến y sinh cũng nhận được nhiều sự quan tâm Hội thảo BioNLP/JNLPBA 2004 có nhiệm vụ yêu cầu nhận diện thực thể y sinh gene và protein [KOT04] hay nhiệm vụ Track3-CDR tại hội thảo BioCreative V (2015) yêu cầu phát hiện thực thể bệnh và thuốc [WPL15]

Trang 21

19

1.1.2 Thách thức

Tuy là một bài toán cơ bản, nhưng nhận dạng thực thể cũng gặp phải không ít thách thức cần giải quyết do độ phong phú và sự nhập nhằng của ngôn ngữ Thông thường thì bài toán này không thể được thực hiện một cách đơn giản nếu chỉ sử dụng đối sánh chuỗi với các từ điển đã được xây dựng trước vì các thực thể định danh của một kiểu thực thể thường không phải là một một tập đóng, do đó bất kỳ từ điển nào cũng sẽ là không đầy đủ Một lý do khác là loại thực thể định danh có thể

phụ thuộc vào ngữ cảnh Ví dụ, "JFK" có thể chỉ tới người "John F Kennedy”, địa điểm "sân bay quốc tế JFK", hoặc bất kỳ loại nào khác có cùng dạng viết tắt đó Tương tự “Sông Lam Nghệ An” có thể là địa điểm chỉ tên một con sông tại tỉnh Nghệ An hay tên một đội bóng “Sông Lam Nghệ An” Để xác định loại cho thực thể

"JFK"hay“Sông Lam Nghệ An” xuất hiện trong một tài liệu cụ thể, cần phải xem

xét đến ngữ cảnh chứa nó

Bên cạnh yếu tố về ngữ nghĩa, các yếu tố liên quan đến đặc trưng ngôn ngữ cũng góp phần làm bài toán nhận dạng thực thể trở nên khó khăn Một số ngôn ngữ như tiếng Việt ngoài việc thiếu các tài nguyên xử lý ngôn ngữ tự nhiên còn phải thực hiện một số bài toán con như tách từ trước khi nhận dạng thực thể, tỷ lệ lỗi của các bài toán con sẽ ảnh hưởng đến kết quả của bài toán nhận dạng thực thể Ngoàira, từng loại thực thể cũng có những thách thức riêng khác nhau ảnh hưởng

đến hiệu quả của mô hình nhận dạng Ví dụ thực thể tên tổ chức ―Ủy ban nhân dân Thành phố Hà Nội‖ có chứa thực thể tên địa danh ―Thành phố Hà Nội‖

1.1.3 Độ đo đánh giá

Để đánh giá các mô hình nhận dạng thực thể cần phải tạo ra tập các tài liệu được gán nhãn bằng tay Đối với việc đánh giá trên từng miền cụ thể, các tài liệu được lựa chọn gán nhãn phải liên quan đến dữ liệu miền mục tiêu Ví dụ, để đánh giá việc trích xuất các thực thể gen và protein, ta phải sử dụng các tài liệu y sinh như các tóm tắt từ kho dữ liệu PubMed Nhưng nếu mục đích là để đánh giá so sánh giữa các kỹ thuật nhận diện thực thể nói chung, cần phải sử dụng một tập dữ liệu

Trang 22

Các số đo đánh giá điển hình được sử dụng cho nhận dạng thực thể là độ chính xác (precision - P), độ hồi tưởng (recall - R) và độ đo F1 (F1-measure) Độ chính xác được tính bằng phần trăm các kết quả đúng trong tổng số kết quả nhãn dương của hệ thống Độ hồi tưởng là phần trăm các trường hợp được gán nhãn đúng trong tất cả các mẫu dương có trong dữ liệu Độ đo F1 là trung bình điều hòa của độ chính xác và độ hồi tưởng Hình 1.1 mô tả một cách trực quan các độ đo này

Hình 1.1 Mô tả các độ đo độ chính xác, độ hồi tưởng và độ đo F1

Trong nhận dạng thực thể, nói một cách chính xác thì một thực thể định danh được nhận dạng cần phải thỏa mãn hai tiêu chí: Một là xác định đúng biên thực thể

và hai là xác định đúng kiểu thực thể Hầu hết các đánh giá đòi hỏi việc ánh xạ chính xác biên thực thể Tuy nhiên, đôi khi trong một số trường hợp thì việc ánh xạ một phần cũng được chấp nhận, ví dụ khi mục tiêu chỉ là xác định liệu thực thể nào

đó có được nhắc đến trong văn bản hay câu hay không [TWC06]

Trang 23

21

1.1.4 Ứng dụng của nhận dạng thực thể

Nhận dạng thực thể là một bài toán quan trọng, thường được sử dụng như là một bước tiền xử lý trong các hệ thống trích xuất thông hay trích chọn thông tin phức tạp Có thể kể đến nhận dạng thực thể xuất hiện trong một số các ứng dụng sau:

 Trích xuất quan hệ là bài toán nhận diện các mối quan hệ ngữ nghĩa giữa hai thực thể hay giữa một thực thể và một khái niệm [GLR06], ví dụ như mối

quan hệ người-nơi làm việc (Ronaldo, Real Madrid) hay quan hệ nơi sinh (Hồ Chí Minh, Nghệ An) Trong bài toán này, bài toán nhận diện thực thể là

vấn đề đầu tiên cần được giải quyết trước khi trích xuất quan hệ

 Trích xuất sự kiện là bài toán phức tạp hơn trích xuất quan hệ khi sự kiện là một tổ hợp của nhiều yếu tố thể hiện các thông tin biểu diễn về ai/cái gì đã làm gì, với ai/cái gì, bao giờ, ở đâu, bằng cách nào và tại sao Các sự kiện có thể là một sự kiện trong thế giới thực như sự kiện khủng bố, sự kiện tài chính,… hay cũng có thể là một sự kiện xảy ra của một quá trình tự nhiên như các sự kiện y sinh liên quan đến biến đổi gene hay gene gây bệnh Tương tự như trích xuất quan hệ, trong trích xuất sự kiện vấn đề nhận dạng thực thể cũng đặt lên hàng đầu khi yêu cầu phải nhận ra đủ và chính xác các thành phần cấu thành nên sự kiện Nhiều hệ thống về trích xuất sự kiện đã áp dụng thành công NER trong các thành phần xử lý như hệ thống BioCaster

 Hệ thống hỏi đáp tự động đang là một lĩnh vực nhận được sự quan tâm lớn trong thời điểm lượng thông tin và tri thức bùng nổ Khá nhiều các hệ thống hỏi đáp tự động dựa trên khai phá văn bản cần đến nhận dạng thực thể như là một yếu tố làm tăng khả năng phân tích, hiểu câu hỏi và dữ liệu trả lời trong

hệ thống [HWY05] Có thể kể đến một số nghiên cứu sử dụng nhận dạng thực thể cho hệ thống hỏi đáp như nghiên cứu của Yao và Van Durme (2014) [YD14] sử dụng NER trong pha phân tích câu hỏi để xác định chủ đề hỏi hay

hệ hỏi đáp của West và cộng sự (2014) [WGM14] áp dụng NER cho việc

Trang 24

22

phát hiện các mối quan hệ có trong log được trả về từ máy tìm kiếm hỗ trợ cho thành phần trả lời câu hỏi

1.2 Sơ lược về lịch sử nghiên cứu và một số hướng giải quyết bài toán

Bài toán nhận dạng thực thể đã xuất hiện từ đầu những năm 1990 [RA91], nhưng chỉ được chính thức giới thiệu vào năm 1995 tại hội nghị MUC-6với tư cách

là một bài toán con của trích xuất thông tin Kể từ đó, NER đã thu hút nhiều sự chú

ý của cộng đồng nghiên cứu Đã có khá nhiều hệ thống và chương trình được xây dựng thực thi bài toán này, có thể kể đến Automatic Content Extraction2, các công

bố trong nhiệm vụ cộng đồng thuộc hội nghị Conference on Natural Language Learning (CoNLL) năm 2002 và 2003, và chuỗi nhiệm vụ nhận dạng thực thể y sinh tại hội thảoBioCreative3(Critical Assessment of Information Extraction Systems in Biology)

Các giải pháp ban đầu cho nhận dạng thực thể dựa vào các mẫu được tạo một cách thủ công [AHB93] Sau đó các nghiên cứu đầu nhưng năm 2000 về nhận dạng thực thểđã đạt được rất nhiều kết quả khả quan bằng việc sử dụng các phương pháp học máy thống kê Một loạt các mô hình học máy khácnhau đã được đề xuất để giải quyết bài toán nhận dạng thực thể như mô hình Entropy cực đại (Maximum Entropy Model, MaxEnt Model)[BPP96], mô hình trường ngẫu nhiên điều kiện (Conditional Random Field; CRF) [LMP01].Bên cạnh sử dụng từng phương pháp riêng biệt để giải quyết bài toán, các phương pháp kết hợp hoặc lai ghép các mô hình học máy (ensemble models method) để đưa ra kết quả tốt hơn cũng là một hướng đi đạt được hiệu quả cao, điển hình là nghiên cứu của Florianvà cộng sự (2003) đã đạt được hiệu quả tốt nhất (88,76) tại nhiệm vụ CONLL-2003 [FIJ03]

2 Automatic content extraction (ACE) evaluation http://www.itl.nist.gov/iad/mig/tests/ace/

3 http://www.biocreative.org/

Trang 25

23

Sau khi các phương pháp học máy đạt được nhiều hiệu quả khả quan đối với nhận dạng thực thể trong văn bản tiếng Anh thông thường, các nghiên cứu gần đây

đi theo hai hướng chính [AZ12]:

 Hướng tiếp tục nâng cấp hiệu quả của phương pháp nhận dạng thực thể bằng cách đưa thêm các thông tin được sinh ra từ một lượng lớn dữ liệu không có nhãn, điển hình của hướng đi này là việc áp dụng các kỹ thuật học máy bán giám sát (semi-supervised) và học máy sâu (deep learning) Ando và Zhang

áp dụng học máy bán giám sát sử dụng 27 triệu từ chưa gán nhãn để nâng cấp chất lượng nhận dạng [AZ05], Ratinov và Roth cũng sử dụng bán giám sát với dữ liệu từ Wikipedia kết hợp với các cụm từ vựng (word clusters) được sinh ra bằng phương pháp gom cụm Brown [RR09].Kết quả của hai nhóm đều đạt cao hơn mô hình của Florian và cộng sự (2003) với các độ đo F1 tương ứng là 90,8 và 89,31 Collobertvà cộng sự (2011) đưa ra một cách giải quyết khác bằng việc sử dụng kỹ thuật học sâu với việc áp dụng mạng nơron nhiều tầng để huấn luyện mô hình nhận dạng thực thể kết hợp với các thông tin hỗ trợ từ 852 triệu từ chưa được gán nhãn, kết quả trên độ đo F1 đạtđược là 89,59 cũng cao hơn mô hình cơ sở của Florian và cộng sự Mặc

dù kết quả tăng chưa cao so với mô hình chuẩn tuy nhiên các nghiên cứu này tạo được sự quan tâm lớn của cộng đồng nghiên cứu khi đưa ra một hướng đi mới cho việc tăng cường ngữ nghĩa thông qua lượng dữ liệu lớn chưa có nhãn

 Một hướng đi khác của cộng đồng nghiên cứu là áp dụng các kỹ thuật học máy đã có vào các dạng thực thể khó hơn trong các miền dữ liệu khác như

dữ liệu y sinh, địa lý, mạng xã hội,… hay một loại ngôn ngữ khác không nhiều tài nguyên như tiếng Anh Bên cạnh đấy việc nghiên cứu các kỹ thuật thích nghi miền (domain adaptation) cũng được đặt ra khi các nhà nghiên cứu cố gắng áp dụng những mô hình nhận dạng thực thể đã tốt cho một miền

dữ liệu mới chưa có dữ liệu gán nhãn Một số nghiên cứu có thể kể đến như nghiên cứu của Daume (2007) đánh giá việc thích nghi miền giữa một số tập

Trang 26

24

dữ liệu nhận dạng thực thể [DA07] hay nghiên cứu của Wang và cộng sự (2009) đánh giá thích nghi miền trong nhận diện các thực thể protein [WKS09]

1.3.Nhận dạng thực thể trong dữ liệu văn bản tiếng Việt và một số nghiên cứu liên quan

Bắt nhịp với tình hình phát triển chung trên toàn thế giới, các văn bản tiếng Việt cũng ngày càng xuất hiện nhiều dưới dạng văn bản điện tử, và cùng với đó chính là nguyên nhân phát sinh nhu cầu khai thác thông tin có giá trị từ các văn bản này Nhận dạng thực thể đóng một vai trò chủ chốt trong khai phá văn bản, chính vì thế nó cũng nhanh chóng trở thành một lĩnh vực nghiên cứu được nhiều nhà khoa học trong nước quan tâm

Áp dụng được NER cho dữ liệu tiếng Việt đồng nghĩa với việc đặt một nền tảng quan trọng trong việc xây dựng được các hệ thống ứng dụng cho nhiều lĩnh vực khác như tài chính, kinh tế, xã hội, y sinh, v.v phù hợp với tình hình trong nước

Trong mục này, luận án tóm tắt về một số thách thức cần giải quyết khi xử lý văn bản tiếng Việt,động cơnghiên cứu và tầm quan trọng của bài toánbài toán nhận dạng thực thể tiếng Việt, điểm qua một số tài nguyên hữu ích cũng như tình hình nghiên cứu hiện tại

1.3.1 Những thách thức đối với xử lý dữ liệu tiếng Việt

Có thể nêu ra một số đặc điểm của tiếng Việt khiến cho nó trở nên khác biệt

và khó xử lý như sau, một số các đặc điểm dưới đây được tham khảo từ tài liệu [DH96] và một số khác dựa trên quan điểm của nghiên cứu sinh về tiếng Việt:

 Khác với tiếng Anh, Tiếng Viê ̣t thuô ̣c ngôn ngữ đơn lâ ̣p, tức là mỗi mô ̣t tiếng (âm tiết) đươ ̣c phát âm tách rời nhau và được thể hiê ̣n b ằng mô ̣t chữ viết Từ tiếng, người ta ta ̣o ra các đơn vi ̣ từ vựng khác để đi ̣nh danh sự vâ ̣t , hiê ̣n

tươ ̣ng v.v , chủ yếu nhờ phương thức ghép và phương th ức láy, ví dụ: “con người”, “khoa học”, “công nghệ thông tin”, “đu đủ”, “thừa thãi”,v.v Các

Trang 27

25

từ nàyđược viết rời theo từng âm tiết chứ không theo từng từ Chính điều này khiến cho việc xác định biên của một từ trong tiếng Việt trở nên khó khăn hơn

 Sự linh hoa ̣t trong sử dụng , viê ̣c ta ̣o ra các từ ngữ mới mô ̣t cách dễ dàng đã tạo điều kiện thuận lợi cho sự phát triển vốn từ nhưng đ ồng thời cũng gây khó khăn trong việc bao quát các thể hiện của ngôn ngữ Ví dụ, bên cạnh các yếu tố cấu ta ̣o từ thuần Viê ̣t, tiếng Việt có vay mượn từ các ngôn ngữ khác để

tạo ra các t ừ mới, như “ghi đông”, “karaoke”, “siêu liên kết” , v.v Các từ

địa phương xuất hiện trong văn bản cũng là một yếu tố khiến tiếng Việt trở nên phức tạp hơn

 Hiện tượng đồng âm khác nghĩa trong tiếng Việt là khá phổ biến, Ví dụ:

―lợi” (có ích lợi –tương ứng với ―benefit” trong tiếng Anh) và ―lợi” (―lợi” thuộc về răng hàm mặt–“alveolar‖)

 Ngược lại, cùng một sự vật, hiê ̣n tượng, mô ̣t hoa ̣t đô ̣ng hay mô ̣t đ ặc trưng lại

có thể có nhiều từ ngữ khác nhau biểu thị Hiện tượng các từ gần nghĩa, đồng nghĩa nhưng cách dùng khác nhau và không thể thay cho nhau trong mọi ngữ

cảnh cũng khá phổ biến, ví dụ: “hội đàm”, “hội nghị”, “hội thảo”, “toạ đàm”hay “tìm” và “kiếm”

 Ngữ pháp Việt Nam là ngữ pháp cực kỳ phức tạp Đối với hầu hết người Việt Nam, câu nói ―phong ba bão táp không bằng ngữ pháp Việt Nam‖ chắc chắn không phải là xa lạ Ngữ pháp Việt Nam phức tạp không phải bởi vì nó có bộ luật cồng kềnh và chặt chẽ như nhiều ngôn ngữ khác, mà ngược lại, vì nó quá linh động với vô số biến thể và trường hợp ngoại lệ Sự phức tạp của ngữ pháp Việt Nam được thể hiện ở nhiều khía cạnh, nó có thể bởi cách tư duy

khác nhau của người Việt (ví dụ ―áo ấm” và ―áo lạnh” là hai từ đồng nghĩa trong khi ―lạnh” và ―ấm” là hai từ trái nghĩa), do thói quen sử dụng từ (ví

dụ, về mặt lý thuyết thì ―con” được dùng trước danh từ chỉ động vật, nhưng trong thực tế ―con” lại kết hợp được với một số từ chỉ bất động vật như ―con mắt”, “con đường”, “con dao”, v.v ), hay do bản thân các cấu trúc trật tự từ

Trang 28

26

(ví dụ,Trong câu hỏi về tương lai, các từ bao giờ, khi nào, bao nhiêu thường

được đặt ở đầucâu, trong khi đó nếu để hỏi về quá khứ thì chúng thường được đặt ở cuối câu)

Một vấn đề khác mang tính kỹ thuật hơn Đó là vì sự phát triển còn non trẻ của lĩnh vực xử lý ngôn ngữ tự nhiên cũng như khai phá văn bản trong nước, các tài nguyên ngôn ngữ và công cụ hỗ trợ được xây dựng cho tiếng Việt còn rất ít và có nhiều hạn chế Cộng đồng nghiên cứu tiếng Việt cũng chưa có sự liên kết chặt chẽ, dẫn tới mỗi nghiên cứu lại có tính cá nhân mà chưa tận dụng được hết những kết quả của các nghiên cứu trước đó

1.3.2 Động cơ nghiên cứu

Như đã được trình bày, tiếng Việt có những đặc điểm khác biệt so với các ngôn ngữ khác (ví dụ như tiếng Anh), vì vậy, nhiều phương pháp nhận dạng thực thể đã được áp dụng thành công cho tiếng Anh song không đảm bảo đem lại kết quả tương ứng khi sử dụng cho dữ liệu tiếng Việt.Vì vậy việc đề xuất một phương pháp hiệu quả đối với dữ liệu tiếng Việt là nhiệm vụ bức thiết của chính những nhà nghiên cứu trong nước, trong đó có nghiên cứu sinh

Nắm bắt được nhu cầu thực tế và với mong muốn được cống hiến công sức của mình để nghiên cứu tiếng mẹ đẻ từ đó góp phần đem lại thêm những tri thức có giá trị đến với cộng đồng khoa học trong nước, nghiên cứu sinh coi việc tập trung nghiên cứubài toánnhận dạng thực thể trong văn bản tiếng Việt là một trong hai mục tiêu nghiên cứu chính của luận án

1.3.3 Các nghiên cứu liên quan

Nhận dạng thực thể trong tiếng Việt đang nhận được nhiều sự quan tâm của cộng đồng nghiên cứu trong nước cũng như các nhà nghiên cứu đang sống và làm việc tại nước ngoài Nhiều công trình nghiên cứu về trích xuất thông tin tiếng Việt

đã được đăng và xuất bản tại các hội nghị uy tín như: EACL, IJNLP, PAKDD,… hay các tạp chí có chỉ số cao như TALIP, TKDE,… bên cạnh đấy một số hội nghị

Trang 29

Bên cạnh các phương pháp học giám sát, các phương pháp học bán giám sát (semi-supervised learning) cũng được áp dụng trong nhiều nghiên cứu Trong

4 http://chasen.org/~taku/software/yamcha/

Trang 30

28

[SLT11a], Sam và cộng sự sử dụng phương pháp học bán giám sát lan truyền nhãn dựa trên đồ thị tương tự Với ưu điểm của các phương pháp học máy bán giám sát là tận dụng các nguồn dữ liệu lớn chưa được gán nhãn để hỗ trợ thông tin cho mô hình học, phương pháp này đã đạt được những kết quả khả quan trong nhận diện ba thực thể phổ biến là người, địa danh, tổ chức.Một hướng tiếp cận khác của học bán giám sát là học dựa trên các mẫu (pattern-based), Le Trung và cộng sự [LLL14] đã áp dụng phương pháp mồi dữ liệu (bootstrapping) để tự động sinh ra các mẫu nhận dạng thực thể từ một số lượng nhỏ các thực thể hạt giống (seed), phương pháp này cho hiệu quả tốt nếu tập dữ liệu huấn luyện nhỏ, tuy nhiên việc quản lý nhập nhằng giữa các mẫu ngữ pháp của các thực thể khác nhau là một thách thức không nhỏ khi vòng lặp sinh mẫu lớn hay số loại thực thể nhiều

Bên cạnh các nghiên cứu về nhận dạng thực thể, một số các nghiên cứu ứng dụng nhận dạng thực thể cũng được các nhà nghiên cứu trong nước nêu ra như trích xuất quan hệ và sự kiện tiếng Việt Sam và cộng sự (2011) [SLT11b] đã áp dụng phương pháp học bán giám sát mồi dữ liệu (bootstrapping) để sinh ra các mẫu ngôn ngữ nhận biết các cặp thực thể có quan hệ với nhau, bên cạnh đấy nghiên cứu cũng

áp dụng phương pháp SVM để xác định loại quan hệ cũng như làm tốt hơn kết quả trích xuất các mẫu ngôn ngữ Trong nghiên cứu về trích xuất sự kiện của mình, Nguyen và cộng sự [NN13] đã thực hiện việc trích xuất các sự kiện liên quan đến dịch bệnh trong miền dữ liệu văn bản tiếng Việt, các sự kiện dịch bệnh sẽ là một tổ hợp các thực thể liên quan đến dịch bệnh xuất hiện trong văn bản được xét và được nhận dạng dựa trên mô hình nhận dạng thực thể Việc xem xét các mối quan hệ giữa

sự kiện và thực thể hay giữa các thực thể và thực thể được thực hiện dựa vào một số luật đơn giản, chính vì thế hiệu quả của mô hình trích xuất sự kiện chưa đạt kết quả cao như các phương pháp sử dụng các kỹ thuật phân tích ngữ nghĩa sâu trong xử lý ngôn ngữ tiếng Anh

Trang 31

29

1.4.Nhận dạng thực thể trong dữ liệu văn bản y sinh tiếng Anh và một số nghiên cứu liên quan

1.4.1 Những thách thức đối với xử lý dữ liệu y sinh

Khai phá văn bản y sinh nói chung và nhận dạng thực thể y sinh nói riêng có nhiều điểm khác biệt so với lĩnh vực nghiên cứu này cho dữ liệu thông thường Nhận xét này thể hiện ở hai điểm: Thứ nhất, do mục tiêu cụ thể của các hệ thống khai phá văn bản y sinh, bên cạnh những đối tượng kinh điển như người, tổ chức, địa điểm, v.v hệ thống khai phá văn bản y sinh thường hướng tới một số đối tượng khác biệt hơn so với dữ liệu thông thường đòi hỏi phải có những mô hình nhận dạng thực thể chuyên biệt cho từng hệ thống, ví dụ như hệ thống liên quan đến các bệnh

di truyền đòi hỏi nhận diện các loại thực thể liên quan đến gene, protein, bệnh di truyền, thuốc, triệu chứng…, trong khi các hệ thống giám sát bệnh truyền nhiệm lại yêu cầu nhận dạng các loại thực thể như bệnh di truyền, số bệnh nhân, nguyên nhân Thứ hai, là ở tính đặc thù của các từ chuyên ngành trong lĩnh vực y sinh, các

từ chuyên ngành này thường không tuân theo những quy luật từ vựng và ngữ nghĩa thông thường Các khảo sát gần đây [ZDY07, ZD09] trong lĩnh vực này cho thấy các công cụ để khai phá văn bản và dữ liệu mở thông thường không phù hợp cho miền dữ liệu y sinh chính bởi tính chuyên ngành cao của nó Chính vì lý do này,các nghiên cứu trong lĩnh vực y sinh thường đòi hỏi sự hỗ trợ mang tính kinh nghiệm của các chuyên gia (các nhà sinh vật học và bác sĩ) trong việc xác định và hỗ trợ giải quyết các nhiệm vụ Cohen và Hunter [CH08] cho rằng phương pháp tiếp cận hiệu quả nhất đối với khai phá văn bản y sinh là sự kết hợp giữa các tri thức từ chuyên gia và các kỹ thuật tính toán

Phần dưới đây tóm tắt một số khó khăn chung của nhận dạng thực thể trong lĩnh vực y sinh được Lin và cộng sự (2004) nêu ra [LTC04]

 Nhiều thực thể chứa các từ viết tắt, chữ cái Hy Lạp, các dấu câu (như dấu gạch nối), v.v Cho đến nay chưa có một bộ danh pháp hay tiêu chuẩn đặt tên chính thức nào cho thực thể biểu hiện

Trang 32

1.4.2 Động cơ nghiên cứu

Hiện nay, số lượng các văn bản y tế và sinh học dưới dạng điện tử trên Internet cũng như được lưu trữ trong các hệ thống y tế đang tăng với tốc độ chóng mặt Việc khai thác hiệu quả nguồn tài nguyên này có thể đưa tới nguồn tri thức hữu ích cho người dùng như phát hiện bệnh dịch sớm, tổng hợp các kinh nghiệm phòng và chữa bệnh, nghiên cứu các cơ chế di truyền, tuyên truyền và nâng cao sức khỏe cộng đồng, v.v Vấn đề này càng cần phải được quan tâm thích đáng khi con người đang phải đối mặt với nhiều dịch bệnh truyền nhiễm mới đang phát triển và có chiều hướng gia tăng trong thời gian gần đây như cúm A H1N1, H5N1, Ebola, MERS-CoV v.v Những nghiên cứu liên quan đến xử lý ngôn ngữ tự nhiên cho văn bản y sinh (Biomedical Natural Language Processing; BioNLP) đã mang đến nhiều lợi ích cho việc khai thác nguồn dữ liệu y sinh, có thể kể đến những cơ sở dữ liệu hay ontology y sinh được xây dựng tự động hỗ trợ cho những nhà nghiên cứu sinh, bác

sĩ hay những hệ thống theo dõi thông tin về diễn biến dịch bệnh truyền nhiễm đang phát triển trên thế giới

Trong những hệ thống đấy, nhận dạng thực thể y sinh là một thành phần quan trọng trong quá trình phân tích và tổng hợp thông tin từ văn bản y sinh Đây là một bài toán khó vì mỗi một loại thực thể y sinh lại bao hàm nhiều tính chất đặc thù khác nhau về ngôn ngữ và y sinh đòi hỏi người nghiên cứu cần phải có sự kết hợp kiến thức cả xử lý ngôn ngữ tự nhiên và kiến thức y sinh mới có thể đưa ra một phương pháp hay mô hình nhận dạng thực thể hiệu quả

Trang 33

31

1.4.3 Các nghiên cứu liên quan

Các hướng nghiên cứu đối với nhận dạng thực thể y sinh thay vì tập trung vào việc đề xuất các phương pháp mới có hiệu quả tốt hơn thì tập trung vào việc giải quyết nhận dạng các loại thực thể y sinh khác nhau với các đặc trưng riêng cho từng miền dữ liệu riêng biệt Hầu hết các nghiên cứu về nhận dạng thực thể y sinh đều tập trung vào một số loại thực thể được đưa ra thông qua một số nhiệm vụ cộng đồng được công bố tại chuỗi hội nghị hay hội thảo lớn về xử lý ngôn ngữ tự nhiên cho văn bản y sinh (chẳng hạn, BioNLP) Theo thống kê dựa trên kết quả nghiên cứu của Huang và Lu (2015) [HL15] có khoảng 14 nhiệm vụ cộng đồng về nhận dạng thực thể y sinh trong giai đoạn 2002-2014 thuộc các chuỗi hội nghị, hội thảo lớn về BioNLP như BioCreAtivE [WAC12], BioNLP [NBK13], i2b2 [USS10], JNLPBA [KOT04], và LLL [NE05],… (xem Hình 1.2)

Hình 1.2 Các nhiệm vụ về xử lý ngôn ngữ tự nhiên cho văn bản y sinh

trong giai đoạn 2002-2014 [HL15]

Các nhiệm vụ này tập trung vào bốn nhóm thực thể chính là gene, hóa chất, thuốc và bệnh, trong từng nhóm lại có các loại thực thể khác ở mức độ cụ thể hơn như nhóm gene có thêm protein, tế bào, gene, nhóm bệnh có thể chia nhỏ theo các

Trang 34

32

loại bệnh (ung thư, bệnh liên quan đến tim, bệnh tự miễn dịch),… Bên cạnh các thực thể phổ biến được nêu ra tại các nhiệm vụ, một số loại thực thể cũng nhận được nhiều sự quan tâm và đưa vào bài toán nhận dạng thực thể như thực thể biểu hiện, dấu hiệu và triệu chứng (sign and symptom), sinh vật (organism, species),…

Về mặt phương pháp, các nghiên cứu nhận dạng thực thể y sinh cũng sử dụng các phương pháp nhận dạng thực thể truyền thống và kết hợp thêm các đặc trưng hay tri thức liên quan đến miền dữ liệu y sinh Có thể chia các hướng tiếp cận về nhận dạng thực thể y sinh theo 3 nhóm: nhóm phương pháp sử dụng luật và mẫu ngữ nghĩa cấu thành thực thể y sinh, nhóm phương pháp sử dụng học máy thống kê, nhóm phương pháp kết hợp các mô hình nhận dạng (ensemble models methods)

a Phương pháp sử dụng các luật và mẫu ngữ nghĩa cấu thành thực thể y sinh

Các phương pháp trong nhóm này thường dựa trên các đặc điểm chính tả và từ vựng để nhận diện thực thể, các loại thực thể có thể nhận dạng tốt là protein [FTT98] và tên hóa chất [NRV03] Những phương pháp đơn giản này có thể được cải tiến bằng cách bổ sung thông tin ngữ cảnh đang xem xét [HC03] và kết quả của phân tích cú pháp để xác định biên thực thể [FEO02] Một số hướng nghiên cứu mới hơn sử dụng các ontology để sinh các mẫu tổng quát cho một loại thực thể, như các nghiên cứu sử dụng mô hình EQ (Entity-Quality model) để nhận dạng thực thể biểu hiệncủa Collier và cộng sự (2013) [COG13] hay Groza và cộng sự (2013) [GHZ13] Tuy nhiên, trong khi phương pháp tiếp cận dựa trên luật thường đạt được hiệu suất tốt hơn so với phương pháp tiếp cận dựa trên từ điển, thì việc tạo ra các luật một cách thủ công là quá trình tốn nhiều thời gian, bên cạnh đấyviệc sinh các luật luôn rất cụ thể nhằm mục đích đạt được độ chính xác cao nên chúng rất khó được sử dụng để mở rộng đến các lớp thực thể khác

b Phương pháp sử dụng kỹ thuật học máy thống kê

Theo xu hướng chung của các nghiên cứu về nhận dạng thực thể, cácphương pháp học máy là nhóm được sử dụng phổ biến và đạt hiệu quả tốt trên nhiều loại

Trang 35

33

thực thể y sinh khác nhau Hầu hết các phương pháp học máy thống kê được sử dụng thuộc về dạng học có giám sát tuy nhiên cũng có một số nghiên cứu sử dụng một số kỹ thuật như bootstrapping hay các kỹ thuật bán giám sát khác [MHC04, UCO11] Các phương pháp học giám sát được sử dụng cho NER có thể được phân thành hai nhóm: phương pháp tiếp cận dựa trên phân lớp và phương pháp tiếp cận dựa trên chuỗi

Cách tiếp cận dựa trên phân lớp chuyển đổi nhiệm vụ NER thành một vấn đề

phân lớp, có thể được áp dụng cho các từ riêng lẻ hoặc nhóm từ Các bộ phân lớp thường được sử dụng cho NER y sinh bao gồm bộ phân lớp sử dụng Naive Bayes [NCT99] và bộ phân lớp sử dụng máy vector hỗ trợ (Support Vector Machine, SVM) [MFM05, TC05] Một cách tiếp cận phổ biến để phân lớp các cụm là tuân theo lược đồ gán nhãn BIO [RM95], trong đó một từ vựng (token) riêng lẻ được phân lớp thành bắt đầu (B) một thực thể, nằm trong biên (I) một thực thể hay nằm ngoài (O) biên của thực thể Hiệu suất của cách tiếp cận dựa trên phân lớp phụ thuộc rất nhiều vào sự lựa chọn các đặc trưng được sử dụng để huấn luyện, và nhiều tác giả đã nghiên cứu các cách kết hợp đặc trưng khác nhau Ví dụ, nhóm nghiên cứu của Mitsumori [MFM05], xem xét các đặc tính hình thái-cú pháp của các thực thể định danh, Takeuchi và Collier [TC05] xem xét các đặc trưng chính tả và các danh từ chính

Không giống như các phương pháp tiếp cận dựa trên phân lớp, hệ thống NER

dựa trên gán nhãn chuỗi xem xét việc gán một chuỗi các từ hoàn chỉnh thay vì

từng từ riêng hoặc cụm từlẻ Chúng được huấn luyện với các tập dữ liệu được gán nhãn nhằm mục đích dự đoán chuỗi các nhãn có khả năng nhất cho một chuỗi quan sát Những kỹ thuật thường được sử dụng cho NER y sinh là mô hình Markov ẩn (Hidden Markov Model, HMM) [KCO05], phương pháp dựa trên mô hình Markov entropy cực đại (Maximum Entropy Markov Model, MEMM) [SSM09] hay trường ngẫu nhiên có điều kiện (Conditional Random Fields, CRF) [OMT06] Cũng giống như các phương pháp thống kê khác, phương pháp tiếp cận dựa trên chuỗi có thể

Trang 36

34

được huấn luyện dựa rên một loạt các đặc trưng bao gồm các đặc trưng chính tả, thông tin tiền tố và hậu tố, và từ loại [KCO05]

c Phương pháp lai ghép các mô hình(ensemble models methods)

Nhóm phương pháp lai ghép các mô hìnhnhận dạng với cách tiếp cận không chỉ sử dụng một phương pháp duy nhất để thực hiện NER y sinh mà thay vào đó là dựa vào nhiều kỹ thuật và các nguồn tài nguyên khác nhau Những cách tiếp cận kết hợp thường khá thành công trong việc ghép các phương pháp tiếp cận dựa trên từ điển hoặc dựa trên luật với các phương pháp học máy thống kê Một bằng chứng về những ưu điểm của phương pháp tiếp cận lai là nghiên cứu của Abacha và cộng sự [AZ11b] so sánh hiệu quả của các phương pháp tiếp cận dựa trên luật và thống kê phổ biến cho NER y tế và kết luận rằng phương pháp kết hợp sử dụng học máy và tri thức miền có kết quả tốt hơn Có rất nhiều hệ thống NER y sinh lai Ví dụ, Sasaki

và cộng sự [STM08] sử dụng một phương pháp tiếp cận dựa trên từ điển để xác định tên protein song song với gán nhãn từ loại Sau đó, họ sử dụng một phương pháp tiếp cận dựa trên CRF để giảm các kết quả sai, thiếu trong chuỗi kết quả được dán nhãn Một phương pháp khác tạo ra một bộ siêu học máy (metalearners) từ nhiều phương pháp thống kê Ví dụ, Zhou và cộng sự [ZSZ05] xây dựng bộ nhận dạng thực thểtừ việc lai ghép hai mô hình HMMs được đào tạo với các dữ liệu khác nhau và đầu ra của chúng được kết hợp sử dụng SVM để nhận dạng protein và gen Tương tự như vậy, Mika và Rost [MR04] tạo một bộ đa học máy để nhận dạng tên protein từ ba mô hình SVM huấn luyện trên các tập dữ liệu và đặc trưng khác nhau, đầu ra của chúng được kết hợp bằng mô hình SVM thứ tư Cuối cùng Cai và Cheng [CC09] trình bày một cách tiếp cận cho NER y sinh sử dụng ba bộ phân lớp khác nhau để nâng cao khả năng tổng quát của hệ thống

1.5 Tổng kết chương

Trong chương này, phần đầu tiên luận án đã trình bày khái quát một số khái niệm cơ bản của vấn đề nhận dạng thực thể bao gồm định nghĩa về bài toán nhận dạng thực thể, một số thách thức, độ đo đánh giá và ứng dụng của nhận dạng thực

Trang 37

35

thể trong các bài toán khác nhau Phần tiếp theo, luận án nêu lên một số nét nổi bật trong lịch sử nghiên cứu của bài toán nhận dạng thực thể, bên cạnh đấy một số hướng tiếp cận giải quyết và các công trình nghiên cứu tiêu biểu cũng được đưa ra một cách khái quát Trong hai mục 1.3 và 1.4, luận án tổng kết một số vấn đề cần lưu ý bao gồm động cơ nghiên cứu, tài nguyên hỗ trợ, tình hình nghiên cứu đối với hai miền dữ liệu sẽ giải quyết trong luận án là miền dữ liệu văn bản tiếng Việt và miền dữ liệu văn bản y sinh tiếng Anh.Các chương tiếp theo sẽ mô tả chi tiết về từng bài toán đã được luận án giải quyết trong hai miền dữ liệu trên

Trang 38

2.1 Giới thiệu

Tên người và những thông tin liên quan đến người là một trong những từ khóa được tìm kiếm thường xuyên nhất trên các công cụ tìm kiếm web, tuy nhiên, các kết quả tìm kiếm và thông tin trả về đôi khi còn rất mơ hồ Vì vậy, nhu cầu về một hệ thống đầy đủ thông tin, chính xác và tập trung vào thực thể tên người là rất lớn Thực thể tên người luôn gắn liền với một số các thuộc tính [SJ09, JAJ10], đó là các đặc trưng hoặc tính chất của một thực thể và trích chọn thuộc tính là trích chọn các đặc trưng hoặc tính chất tương ứng với một thực thể từ dữ liệu văn bản [GR08] Trong bài toán trích chọn thuộc tính của thực thể tên người, một tập cố định các loại thuộc tính cần được xác định trước, nhiệm vụ đặt ra là trích xuất giá trị của các thuộc tính đó tương ứng với một thực thể tên người nhất định từ dữ liệu văn bản Việc trích chọn thuộc tính cho một thực thể tên người cụ thể là rất quan trọng để xác định tính duy nhất của người đó trên Internet Do đó, trích chọn thuộc tính đóng một vai trò chủ chốt trong việc xử lý nhập nhằng tên người [SJ09] Ngoài ra, việc trích chọn thực thể tên người cùng với các thuộc tính của chúng cũng góp một phần quan trọng để mở rộng các cơ sở dữ liệu và ontology

Một ví dụ về trích chọn thực thể tên người và các thuộc tính liên quan được đưa ra trong bảng 2.1

Trang 39

37

Câu ví dụ: ―Hoàng Cầm tên thật là Bùi Tằng Việt, (sinh 22 tháng 2 năm 1922, tại xã Phúc Tằng, huyện Việt Yên, tỉnh Bắc Giang – mất 6 tháng 5 năm 2010 tại Hà Nội), là một nhà thơ Việt Nam‖

Bảng 2.1 Một ví dụ về trích chọn thực thể tên người và các thuộc tính liên quan

STT Thực thể

chính

Loại thuộc

2 Hoàng Cầm Ngày sinh 22 tháng 2 năm 1922

3 Hoàng Cầm Nơi sinh Xã Phúc Tằng, huyện Việt Yên, tỉnh Bắc Giang

Như vậy, một hệ thống trích xuất thực thể tên người và các thuộc tính liên quan phải giải quyết được một loạt các bài toán con, cụ thể là: NER, xử lý nhập nhằng, v.v Trong đó NER là bài toán tiền đề bắt buộc, hơn nữa hệ thống NER không chỉ cần nhận dạng các thực thể tên người mà còn phải trích chọn được các thực thể về địa danh, ngày tháng, tổ chức, v.v Xử lý hai bài toán NER tên người và trích chọn thuộc tính liên quan theo một cấu trúc thực hiện lần lượt (đường ống, pipeline) có hai nhược điểm chủ yếu: (1) lãng phí tài nguyên và chi phí thực hiện, vì hai vấn đề này có nhiều đặc trưng tương tự, việc thực hiện chúng lần lượt có thể lặp lại một số bước hai lần; (2) việc liên kết các thực thể khác về đúng thuộc tính của thực thể chính cũng là một bài toán phức tạp Trong phần này, luận án đề xuất một phương pháp tích hợp trích chọn thực thể tên người và các thuộc tính liên quan sử dụng CRF và một tập đặc trưng phong phú nhằm giải quyết các nhược điểm nói trên, đồng thời đem lại kết quả khả quan hơn

Trang 40

38

2.2 Các nghiên cứu liên quan

2.2.1 Các nghiên cứu liên quan trên thế giới

Chủ đề nghiên cứu nhận dạng thực thể và thuộc tính của thực thể đã nhận được khá nhiều sự quan tâm của cộng đồng xử lý ngôn ngữ tự nhiên trên thế giới

Từ năm 2007 đến năm 2010, chuỗi hội nghị Web People Search Campaigns (WePS) [SJ09, JAJ10] được tổ chứctập trung vào bài toán tìm kiếm tên người trên web, chuỗi hội nghị này đã đóng góp rất nhiều nghiên cứu quan trọng về bài toán nhận dạng thực thể cũng như trích chọn thuộc tính của thực thể Hội nghị WePS đầu tiên giới thiệu nhiệm vụ xử lý nhập nhằng tên người và chỉ ra rằng các thuộc tính như ngày sinh, quốc tịch, giới tính, nghề nghiệp, v.v là các đặc trưng đặc biệt quan trọng trong việc giải quyết những trường hợp trùng tên [SJ09] Do đó, trong hội nghị WePS thứ hai, nhiệm vụ về trích chọn thuộc tính đã được đưa ra [SJ09] và nó tiếp tục được giải quyết trong WePS thứ ba [JAJ10] Nhiệm vụ này trong WePS 2 là trích chọn 18 giá trị thuộc tính của các cá nhân có tên xuất hiện trong từng trang web được cung cấp Để giải quyết nhiệm vụ này, rất nhiều kỹ thuật đã được các nhà nghiên cứu sử dụng: NER, phân lớp, khai phá text, đối sánh mẫu, khai phá quan hệ, trích chọn thông tin, v.v Tuy nhiên, kết quả thực nghiệm trên tập đánh giá với 2.883 văn bản là khá thấp, giá trị F cao nhất đạt được bởi hệ thống PolyUHK là 12,2% [SJ09] Nhiệm vụ trích chọn thuộc tính trong WePS 3 tương đối khác so với nhiệm vụ này trong WePS-2, các hệ thống tham dự được yêu cầu phải liên hệ từng thuộc tính với một người (phân cụm văn bản) Hệ thống có kết quả tốt nhất đạt F là 18%, độ chính xác P 22% và độ hồi tưởng R là 24% [JAJ10] trên tập dữ liệu được hội nghị cung cấp WePS 2 cũng đưa ra kết luận rằng một số thuộc tính có tần số xuất hiện cao hơn các thuộc tính khác, ví dụ như nghề nghiệp, tổ chức, ngày sinh, v.v [SJ09] Dựa vào những thuộc tính có tần số xuất hiện cao nhất do WePS 2đưa

ra, luận án sử dụng 10 loại thuộc tính trong quá trình thực nghiệm, bao gồm: tên khác, ngày sinh, ngày mất, nơi sinh, nơi mất, giới tính, nghề nghiệp, quốc tịch, nơi làm việc và thân nhân

Ngày đăng: 23/09/2020, 17:11

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w