Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt Nghiên cứu xây dựng dữ liệu và mô hình phân lớp quan hệ thực thể trong văn bản y khoa tiếng việt
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
-
ĐẶNG NGỌC UYÊN
NGHIÊN CỨU XÂY DỰNG DỮ LIỆU
VÀ MÔ HÌNH PHÂN LỚP QUAN HỆ THỰC THỂ TRONG VĂN BẢN Y KHOA TIẾNG VIỆT
Chuyên ngành: Khoa học dữ liệu
Mã số: 8904648.01QTD
TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC
Hà Nội - 2023
Trang 2Luận văn được hoàn thành tại: Trường Đại học
Khoa học Tự nhiên – Đại học Quốc gia Hà Nội
Cán bộ hướng dẫn khoa học:TS Nguyễn Thị Minh Huyền
Phản biện 1: PGS Lê Hồng Phương
Trường Đại học Khoa học Tự nhiên - ĐHQGHN Phản biện 2: PGS Trần Trọng Hiếu
Trường Đại học Công nghệ - ĐHQGHN
Luận văn đã được bảo vệ trước Hội đồng chấm luận văn Thạc sĩ trường Đại học Khoa học Tự nhiên Vào hồi 09 giờ 00 phút ngày
16 tháng 05 năm 2023
Có thể tìm hiểu luận văn tại:
Trung tâm thư viện Đại học Quốc gia Hà Nội
Trang 3MỞ ĐẦU
1 Tính cấp thiết của đề tài
Ngày nay, cùng với sự phát triển lớn mạnh của mạng internet và khoa học kỹ thuật tiên tiến đã mang lại khối lượng dữ liệu khổng lồ
Có rất nhiều thông tin quan trọng được ẩn trong các tài liệu phi cấu trúc mà chúng ta cần phải trích rút thông tin để có thể dễ dàng truy cập và xử lý chúng Sự phát triển đáng kể của Hồ sơ sức khỏe điện tử trong thập kỷ qua đã cung cấp rất nhiều văn bản lâm sàng, các bài báo y học, v.v Lượng dữ liệu văn bản lâm sàng khổng lồ này đã thúc đẩy sự phát triển của các kỹ thuật khai thác văn bản và trích xuất thông tin trong lĩnh vực y sinh học Trong số các nhiệm vụ và
kỹ thuật khai thác văn bản y khoa khác nhau, trích rút quan hệ thực thể đóng một vai trò quan trọng trong quá trình phát hiện, điều trị và theo dõi bệnh nhân
2 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu chính của luận văn là xây dựng bộ dữ liệu RE cho văn bản y khoa tiếng Việt vì có rất ít dữ liệu y sinh cho tiếng Việt và nghiên cứu các phương pháp học máy hộ trợ phân loại các quan hệ thực thể trong văn bản y khoa và sẽ quyết định lựa chọn một phương pháp thích hợp để tiến hành thử nghiệm bộ dữ liệu đã xây dựng
3 Nội dung nghiên cứu
Nội dung 1: trình bày khái quát về bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa, phạm vi nghiên cứu, ý nghĩa khoa học và những khó khăn gặp phải khi giải quyết bài toán, cơ sở dữ liệu được sử dụng trong luận văn
Trang 4Nội dung 2: Khái quát về các phương pháp đã được áp dụng cho bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa Đặc biệt, luận văn trình bày về mô hình BERT cho nhiệm vụ trích rút quan hệ trên các văn bản lâm sàng và mô hình PhoBERT dành riêng cho tiếng Việt Ngoài ra, luận văn còn giới thiệu về FastBERT, một thư viện học sâu cho phép triển khai các mô hình dựa trên BERT và XLNet cho các tác vụ xử lý ngôn ngữ tự nhiên
Nội dung 3: Giới thiệu về bộ dữ liệu y khoa tiếng Việt, quá trình xử lý và phân tích dữ liệu, trình bày kết quả thực nghiệm sử dụng mô hình PhoBERT trên các bộ tham số khác nhau như đã trình bày trong chương 3
áp dụng vào thực tế phát triển các hệ thống hỗ trợ phân tích bệnh lý, bệnh án và phương pháp điều trị trong y sinh
5 Kết quả nghiên cứu
Trang 5CHƯƠNG 1: BÀI TOÁN TRÍCH RÚT QUAN HỆ THỰC THỂ
TRONG VĂN BẢN Y KHOA
Dựa trên bài toán trích rút quan hệ thực thể nói chung, phát biểu định nghĩa về bài toán trích rút quan hệ thực thể trong văn bản y khoa
1.1 Bài toán trích rút quan hệ giữa các thực thể trong văn bản y khoa
Việc xác định mối quan hệ giữa hai hoặc nhiều thực thể trong văn bản được gọi là trích rút quan hệ giữa các thực thể Trích rút quan hệ trong văn bản y khoa là trích rút mối quan hệ giữa hai hoặc nhiều thực thể đã được định danh trong các văn bản y sinh học Các mối quan hệ y sinh phổ biến thường bao gồm: các tương tác Thuốc – Thuốc, Phương pháp điều trị – bệnh, Phương pháp xét nghiệm – bệnh, mối liên quan giữa bệnh – bệnh, v.v Tùy vào từng ứng dụng thực tế mà ta có các bài toán với vô số kiểu quan hệ khác nhau
Ví dụ: “Hiệu quả của việc <PHƯƠNG PHÁP ĐIỀU TRỊ>phẫu thuật nội soi mũi xoang</PHƯƠNG PHÁP ĐIỀU TRỊ> trong điều trị
<BỆNH>viêm mũi xoang mạn tính</BỆNH>.”
Trong ví dụ trên phương pháp điều trị phẫu thuật nội soi mũi xoang
có quan hệ phục hồi bệnh viêm mũi xoang
1.2 Giới thiệu về bộ dữ liệu i2b2/VA 2010
Vào năm 2010, i2b2 đã hợp tác với Hệ thống Chăm sóc Sức khỏe Thành phố Veterans Affairs Salt Lake trong việc chú thích thủ công các báo cáo bệnh nhân từ ba tổ chức và tạo ra một cuộc thi trong cộng đồng nghiên cứu có thể tham gia cuộc thi cạnh tranh so sánh
Trang 62010 Hội thảo i2b2/VA năm 2010 về xử lý ngôn ngữ tự nhiên cho
hồ sơ lâm sàng thuộc lĩnh vực y khoa đã trình bày ba nhiệm vụ:
Nhiệm vụ trích xuất thực thể - tập trung vào việc trích xuất các khái niệm y tế từ các báo cáo lâm sàng của bệnh nhân
Nhiệm vụ phân loại xác nhận tập trung vào việc chỉ định các loại xác nhận cho các khái niệm và vấn đề y tế
Nhiệm vụ phân loại quan hệ giữa các thực thể - chỉ định các loại quan hệ giữa các vấn đề y tế, xét nghiệm và điều trị
Thách thức i2b2/VA đã cung cấp kho văn bản tiêu chuẩn tham chiếu
có chú thích cho ba tác vụ trên Partners Healthcare, Trung tâm Y tế Beth Israel Deaconess và Trung tâm Y tế Đại học Pittsburgh đã đóng góp các bản tóm tắt xuất viện cho cuộc thi i2b2/VA năm 2010 Ngoài ra, Trung tâm Y tế Đại học Pittsburgh đã đóng góp các báo cáo tiến độ Tổng cộng có 394 báo cáo huấn luyện, 477 báo cáo thử nghiệm và 877 báo cáo không được chú thích đã được hủy nhận dạng và phát hành
Dựa vào bộ dữ liệu i2b2/VA, các khái niệm (thực thể) y khoa được định nghĩa thành ba loại như sau:
Problem: Vấn đề y tế
Treatment: Phương pháp điều trị
Test: Các loại xét nghiệm, phương pháp đo lường
Mối quan hệ giữa các thực thể y khoa trong bộ dữ liệu i2b2/VA gồm
có 8 loại và được chia làm 3 nhóm chính như sau:
Quan hệ giữa Vấn đề y tế - Phương pháp điều trị:
Trang 7 Điều trị phục hồi vấn đề y tế (TrIP)
Điều trị làm trầm trọng thêm vấn đề y tế (TrWP)
Điều trị gây ra vấn đề y tế (TrCP)
Điều trị được thực hiện cho các vấn đề y tế (TrAP)
Điều trị không được thực hiện vì vấn đề y tế (TrNAP)
Quan hệ giữa Vấn đề y tế - Xét nghiệm:
Kiểm tra cho thấy vấn đề y tế (TeRP)
Thử nghiệm được tiến hành để điều tra vấn đề y tế (TeCP)
Quan hệ giữa Vấn đề y tế - Vấn đề y tế:
Vấn đề y tế chỉ ra vấn đề y tế (PIP)
Bài toán trích rút quan hệ trong văn bản y khoa cho tiếng Việt được lấy ý tưởng từ cuộc thi i2b2/VA và được đưa về bài toán phân lớp, mỗi một loại quan hệ tương đương với một lớp
1.3 Khó khăn và thách thức
Để giải quyết bài toán trên, các nhà nghiên cứu cũng gặp không ít những khó khăn trong quá trình huấn luyện Trích rút mối quan hệ giữa các thực thể là một bài toán cơ bản, tuy nhiên cũng gặp không ít những thách thức cần giải quyết do độ phong phú và sự nhập nhằng của ngôn ngữ Thiếu dữ liệu huấn luyện cũng là một vấn đề khó khăn thường xảy ra đối với các bài toán xử lý ngôn ngữ tự nhiên, đặc biệt là dữ liệu về lĩnh vực y sinh học còn khá ít Việc gán nhãn dữ liệu sẽ tốn nhiều thời gian và tiền bạc vì nó đòi hỏi các chuyên gia đặc biệt có kiến thức về y sinh học Khai phá văn bản y sinh nói chung và trích rút quan hệ giữa các thực thể trong văn bản y
Trang 8sinh nói riêng có nhiều điểm khác biệt so với lĩnh vực nghiên cứu cho dữ liệu thông thường
1.4 Cơ sở dữ liệu nghiên cứu của luận văn
Trong luận văn sử dụng bộ dữ liệu y khoa tiếng Việt được xây dựng dựa trên các quy tắc gán nhãn trong cuộc thi i2b2/VA 2010 Các văn bản được lấy từ tạp chí y học Thành phố Hồ Chí Minh với các văn bản mô tả bệnh và sự ảnh hưởng tích cực cũng như tiêu cực của các phương pháp điều trị bệnh, các xét nghiệm đã được thực hiên để điều tra và phát hiện bệnh
Bộ dữ liệu y khoa cho tiếng Việt cũng có 3 loại nhãn cho các khái niệm y tế tương tự như bộ dữ liệu i2b2/VA 2010
Khác với bộ dữ liệu i2b2 2010, bộ dữ liệu y khoa tiếng việt bao gồm
9 loại quan hệ như sau:
STT Loại
quan
hệ
Chú thích
1 NoRel Không có mối quan hệ
2 TrIP Phương pháp điều trị phục hồi vấn đề y tế
3 TrWP Phương pháp điều trị làm trầm trọng thêm vấn
đề y tế
4 TrCP Phương pháp điều trị gây ra vấn đề y tế
5 TrAP Phương pháp điều trị được thực hiện cho các
vấn đề y tế
6 TrNAP Phương pháp điều trị không được thực hiện vì
vấn đề y tế
Trang 97 TeRP Xét nghiệm, kiểm tra cho thấy vấn đề y tế
8 TeCP Xét nghiệm nghiệm được tiến hành để điều tra
chọn một phương pháp thích hợp để tiến hành thử nghiệm
Trang 10CHƯƠNG 2: CÁC PHƯƠNG PHÁP HỌC MÁY TRONG TRÍCH RÚT QUAN HỆ THỰC THỂ Y KHOA
2 1 Các phương pháp phân loại quan hệ thực thể
Trong các lĩnh vực lâm sàng và y sinh, đã có nhiều bài toán RE được áp dụng cho mối quan hệ gen-thuốc, mối quan hệ gen-bệnh, các lớp ngữ nghĩa để nhận dạng văn bản báo cáo X-quang, trích xuất quan hệ để xây dựng dữ liệu sinh học, mối quan hệ giữa ngữ cảnh từ vựng và phạm trù khái niệm y tế, và mối quan hệ bệnh tật - đột biến từ tài liệu y sinh học và trích xuất mối quan hệ thực thể từ các văn bản lâm sàng là một nhiệm vụ RE quan trọng khác
Để trích xuất các mối quan hệ này, các phương pháp dựa trên NLP được sử dụng để tìm kiếm các mối quan hệ giữa các thực thể bên trong cùng một câu hoặc giữa các câu và đã có nhiều phương pháp huấn luyện khác nhau được sử dụng để phân loại các mối quan hệ giữa các khái niệm y tế từ các văn bản lâm sàng
Hình 1 Các phương pháp học máy được sử dụng để trích rút quan hệ
lâm sàng
Trang 112.1.1 Các phương pháp dựa trên quy tắc
Mặc dù phương pháp dựa trên quy tắc không phải là phương pháp phổ biến nhất hiện nay để trích xuất mối quan hệ từ văn bản lâm sàng, nhưng vẫn được sử dụng và cho kết quả tương đối khả thi trong thời gian trước
Nhìn chung, các phương pháp dựa trên quy tắc cho trích rút quan hệ lâm sàng có thể thực hiện tốt tùy thuộc vào cách định nghĩa các quy tắc, đòi hỏi sự hợp tác giữa các chuyên gia trong lĩnh vực ngôn ngữ học để xây dựng một tập hợp các mô hình mẫu dựa trên ngữ pháp, từ loại và ngữ nghĩa Những phương pháp trích xuất thông tin bằng cách sử dụng các quy tắc và mẫu được định nghĩa rõ ràng thường không hiệu quả như các mô hình học máy, do đó những phương pháp này không được phổ biến hiện nay
2.1.2 Các phương pháp học có giám sát
Các phương học có giám sát áp dụng khi đã có dữ liệu huấn luyện đã được gán nhãn, mô hình được học dựa trên mẫu dữ liệu đầu vào và đầu ra tương ứng trước Các mô hình điển hình bao gồm Decision Trees, Random Forests, Neural Networks và Support Vector Machines (SVM)
Các thuật toán học có giám sát đã được ứng dụng rộng rãi cho RE, phương pháp này sử dụng một bộ phân loại để xác định sự hiện diện hoặc vắng mặt của một mối quan hệ giữa hai thực thể Máy tính không thể hiểu văn bản phi cấu trúc, do đó các phương pháp học có giám sát yêu cầu việc mã hóa văn bản, trích xuất đặc trưng đầu vào Trong thử thách i2b2/VA năm 2010 về các khái niệm, khẳng định và
Trang 12mối quan hệ trong văn bản lâm sàng việc sử dụng các phương pháp học máy truyền thống và học sâu đã cho nhiều kết quả tương đối khả quan
2.1.3 Các phương pháp học phi giám sát
Các phương pháp học phi giám sát áp dụng khi không có dữ liệu huấn luyện đã được gán nhãn, mô hình được học từ dữ liệu đầu vào
mà không cần biết đầu ra sau đó máy tính phải tự phân loại, dự báo đầu ra của các mẫu này Ví dụ một số mô hình bao gồm K-means clustering, Principal Component Analysis (PCA) và Generative Adversarial Networks (GANs)
Các kỹ thuật học máy phi giám sát không yêu cầu các văn bản được chú thích trước vì chúng có khả năng hoạt động trên dữ liệu chưa được gán nhãn Tuy nhiên, do văn bản y khoa thường chứa nhiều nhiễu, các thuật toán phi giám sát không hiệu quả đối với các bài toán trích rút quan hệ lâm sàng
2.1.4 Các phương pháp dựa trên mô hình huấn luyện trước
Các phương pháp dựa trên mô hình huấn luyện trước đã cho thấy kết quả tốt trong nhiều tác vụ NLP, bởi vì các mô hình ngôn ngữ này sử dụng thông tin ngữ cảnh để đại diện cho các đặc trưng Đây là một
mô hình học có giám sát vì các đầu vào được xác định rõ ràng cho mỗi trường hợp Các mô hình huẩn luyện trước phổ biến được sử dụng trong các tác vụ NLP bao gồm ULMFit, ELMO, BERT, vv Trong số đó, BERT, được giới thiệu bởi Google vào năm 2018, đã trở nên rất phổ biến cho nhiều tác vụ NLP bao gồm RE Đối với văn bản lâm sàng đã có nhiều mô hình dựa trên BERT được ra đời có thể
kể đến như là BioBERT, được huấn luyện trên tập dữ liệu PubMed
Trang 13về y tế, và Clinical BERT được huấn luyện trên một tập dữ liệu về y
tế về các ghi chú lâm sàng và tóm tắt xuất viện
2.2 Giới thiệu mô hình BERT
BERT sử dụng kiến trúc Transformer, một mạng nơ-ron truyền thẳng
sử dụng cơ chế chú ý (attention) để hiểu và xử lý ngữ cảnh trong các
câu Mô hình được huấn luyện trên hai tác vụ gọi là mô hình ngôn ngữ ẩn (MLM) và dự báo câu tiếp theo (NSP)
BERT được huấn luyện trên một lượng lớn dữ liệu ngôn ngữ tự nhiên, bao gồm cả các tài liệu trên Internet và các nguồn dữ liệu công khai khác Sau quá trình huấn luyện, BERT có khả năng mã hóa ngữ cảnh và biểu diễn nghĩa của các từ và câu trong một không gian véc-
tơ Điều này cho phép BERT thực hiện nhiều tác vụ NLP khác nhau bằng cách sử dụng các tầng trên cùng của mô hình để phân loại, trích xuất thông tin, dịch máy và nhiều tác vụ khác
Trang 14Hình 2 Cấu trúc mô hình Transformer
Trang 15Quá trình mã hóa và giải mã trong Transformer
Máy tính không thể học được từ các dữ liệu thô như bức ảnh, văn bản, âm thanh, đoạn phim Do đó nó cần đến quá trình mã hóa thông tin sang dạng số và từ dạng số giải mã kết quả đầu ra Đó chính là 2
quá trình mã hóa (encoder) và giải mã (decoder)
Cơ chế chú ý (Attention)
Trong các mô hình dựa trên Transformer, cơ chế chú ý (attention) là
một cơ chế quan trọng để mô hình có thể tập trung vào các phần quan trọng của dữ liệu đầu vào Cơ chế gây chú ý cho phép mô hình học cách định rõ mức độ quan trọng của các thông tin trong quá trình xử lý và tạo ra các liên kết mạnh mẽ giữa các từ hoặc vị trí trong câu Trong mô hình Transformer, cơ chế chú ý được sử dụng để tính toán
các trọng số chú ý (attention weights) cho mỗi cặp từ trong câu đầu
vào Các trọng số này cho biết mức độ quan trọng của từ này đối với từ kia trong quá trình xử lý thông tin
Tinh chỉnh mô hình BERT
Tinh chỉnh mô hình (model fine-tuning) là quá trình điều chỉnh lại
một mô hình học máy đã được huấn luyện trước đó để thích nghi với một tác vụ cụ thể Thay vì huấn luyện mô hình từ đầu, ta sử dụng một mô hình đã được huấn luyện trên một tác vụ liên quan với bộ dữ liệu chuyên môn tương ứng Quá trình tinh chỉnh bao gồm việc tiếp tục huấn luyện mô hình trên dữ liệu mới, thường là tập dữ liệu nhỏ hơn và có nhãn tương ứng với tác vụ cần giải quyết