1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Mô hình khai thác khái niệm và quan hệ trong văn bản lâm sàng

28 235 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 2,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

MỞ ĐẦU Dẫn nhập Trong lĩnh vực y tế, các khái niệm thường đề cập đến các đối tượng như: bệnh, rối loạn, thuốc tên thuốc, liều lượng, phương thức quản lý, tần xuất quản lý …, điều trị th

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

HUỲNH HỮU NGHĨA

MÔ HÌNH KHAI THÁC KHÁI NIỆM VÀ QUAN HỆ

TRONG VĂN BẢN LÂM SÀNG

Chuyên ngành : HỆ THỐNG THÔNG TIN

Mã số : 62.48.05.01

TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Tp Hồ Chí Minh – Năm 2017

Trang 2

Công trình được hoàn thành tại: ĐẠI HỌC QUỐC GIA TP-HCM

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Người hướng dẫn khoa học: PGS TS HỒ BẢO QUỐC

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

vào lúc giờ ngày tháng năm

Có thể tìm hiểu luận án tại thư viện:

- Thư viện Khoa học Tổng hợp Tp.HCM

- Thư viện Trường Đại học Khoa học Tự Nhiên

Trang 3

MỞ ĐẦU Dẫn nhập

Trong lĩnh vực y tế, các khái niệm thường đề cập đến các đối tượng

như: bệnh, rối loạn, thuốc (tên thuốc, liều lượng, phương thức quản lý,

tần xuất quản lý …), điều trị (thủ tục, biện pháp điều trị, thuốc điều trị

…), các vấn đề y tế, xét nghiệm, protein, di truyền (gien)… còn mối quan

hệ cho biết mối liên quan giữa các khái niệm như: điều trị giải quyết

được vấn đề y tế, điều trị làm xấu đi vấn đề y tế, xét nghiệm phát hiện ra

vấn đề y tế… việc nhận diện khái niệm là tiền đề để xác định mối quan

hệ giữa chúng, các khái niệm và mối quan hệ có ý nghĩa rất quan trọng đối với người dùng như: bác sĩ, nhà nghiên cứu, sinh viên y khoa, nhân viên y tế, bệnh nhân cũng như thân nhân… Một số trường hợp cụ thể cho thấy ý nghĩa của khái niệm và mối quan hệ đối với người dùng như sau:

các bác sĩ muốn biết mối quan hệ giữa các khái niệm điều trị và vấn đề y

tế để giúp họ đưa ra quyết định điều trị hiệu quả và hạn chế những sai

sót, các nhà nghiên cứu muốn tìm hiểu về mối quan hệ giữa các khái

niệm di truyền (gien) và bệnh nhằm giải thích những căn bệnh liên quan

đến yếu tố di truyền, và còn rất nhiều trường hợp khác nữa Những khái niệm và mối quan hệ đang nằm ẩn trong các tài liệu y tế như: các tóm tắt xuất viện, các kết quả xét nghiệm, các công trình nghiên cứu khoa học… Những tài liệu này đang được tạo ra liên tục, người dùng không thể nào

đọc một khối lượng lớn tài liệu để cập nhật thông tin hữu ích (khái niệm

và mối quan hệ) hàng ngày Vì vậy, mà họ rất cần một hệ thống máy tính

rút trích thông tin hữu ích từ các nguồn tài liệu y tế để cung cấp cho họ Thời gian qua, một số công trình nghiên cứu đã đề xuất một số giải pháp và công cụ hỗ trợ việc rút trích thông tin hữu ích từ các tài liệu y tế

để đáp ứng nhu cầu thông tin của người dùng như: phân loại hồ sơ y tế của bệnh nhân [55], rút trích thông tin liên quan đến bệnh [56] và rút trích thông tin liên quan đến thuốc [63] Tuy nhiên, những kết quả chưa đạt được như mong muốn, bằng chứng là một số diễn đàn nghiên cứu

Trang 4

quốc tế đang tiếp tục mời gọi cộng đồng nghiên cứu đề xuất những giải pháp mới nhằm khai thác thông tin từ tài liệu y tế thông qua các hình

thức như: “Bài toán chia sẻ” (Shared tasks) và “Các thách thức”

(Chellenges), cụ thể một số diễn đàn như: I2B2, BioNLP, CLEF eHealth

và SemEval Sở dĩ kết quả còn hạn chế là do việc khai thác thông tin y tế

có nhiều thách thức, một số thách thức có thể kể đến như sau: dữ liệu văn

bản không có cấu trúc hoặc bán cấu trúc, tính đồng nghĩa của các từ hoặc cụm từ, các cụm từ thường không đúng ngữ pháp, nhiều ký tự/chữ viết tắt, lỗi chính tả, sự đa dạng về mặt từ vựng, hình thức thể hiện của khái niệm, chuẩn hoá khái niệm và các mối quan hệ phức tạp

Với mong muốn tham gia đóng góp cùng với cộng động nghiên cứu, chúng tôi định hướng nghiên cứu mô hình khai thác thông tin y tế dựa trên khái niệm (xem hình 1) Trong mô hình khai thác thông tin y tế bao gồm nhiều bài toán con bên

trong nó, chẳng hạn như:

nhận diện khái niệm, rút

trích mối quan hệ giữa các

khái niệm, quản lý tri thức

và các chương trình ứng

dụng khác, trong đó nhận

diện khái niệm và rút trích

mối quan hệ là hai bài toán cốt lõi trong mô hình khai thác thông tin y tế,

nó là thành phần rút trích thông tin hữu ích từ tài liệu, còn là nguồn cung cấp thông tin để xây dựng các cơ sở tri thức và từ đó phát triển các chương trình ứng dụng (hệ thống hỗ trợ ra quyết định) Những nghiên cứu liên quan đến hai bài toán này chưa đạt được kết quả như mong muốn, cho nên mục tiêu của luận án sẽ tập trung nghiên cứu đề xuất một

số giải pháp liên quan đến hai bài toán nhận diện khái niệm và rút trích mối quan hệ giữa các khái niệm trước, sau đó chúng tôi mở rộng nghiên

Hình 1 Mô hình khai thác thông tin y tế

Trang 5

cứu cho những bài toán còn lại để hoàn thiện mô hình khai thác thông tin

y tế

Mục tiêu của đề tài

Trong phạm vi của luận án, từ mục tiêu định hướng nêu trên, chúng tôi xác định 3 mục tiêu mà luận án nghiên cứu giải quyết gồm:

(1) Nghiên cứu các phương pháp rút trích khái niệm và đề xuất một hướng tiếp cận rút trích khái niệm nhằm giải quyết thách thức liên quan đến thể hiện của khái niệm trong tài liệu, khái niệm gồm những token liên tục, không liên tục, hoặc lồng nhau và thách thức chuẩn hoá khái niệm

(2) Nghiên cứu các phương pháp rút trích mối quan hệ và đề xuất một hướng tiếp cận rút trích mối quan hệ trên bài toán cụ thể là rút trích giá trị cho các thuộc tính của từng khái niệm (còn gọi là bài toán điền mẫu)

(3) Nghiên cứu đề xuất mô hình (khung kiến trúc) khai thác khái niệm

và mối quan hệ trong văn bản lâm sàng và định hướng phát triển một khung kiến trúc chung khai thác thông tin văn bản trong lĩnh vực y tế

Những đóng góp chính của luận án

Đối với bài toán rút trích khái niệm, luận án đã đề xuất một bộ nhãn

BIEO (Begin, Inside, End và Outside) dùng để phân lớp cho token và tập

đặc trưng phân lớp nhằm rút trích khái niệm và chuẩn hoá khái niệm dựa trên phương pháp máy học và từ điển Kết quả được công bố trong công trình ([CT5], [CT10])

Trong bài toán rút trích mối quan hệ, đóng góp của luận án là những

đề xuất gồm: tập luật xác định mối quan hệ giữa các khái niệm dựa trên phân tích cú pháp phụ thuộc; tập đặc trưng phân lớp mối quan hệ thời gian giữa khái niệm và thời điểm viết tài liệu; một hướng tiếp cận kết hợp các phương pháp dựa trên luật, từ điển và máy học để xác định giá trị cho các thuộc tính của khái niệm y tế và một số cải tiến hiệu quả cho hệ

Trang 6

thống được công bố trong các công trình ([CT2], [CT3], [CT4], [CT7], [CT8], [CT9]) Bên cạnh đó, luận án đã đưa ra một hướng tiếp cận lai ghép giữa máy học và luật để rút trích sự kiện y sinh, phương pháp máy học được áp dụng để phân lớp sự kiện và dựa trên luật để xác định các tham số liên quan đến sự kiện, tập luật được hệ thống học tự động từ tập

dữ liệu huấn luyện Kết quả được thể hiện trong công trình ([CT1]) Đóng góp cuối cùng của luận án là sử dụng các kết quả trên để xây dựng một mẫu ban đầu (prototype) cho hệ thống khai thác thông tin y tế dựa trên khái niệm Kết quả trình bày trong công trình ([CT6])

Chương 1 GIỚI THIỆU 1.1 Dữ liệu y tế

Luận án trình bày loại dữ liệu được sử dụng cho quá trình nghiên cứu liên quan đến tài liệu lâm sàng và các tài liệu là các bài báo nghiên cứu khoa học trong lĩnh vực y tế (xem phần phụ lục A)

1.2 Khai thác văn bản tổng quát

Luận án tìm hiểu bài toán rút trích thực thể và mối quan hệ trên văn bản tổng quát cũng như những phương pháp đánh giá hiệu quả của hệ thống rút trích thực thể và mối quan hệ

1.3 Khai thác văn bản y tế

Luận án khảo sát hiện trạng khai thác văn bản y tế gồm xử lý ngôn ngữ tự nhiên trong lĩnh vực y tế, những thách thức trong bài toán rút trích khái niệm và mối quan hệ giữa các khái niệm cũng như các phương pháp rút trích, các nguồn tài nguyên hỗ trợ khai thác văn bản y tế Từ đó làm

cơ sở cho luận án nghiên cứu và giải quyết ba mục tiêu nghiên cứu đề ra

Chương 2 RÚT TRÍCH KHÁI NIỆM Y TẾ 2.1 Giới thiệu

Bài toán rút trích khái niệm có nhiều thách thức, tuy nhiên luận án tập trung nghiên cứu giải quyết thách thức thể hiện của khái niệm trong văn

Trang 7

bản lâm sàng (các khái niệm thể hiện gồm những token liên tục, không liên tục, hoặc lồng nhau)

Thể hiện của khái niệm trong văn bản rất đa dạng, một khái niệm có thể được thể hiện gồm những token liên tục, không liên tục hoặc lồng

nhau Cụ thể, xét câu văn bản “The rhythm appears to be atrial

fibrillation.” (Nhịp tim chứng tỏ là rung tâm nhĩ.), có khái niệm gồm

những token liên tục là “atrial fibrillation”; xét câu văn bản “The left

atrium is moderately dilated.” (Tâm nhĩ trái đã bị giãn.), có một khái

niệm xuất hiện trong văn bản là “left atrium … dilated” (giãn tâm nhĩ

trái) gồm 2 cụm token không liên tục; xét câu văn bản “Abdomen: Soft, nontender, nondistended, normal active bowel sounds.”, có hai khái niệm

lồng nhau cần được rút trích là “Abdomen … nontender” (bụng cứng) và

“Abdomen … nondistended” (bụng không bị sưng to) và cả hai khái niệm

này có chung token là “Abdomen” Như vậy, việc rút trích chính xác

những khái niệm xuất hiện trong văn bản ngôn ngữ tự nhiên không có cấu trúc là một thách thức đối với các phương pháp tiếp cận

2.2 Những đề xuất liên quan

Trong chương khảo sát hiện trạng cho thấy việc rút trích thực thể có thể dựa trên các phương pháp như: từ điển, luật, máy học và lai ghép, xu hướng là dùng phương pháp máy học và thuật toán máy học được sử dụng phổ biến là thuật toán gán nhãn chuỗi tuần tự CRFs với bộ nhãn BIO, cho nên luận án cũng áp dụng phương pháp máy học và sử dụng thuật toán CRFs để rút trích khái niệm y tế Tuy nhiên, khi áp dụng nó phát sinh một số vấn đề như: bộ nhãn BIO không phù hợp với những thể hiện thực tế của khái niệm và tập đặc trưng phân lớp cũng khác nhau, vì thế chúng tôi đã nghiên cứu đề xuất bộ nhãn, tập đặc trưng và thiết kế một hệ thống phù hợp với bài toán hơn được trình bày trong phần tiếp theo

2.2.1 Bộ nhãn phân lớp Token

Trang 8

Các khái niệm cần rút trích có nhiều thể hiện khác nhau trong tài liệu

y tế, một khái niệm có thể gồm nhiều token liên tục, không liên tục hoặc lồng nhau, bộ nhãn BIO chỉ phù hợp cho khái niệm gồm những token liên tục còn các trường hợp khác thì không phù hợp, cho nên chúng tôi đề

xuất bộ nhãn BIEO được sử dụng như sau: nhãn B (Begin) gán cho token bắt đầu khái niệm, nhãn I (Inside) gán cho token bên trong khái niệm, nhãn E (End) gán cho token cuối cùng của khái niệm và nhãn O (Outside) gán cho token không thuộc khái niệm Với bộ nhãn mà luận án

đề xuất dùng để gán nhãn token có thể phủ hết những dạng thể hiện của khái niệm trong tài liệu

2.2.2 Tập đặc trưng phân lớp Token

Trong phương pháp máy học, tập đặc trưng có vai trò quan trọng và ảnh hưởng đến hiệu quả của phương pháp, đặc trưng chính là đặc điểm

để nhận diện và phân lớp, trong bài toán này chúng tôi đã nghiên cứu đặc điểm của dữ liệu y tế và đề xuất tập đặc trưng phù hợp dùng để phân lớp nhãn token cho bài toán rút trích khái niệm như sau:

 Đặc trưng ngữ cảnh: chỉ token hiện tại đang xét và hai token liền trước và liền sau của token đang xét Các token xung quanh token đang

xét đóng vai trò là thông tin ngữ cảnh

 Đặc trưng mặt chữ (Orthographic): token đang xét là chữ thường,

in hoa, hoa ký tự đầu và chữ có số

 Đặc trưng từ loại (Part of Speech): từ loại của token đang xét, các

từ loại bao gồm danh từ, động từ, tính từ, giới từ, trạng từ, cụm danh từ,

cụm động từ và cụm giới từ

 Đặc trưng thứ tự nhãn (label sequences): là thứ tự nhãn được gán cho từng token Ý nghĩa của đặc trưng này là giá trị nhãn phân lớp của token thứ i phụ thuộc vào giá trị nhãn phân lớp của token thứ i – 1

2.2.3 Hệ thống rút trích và chuẩn hoá khái niệm

Tiếp theo, luận án đã kết hợp các đề xuất nêu trên để thiết kế một hệ thống rút trích và chuẩn hoá khái niệm (xem hình 2.1), trong hệ thống

Trang 9

được thiết kế gồm hai bước: (1) xây dựng mô hình và tập từ vựng từ dữ liệu huấn luyện và (2) áp dụng kết quả của (1) để rút trích và chuẩn hoá khái niệm

2.3 Áp dụng các đề xuất

Luận án sử dụng hệ thống trên

tham gia giải quyết bài toán “Rút

trích và chuẩn hoá khái niệm liên

quan đến bệnh/rối loạn xuất hiện

trong tài liệu lâm sàng” được tổ

chức trên diễn đàn nghiên cứu

SemEval 2015 Bộ dữ liệu sử

dụng thực nghiệm do SemEval

cung cấp thông qua kho ngữ liệu

ShARe, gồm 431 tài liệu được sử

dụng là dữ liệu huấn luyện và 100

tài liệu được dùng để đánh giá

hiệu quả hệ thống, việc đánh giá

và công bố kết quả là do SemEval thực hiện

2.4 Đánh giá hiệu quả đề xuất

Dựa trên kết quả của các hệ thống cùng tham gia do SemEval công bố chúng tôi có một số bàn luận như sau: nhìn chung hướng tiếp cận của luận án (HCMUS) tương đồng với hướng tiếp cận của các nhóm cùng tham gia, tuy nhiên khi đối chiếu chi tiết giữa các hệ thống thì nó có những khác biệt, sự khác biệt đầu tiên là bộ nhãn sử dụng cụ thể: nhóm LIST-LUX dùng bộ nhãn BIESTO, nhóm HCMUS dùng bộ nhãn BIEO

và nhóm HITACHI dùng bộ nhãn BIO; sự khác biệt tiếp theo là tập đặc trưng phân lớp: hai nhóm LIST-LUX và HCMUS cùng dùng thuật toán CRFs, tập đặc trưng gần giống nhau và hệ thống chạy một lần để rút trích khái niệm nhưng hiệu quả của HCMUS cao hơn LIST-LUX dựa trên độ

đo F-score (xem bảng 2.5), trong khi đó số đặc trưng của nhóm ezDl sử

Hình 2.1 Hệ thống rút trích và chuẩn

hoá khái niệm

Trang 10

dụng nhiều hơn và hệ thống phức tạp hơn do lần đầu họ dùng thuật toán CRFs để rút trích các khái niệm thể hiện những token liên tục và lần hai

họ dùng thuật toán SVM

để phân lớp mối quan hệ

giữa các khái niệm nhằm

xác định những khái niệm

thể hiện những token

không liên tục hoặc lồng nhau cho nên hệ thống của họ có kết quả cao

nhất trong tất cả các nhóm tham gia trên độ đo F-score (xem bảng 2.5)

Như vậy, có thể thấy rằng những đề xuất của luận án cũng mang lại được những hiệu quả nhất định, tuy nhiên cũng cần có những nghiên cứu cải tiến trong lai

Chương 3 RÚT TRÍCH MỐI QUAN HỆ GIỮA CÁC KHÁI NIỆM 3.1 Giới thiệu

Mối quan hệ trong y tế rất rộng, có nhiều loại khác nhau cho nên không thể rút trích hết tất cả các mối quan hệ, mà chỉ có thể tập trung rút trích trên một số mối quan hệ được xác định bởi chuyên gia Ngay cả việc rút trích một số mối quan hệ cụ thể cũng không dễ dàng do mối quan

hệ thể hiện trên nhiều câu khác nhau Vì vậy, trong luận án chúng tôi chỉ tập trung nghiên cứu xử lý rút trích mối quan hệ trên cùng câu Để có một khung nhìn tổng quát hơn về bài toán rút trích mối quan hệ, phần tiếp theo chúng tôi trình bày một số bài toán liên quan đến rút trích mối quan hệ trong lĩnh vực y tế

3.2 Các bài toán rút trích mối quan hệ trong lĩnh vực y tế

Thời gian qua, cộng đồng tham gia nghiên cứu đã giải quyết một số bài toán liên quan đến rút trích mối quan hệ trong lĩnh vực y tế gồm phân lớp mối quan hệ giữa các khái niệm, đồng tham chiếu, phân lớp mối quan

hệ thời gian, xác định giá trị cho các thuộc tính liên quan trên từng khái niệm y tế (còn gọi là bài toán điền mẫu) và rút trích sự kiện y sinh Trong

Trang 11

số những bài toán nêu trên, luận án chỉ nghiên cứu đề xuất một số giải pháp liên quan đến hai bài toán điền mẫu và rút trích sự kiện y sinh

3.3 Đề xuất liên quan đến bài toán điền mẫu

Đối với bài toán điền mẫu luận án có một số đề xuất như sau: tập luật xác định mối quan hệ giữa hai khái niệm, tập đặc trưng phân lớp mối quan hệ thời gian và kiến trúc hệ thống điền mẫu, từng đề xuất lần lược được trình bày ở phần tiếp theo

3.3.1 Tập luật xác định mối quan hệ

Việc xác định hai khái niệm có mối quan hệ với nhau hay không có thể sử dụng những phương pháp như: dựa trên luật, máy học hoặc kernel, trong hướng tiếp cận của luận án chúng tôi muốn kết hợp giữa tri thức của chuyên gia và phân tích đặc điểm của tài liệu y tế để xây dựng tập luật nhằm xác định mối quan hệ giữa hai khái niệm Tri thức chuyên gia được thể hiện trong tập dữ liệu gán nhãn khái niệm và mối quan hệ giữa các khái niệm trên 300 tài liệu lâm sàng, cơ sở để xây dựng tập luật là dựa trên mối quan hệ phụ thuộc giữa các từ trong cùng câu văn bản chứa hai khái niệm, tập luật đươc xây dựng bằng thủ công dựa vào kết quả phân tích phụ thuộc trên đồ thị phụ thuộc Ví dụ, xét câu văn bản đầu vào

“Her sternal wound developed purulent draiange, and the wound was

opened and a vac dressing was applied there as well.”, kết quả đầu ra

biểu diễn phụ thuộc xem hình 3.1 Mỗi dòng thể hiện mối quan hệ trực

tiếp giữa hai từ trong câu văn bản, ví dụ xét nsubj(developed-4, 3) trong đó số 3 và 4 cho biết thứ tự của từ xuất hiện trong câu, nếu xét

wound-về vai trò ngữ pháp thì hai từ “developed” và “wound” có mối quan hệ trực tiếp là chủ từ-động từ (nsubj), từ “developed” với vai trò là từ chính (governor) và từ “wound” có vai trò là từ phụ thuộc (dependent)

Để dễ dàng hiểu các mối quan hệ ngữ pháp trong câu, những phụ thuộc được ánh xạ trên một đồ thị có hướng, trong đó các từ trong câu là các nút trên đồ thị và các mối quan hệ ngữ pháp là các nhãn cạnh Hình 3.2 biểu diễn đồ thị phụ thuộc cho câu ví dụ trên, các mối quan hệ được

Trang 12

Hình 3.2 Biểu diễn đồ thị phụ thuộc

định nghĩa trong [47], các định nghĩa sử dụng nhãn từ loại (POS) và nhãn cụm từ của Penn Treebank

Hình 3.1 Kết quả đầu ra của phân tích phụ thuộc

Trong hình 3.3 tại dòng 2, nếu xét về vai trò ngữ pháp thì danh từ chính “stenosis” thể hiện

mối quan hệ chủ từ của

động từ chính “present”

với nhãn quan hệ ngữ

pháp là “nsubj”, đây

chinh là cơ sở để xây

dựng luật thể hiện mối quan

hệ Để dễ dàng biểu diễn

hình thức tập luật, chúng tôi đặt

tên cho 3 tham số gồm governor

là từ chính, dependent là từ phụ

thuộc và rel_label là nhãn mối

quan hệ ngữ pháp (xem minh

họa ở hình 3.3) Một trường hợp

cụ thể minh họa việc xây dựng

tập luật như sau: dựa trên kết

quả phân tích phụ thuộc ở hình

3.3 cho thấy dòng thứ 2 thể hiện cặp khái niệm (Mitral stenosis, not

Trang 13

Hình 3.5 Đồ thị phụ thuộc cho câu văn bản

Hình 3.6 Kết quả đầu ra phân tích phụ thuộc.

present) có quan hệ phụ thuộc với nhau và dòng thứ 8 thể hiện mối quan

hệ phụ thuộc giữa cặp khái niệm (mitral regurgitation, not seen), từ đây

chúng tôi xây dựng được hai luật xác định mối quan hệ giữa hai khái niệm được minh họa ở hình 3.4

Hình 3.4 Luật xác định mối quan hệ giữa một cặp khái niệm

Luật biểu diễn trên là cho trường hợp hai khái niệm thể hiện mối quan

hệ trực tiếp với nhau, tuy nhiên có những trường hợp hai khái niệm không thể hiện mối quan hệ trực tiếp mà phải thông qua các từ (nút) trung gian trong câu văn bản Ví

dụ, xét câu văn bản “Very minimal

atelectatic changes are noted at the

lung bases with otherwise clear

lungs.”, trong đó cặp khái niệm

(minimal atelectatic, lung bases)

không thể hiện mối quan hệ trực

tiếp mà phải thông qua nút trung

gian là từ “noted” (xem đồ thị

minh họa hình 3.5)

Tập luật xác định mối quan hệ

giữa hai khái niệm thông qua một

nút trung gian dựa trên kết quả

đầu ra của phân tích phụ thuộc tại

dòng 4 và 10 ở hình 3.6 được xây

dựng để xác định mối quan hệ

cho cặp khái niệm (minimal

Trang 14

Hình 3.7 Biểu diễn luật thông qua nút

trung gian.

atelectatic, lung bases) được

minh họa trong hình 3.7

Tập luật được mở rộng để

xác định mối quan hệ giữa hai

khái niệm thông qua nhiều nút

trung gian, trong kho ngữ

liệu được khảo sát thì số nút

trung gian tối đa là 3, tuy nhiên số nút trung gian có thể phụ thuộc vào kho ngữ liệu gán nhãn, tập luật này được dùng trong kiến trúc hệ thống điền mẫu được trình bày ở phần sau

3.3.2 Tập đặc trưng phân lớp mối quan hệ thời gian

Tập đặc trưng phân lớp mối quan hệ thời gian được luận án nghiên cứu đề xuất là nhằm giải quyết cho vấn đề phân lớp mối quan hệ thời gian giữa khái niệm và thời điểm tài liệu lâm sàng được tạo ra, việc phân lớp này không hiệu quả khi tiếp cận bằng phương pháp dựa trên luật, bởi

vì rất khó dùng tri thức chuyên gia để xây dựng tập luật phân lớp, cho nên luận án tiếp cận dựa trên phương pháp máy học tốt hơn Đối với phương pháp máy học, vấn đề quan trọng là xác định tập đặc trưng phân lớp, vì vậy mà luận án đã nghiên cứu đề xuất tập đặc trưng phân lớp như

sau: loại tài liệu, phân mục, thì – thể của động từ, mối quan hệ với các

mốc thời gian lâm sàng, phân đoạn đặc biệt, các động từ chỉ dấu hiệu và cụm từ đặc biệt (cue phrase) Tập đặc trưng này được áp dụng trong kiến

trúc hệ thống điền mẫu được trình bày trong phần tiếp theo

3.3.3 Hệ thống điền mẫu

Bài toán điền mẫu được đánh giá là khá phức tạp, một mẫu bao gồm nhiều thuộc tính, mà mỗi thuộc tính có yêu cầu khác nhau, nó đòi hỏi phải áp dụng nhiều kỹ thuật và phương pháp để giải quyết, đây chính là

lý do mà chúng tôi chọn nghiên cứu bài toán điền mẫu với mục tiêu là nghiên cứu được các phương pháp giải quyết bài toán

Ngày đăng: 20/12/2017, 15:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w