MỞ ĐẦU Dẫn nhập Trong lĩnh vực y tế, các khái niệm thường đề cập đến các đối tượng như: bệnh, rối loạn, thuốc tên thuốc, liều lượng, phương thức quản lý, tần xuất quản lý …, điều trị th
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
HUỲNH HỮU NGHĨA
MÔ HÌNH KHAI THÁC KHÁI NIỆM VÀ QUAN HỆ
TRONG VĂN BẢN LÂM SÀNG
Chuyên ngành : HỆ THỐNG THÔNG TIN
Mã số : 62.48.05.01
TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
Tp Hồ Chí Minh – Năm 2017
Trang 2Công trình được hoàn thành tại: ĐẠI HỌC QUỐC GIA TP-HCM
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Người hướng dẫn khoa học: PGS TS HỒ BẢO QUỐC
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án họp tại
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
vào lúc giờ ngày tháng năm
Có thể tìm hiểu luận án tại thư viện:
- Thư viện Khoa học Tổng hợp Tp.HCM
- Thư viện Trường Đại học Khoa học Tự Nhiên
Trang 3MỞ ĐẦU Dẫn nhập
Trong lĩnh vực y tế, các khái niệm thường đề cập đến các đối tượng
như: bệnh, rối loạn, thuốc (tên thuốc, liều lượng, phương thức quản lý,
tần xuất quản lý …), điều trị (thủ tục, biện pháp điều trị, thuốc điều trị
…), các vấn đề y tế, xét nghiệm, protein, di truyền (gien)… còn mối quan
hệ cho biết mối liên quan giữa các khái niệm như: điều trị giải quyết
được vấn đề y tế, điều trị làm xấu đi vấn đề y tế, xét nghiệm phát hiện ra
vấn đề y tế… việc nhận diện khái niệm là tiền đề để xác định mối quan
hệ giữa chúng, các khái niệm và mối quan hệ có ý nghĩa rất quan trọng đối với người dùng như: bác sĩ, nhà nghiên cứu, sinh viên y khoa, nhân viên y tế, bệnh nhân cũng như thân nhân… Một số trường hợp cụ thể cho thấy ý nghĩa của khái niệm và mối quan hệ đối với người dùng như sau:
các bác sĩ muốn biết mối quan hệ giữa các khái niệm điều trị và vấn đề y
tế để giúp họ đưa ra quyết định điều trị hiệu quả và hạn chế những sai
sót, các nhà nghiên cứu muốn tìm hiểu về mối quan hệ giữa các khái
niệm di truyền (gien) và bệnh nhằm giải thích những căn bệnh liên quan
đến yếu tố di truyền, và còn rất nhiều trường hợp khác nữa Những khái niệm và mối quan hệ đang nằm ẩn trong các tài liệu y tế như: các tóm tắt xuất viện, các kết quả xét nghiệm, các công trình nghiên cứu khoa học… Những tài liệu này đang được tạo ra liên tục, người dùng không thể nào
đọc một khối lượng lớn tài liệu để cập nhật thông tin hữu ích (khái niệm
và mối quan hệ) hàng ngày Vì vậy, mà họ rất cần một hệ thống máy tính
rút trích thông tin hữu ích từ các nguồn tài liệu y tế để cung cấp cho họ Thời gian qua, một số công trình nghiên cứu đã đề xuất một số giải pháp và công cụ hỗ trợ việc rút trích thông tin hữu ích từ các tài liệu y tế
để đáp ứng nhu cầu thông tin của người dùng như: phân loại hồ sơ y tế của bệnh nhân [55], rút trích thông tin liên quan đến bệnh [56] và rút trích thông tin liên quan đến thuốc [63] Tuy nhiên, những kết quả chưa đạt được như mong muốn, bằng chứng là một số diễn đàn nghiên cứu
Trang 4quốc tế đang tiếp tục mời gọi cộng đồng nghiên cứu đề xuất những giải pháp mới nhằm khai thác thông tin từ tài liệu y tế thông qua các hình
thức như: “Bài toán chia sẻ” (Shared tasks) và “Các thách thức”
(Chellenges), cụ thể một số diễn đàn như: I2B2, BioNLP, CLEF eHealth
và SemEval Sở dĩ kết quả còn hạn chế là do việc khai thác thông tin y tế
có nhiều thách thức, một số thách thức có thể kể đến như sau: dữ liệu văn
bản không có cấu trúc hoặc bán cấu trúc, tính đồng nghĩa của các từ hoặc cụm từ, các cụm từ thường không đúng ngữ pháp, nhiều ký tự/chữ viết tắt, lỗi chính tả, sự đa dạng về mặt từ vựng, hình thức thể hiện của khái niệm, chuẩn hoá khái niệm và các mối quan hệ phức tạp
Với mong muốn tham gia đóng góp cùng với cộng động nghiên cứu, chúng tôi định hướng nghiên cứu mô hình khai thác thông tin y tế dựa trên khái niệm (xem hình 1) Trong mô hình khai thác thông tin y tế bao gồm nhiều bài toán con bên
trong nó, chẳng hạn như:
nhận diện khái niệm, rút
trích mối quan hệ giữa các
khái niệm, quản lý tri thức
và các chương trình ứng
dụng khác, trong đó nhận
diện khái niệm và rút trích
mối quan hệ là hai bài toán cốt lõi trong mô hình khai thác thông tin y tế,
nó là thành phần rút trích thông tin hữu ích từ tài liệu, còn là nguồn cung cấp thông tin để xây dựng các cơ sở tri thức và từ đó phát triển các chương trình ứng dụng (hệ thống hỗ trợ ra quyết định) Những nghiên cứu liên quan đến hai bài toán này chưa đạt được kết quả như mong muốn, cho nên mục tiêu của luận án sẽ tập trung nghiên cứu đề xuất một
số giải pháp liên quan đến hai bài toán nhận diện khái niệm và rút trích mối quan hệ giữa các khái niệm trước, sau đó chúng tôi mở rộng nghiên
Hình 1 Mô hình khai thác thông tin y tế
Trang 5cứu cho những bài toán còn lại để hoàn thiện mô hình khai thác thông tin
y tế
Mục tiêu của đề tài
Trong phạm vi của luận án, từ mục tiêu định hướng nêu trên, chúng tôi xác định 3 mục tiêu mà luận án nghiên cứu giải quyết gồm:
(1) Nghiên cứu các phương pháp rút trích khái niệm và đề xuất một hướng tiếp cận rút trích khái niệm nhằm giải quyết thách thức liên quan đến thể hiện của khái niệm trong tài liệu, khái niệm gồm những token liên tục, không liên tục, hoặc lồng nhau và thách thức chuẩn hoá khái niệm
(2) Nghiên cứu các phương pháp rút trích mối quan hệ và đề xuất một hướng tiếp cận rút trích mối quan hệ trên bài toán cụ thể là rút trích giá trị cho các thuộc tính của từng khái niệm (còn gọi là bài toán điền mẫu)
(3) Nghiên cứu đề xuất mô hình (khung kiến trúc) khai thác khái niệm
và mối quan hệ trong văn bản lâm sàng và định hướng phát triển một khung kiến trúc chung khai thác thông tin văn bản trong lĩnh vực y tế
Những đóng góp chính của luận án
Đối với bài toán rút trích khái niệm, luận án đã đề xuất một bộ nhãn
BIEO (Begin, Inside, End và Outside) dùng để phân lớp cho token và tập
đặc trưng phân lớp nhằm rút trích khái niệm và chuẩn hoá khái niệm dựa trên phương pháp máy học và từ điển Kết quả được công bố trong công trình ([CT5], [CT10])
Trong bài toán rút trích mối quan hệ, đóng góp của luận án là những
đề xuất gồm: tập luật xác định mối quan hệ giữa các khái niệm dựa trên phân tích cú pháp phụ thuộc; tập đặc trưng phân lớp mối quan hệ thời gian giữa khái niệm và thời điểm viết tài liệu; một hướng tiếp cận kết hợp các phương pháp dựa trên luật, từ điển và máy học để xác định giá trị cho các thuộc tính của khái niệm y tế và một số cải tiến hiệu quả cho hệ
Trang 6thống được công bố trong các công trình ([CT2], [CT3], [CT4], [CT7], [CT8], [CT9]) Bên cạnh đó, luận án đã đưa ra một hướng tiếp cận lai ghép giữa máy học và luật để rút trích sự kiện y sinh, phương pháp máy học được áp dụng để phân lớp sự kiện và dựa trên luật để xác định các tham số liên quan đến sự kiện, tập luật được hệ thống học tự động từ tập
dữ liệu huấn luyện Kết quả được thể hiện trong công trình ([CT1]) Đóng góp cuối cùng của luận án là sử dụng các kết quả trên để xây dựng một mẫu ban đầu (prototype) cho hệ thống khai thác thông tin y tế dựa trên khái niệm Kết quả trình bày trong công trình ([CT6])
Chương 1 GIỚI THIỆU 1.1 Dữ liệu y tế
Luận án trình bày loại dữ liệu được sử dụng cho quá trình nghiên cứu liên quan đến tài liệu lâm sàng và các tài liệu là các bài báo nghiên cứu khoa học trong lĩnh vực y tế (xem phần phụ lục A)
1.2 Khai thác văn bản tổng quát
Luận án tìm hiểu bài toán rút trích thực thể và mối quan hệ trên văn bản tổng quát cũng như những phương pháp đánh giá hiệu quả của hệ thống rút trích thực thể và mối quan hệ
1.3 Khai thác văn bản y tế
Luận án khảo sát hiện trạng khai thác văn bản y tế gồm xử lý ngôn ngữ tự nhiên trong lĩnh vực y tế, những thách thức trong bài toán rút trích khái niệm và mối quan hệ giữa các khái niệm cũng như các phương pháp rút trích, các nguồn tài nguyên hỗ trợ khai thác văn bản y tế Từ đó làm
cơ sở cho luận án nghiên cứu và giải quyết ba mục tiêu nghiên cứu đề ra
Chương 2 RÚT TRÍCH KHÁI NIỆM Y TẾ 2.1 Giới thiệu
Bài toán rút trích khái niệm có nhiều thách thức, tuy nhiên luận án tập trung nghiên cứu giải quyết thách thức thể hiện của khái niệm trong văn
Trang 7bản lâm sàng (các khái niệm thể hiện gồm những token liên tục, không liên tục, hoặc lồng nhau)
Thể hiện của khái niệm trong văn bản rất đa dạng, một khái niệm có thể được thể hiện gồm những token liên tục, không liên tục hoặc lồng
nhau Cụ thể, xét câu văn bản “The rhythm appears to be atrial
fibrillation.” (Nhịp tim chứng tỏ là rung tâm nhĩ.), có khái niệm gồm
những token liên tục là “atrial fibrillation”; xét câu văn bản “The left
atrium is moderately dilated.” (Tâm nhĩ trái đã bị giãn.), có một khái
niệm xuất hiện trong văn bản là “left atrium … dilated” (giãn tâm nhĩ
trái) gồm 2 cụm token không liên tục; xét câu văn bản “Abdomen: Soft, nontender, nondistended, normal active bowel sounds.”, có hai khái niệm
lồng nhau cần được rút trích là “Abdomen … nontender” (bụng cứng) và
“Abdomen … nondistended” (bụng không bị sưng to) và cả hai khái niệm
này có chung token là “Abdomen” Như vậy, việc rút trích chính xác
những khái niệm xuất hiện trong văn bản ngôn ngữ tự nhiên không có cấu trúc là một thách thức đối với các phương pháp tiếp cận
2.2 Những đề xuất liên quan
Trong chương khảo sát hiện trạng cho thấy việc rút trích thực thể có thể dựa trên các phương pháp như: từ điển, luật, máy học và lai ghép, xu hướng là dùng phương pháp máy học và thuật toán máy học được sử dụng phổ biến là thuật toán gán nhãn chuỗi tuần tự CRFs với bộ nhãn BIO, cho nên luận án cũng áp dụng phương pháp máy học và sử dụng thuật toán CRFs để rút trích khái niệm y tế Tuy nhiên, khi áp dụng nó phát sinh một số vấn đề như: bộ nhãn BIO không phù hợp với những thể hiện thực tế của khái niệm và tập đặc trưng phân lớp cũng khác nhau, vì thế chúng tôi đã nghiên cứu đề xuất bộ nhãn, tập đặc trưng và thiết kế một hệ thống phù hợp với bài toán hơn được trình bày trong phần tiếp theo
2.2.1 Bộ nhãn phân lớp Token
Trang 8Các khái niệm cần rút trích có nhiều thể hiện khác nhau trong tài liệu
y tế, một khái niệm có thể gồm nhiều token liên tục, không liên tục hoặc lồng nhau, bộ nhãn BIO chỉ phù hợp cho khái niệm gồm những token liên tục còn các trường hợp khác thì không phù hợp, cho nên chúng tôi đề
xuất bộ nhãn BIEO được sử dụng như sau: nhãn B (Begin) gán cho token bắt đầu khái niệm, nhãn I (Inside) gán cho token bên trong khái niệm, nhãn E (End) gán cho token cuối cùng của khái niệm và nhãn O (Outside) gán cho token không thuộc khái niệm Với bộ nhãn mà luận án
đề xuất dùng để gán nhãn token có thể phủ hết những dạng thể hiện của khái niệm trong tài liệu
2.2.2 Tập đặc trưng phân lớp Token
Trong phương pháp máy học, tập đặc trưng có vai trò quan trọng và ảnh hưởng đến hiệu quả của phương pháp, đặc trưng chính là đặc điểm
để nhận diện và phân lớp, trong bài toán này chúng tôi đã nghiên cứu đặc điểm của dữ liệu y tế và đề xuất tập đặc trưng phù hợp dùng để phân lớp nhãn token cho bài toán rút trích khái niệm như sau:
Đặc trưng ngữ cảnh: chỉ token hiện tại đang xét và hai token liền trước và liền sau của token đang xét Các token xung quanh token đang
xét đóng vai trò là thông tin ngữ cảnh
Đặc trưng mặt chữ (Orthographic): token đang xét là chữ thường,
in hoa, hoa ký tự đầu và chữ có số
Đặc trưng từ loại (Part of Speech): từ loại của token đang xét, các
từ loại bao gồm danh từ, động từ, tính từ, giới từ, trạng từ, cụm danh từ,
cụm động từ và cụm giới từ
Đặc trưng thứ tự nhãn (label sequences): là thứ tự nhãn được gán cho từng token Ý nghĩa của đặc trưng này là giá trị nhãn phân lớp của token thứ i phụ thuộc vào giá trị nhãn phân lớp của token thứ i – 1
2.2.3 Hệ thống rút trích và chuẩn hoá khái niệm
Tiếp theo, luận án đã kết hợp các đề xuất nêu trên để thiết kế một hệ thống rút trích và chuẩn hoá khái niệm (xem hình 2.1), trong hệ thống
Trang 9được thiết kế gồm hai bước: (1) xây dựng mô hình và tập từ vựng từ dữ liệu huấn luyện và (2) áp dụng kết quả của (1) để rút trích và chuẩn hoá khái niệm
2.3 Áp dụng các đề xuất
Luận án sử dụng hệ thống trên
tham gia giải quyết bài toán “Rút
trích và chuẩn hoá khái niệm liên
quan đến bệnh/rối loạn xuất hiện
trong tài liệu lâm sàng” được tổ
chức trên diễn đàn nghiên cứu
SemEval 2015 Bộ dữ liệu sử
dụng thực nghiệm do SemEval
cung cấp thông qua kho ngữ liệu
ShARe, gồm 431 tài liệu được sử
dụng là dữ liệu huấn luyện và 100
tài liệu được dùng để đánh giá
hiệu quả hệ thống, việc đánh giá
và công bố kết quả là do SemEval thực hiện
2.4 Đánh giá hiệu quả đề xuất
Dựa trên kết quả của các hệ thống cùng tham gia do SemEval công bố chúng tôi có một số bàn luận như sau: nhìn chung hướng tiếp cận của luận án (HCMUS) tương đồng với hướng tiếp cận của các nhóm cùng tham gia, tuy nhiên khi đối chiếu chi tiết giữa các hệ thống thì nó có những khác biệt, sự khác biệt đầu tiên là bộ nhãn sử dụng cụ thể: nhóm LIST-LUX dùng bộ nhãn BIESTO, nhóm HCMUS dùng bộ nhãn BIEO
và nhóm HITACHI dùng bộ nhãn BIO; sự khác biệt tiếp theo là tập đặc trưng phân lớp: hai nhóm LIST-LUX và HCMUS cùng dùng thuật toán CRFs, tập đặc trưng gần giống nhau và hệ thống chạy một lần để rút trích khái niệm nhưng hiệu quả của HCMUS cao hơn LIST-LUX dựa trên độ
đo F-score (xem bảng 2.5), trong khi đó số đặc trưng của nhóm ezDl sử
Hình 2.1 Hệ thống rút trích và chuẩn
hoá khái niệm
Trang 10dụng nhiều hơn và hệ thống phức tạp hơn do lần đầu họ dùng thuật toán CRFs để rút trích các khái niệm thể hiện những token liên tục và lần hai
họ dùng thuật toán SVM
để phân lớp mối quan hệ
giữa các khái niệm nhằm
xác định những khái niệm
thể hiện những token
không liên tục hoặc lồng nhau cho nên hệ thống của họ có kết quả cao
nhất trong tất cả các nhóm tham gia trên độ đo F-score (xem bảng 2.5)
Như vậy, có thể thấy rằng những đề xuất của luận án cũng mang lại được những hiệu quả nhất định, tuy nhiên cũng cần có những nghiên cứu cải tiến trong lai
Chương 3 RÚT TRÍCH MỐI QUAN HỆ GIỮA CÁC KHÁI NIỆM 3.1 Giới thiệu
Mối quan hệ trong y tế rất rộng, có nhiều loại khác nhau cho nên không thể rút trích hết tất cả các mối quan hệ, mà chỉ có thể tập trung rút trích trên một số mối quan hệ được xác định bởi chuyên gia Ngay cả việc rút trích một số mối quan hệ cụ thể cũng không dễ dàng do mối quan
hệ thể hiện trên nhiều câu khác nhau Vì vậy, trong luận án chúng tôi chỉ tập trung nghiên cứu xử lý rút trích mối quan hệ trên cùng câu Để có một khung nhìn tổng quát hơn về bài toán rút trích mối quan hệ, phần tiếp theo chúng tôi trình bày một số bài toán liên quan đến rút trích mối quan hệ trong lĩnh vực y tế
3.2 Các bài toán rút trích mối quan hệ trong lĩnh vực y tế
Thời gian qua, cộng đồng tham gia nghiên cứu đã giải quyết một số bài toán liên quan đến rút trích mối quan hệ trong lĩnh vực y tế gồm phân lớp mối quan hệ giữa các khái niệm, đồng tham chiếu, phân lớp mối quan
hệ thời gian, xác định giá trị cho các thuộc tính liên quan trên từng khái niệm y tế (còn gọi là bài toán điền mẫu) và rút trích sự kiện y sinh Trong
Trang 11số những bài toán nêu trên, luận án chỉ nghiên cứu đề xuất một số giải pháp liên quan đến hai bài toán điền mẫu và rút trích sự kiện y sinh
3.3 Đề xuất liên quan đến bài toán điền mẫu
Đối với bài toán điền mẫu luận án có một số đề xuất như sau: tập luật xác định mối quan hệ giữa hai khái niệm, tập đặc trưng phân lớp mối quan hệ thời gian và kiến trúc hệ thống điền mẫu, từng đề xuất lần lược được trình bày ở phần tiếp theo
3.3.1 Tập luật xác định mối quan hệ
Việc xác định hai khái niệm có mối quan hệ với nhau hay không có thể sử dụng những phương pháp như: dựa trên luật, máy học hoặc kernel, trong hướng tiếp cận của luận án chúng tôi muốn kết hợp giữa tri thức của chuyên gia và phân tích đặc điểm của tài liệu y tế để xây dựng tập luật nhằm xác định mối quan hệ giữa hai khái niệm Tri thức chuyên gia được thể hiện trong tập dữ liệu gán nhãn khái niệm và mối quan hệ giữa các khái niệm trên 300 tài liệu lâm sàng, cơ sở để xây dựng tập luật là dựa trên mối quan hệ phụ thuộc giữa các từ trong cùng câu văn bản chứa hai khái niệm, tập luật đươc xây dựng bằng thủ công dựa vào kết quả phân tích phụ thuộc trên đồ thị phụ thuộc Ví dụ, xét câu văn bản đầu vào
“Her sternal wound developed purulent draiange, and the wound was
opened and a vac dressing was applied there as well.”, kết quả đầu ra
biểu diễn phụ thuộc xem hình 3.1 Mỗi dòng thể hiện mối quan hệ trực
tiếp giữa hai từ trong câu văn bản, ví dụ xét nsubj(developed-4, 3) trong đó số 3 và 4 cho biết thứ tự của từ xuất hiện trong câu, nếu xét
wound-về vai trò ngữ pháp thì hai từ “developed” và “wound” có mối quan hệ trực tiếp là chủ từ-động từ (nsubj), từ “developed” với vai trò là từ chính (governor) và từ “wound” có vai trò là từ phụ thuộc (dependent)
Để dễ dàng hiểu các mối quan hệ ngữ pháp trong câu, những phụ thuộc được ánh xạ trên một đồ thị có hướng, trong đó các từ trong câu là các nút trên đồ thị và các mối quan hệ ngữ pháp là các nhãn cạnh Hình 3.2 biểu diễn đồ thị phụ thuộc cho câu ví dụ trên, các mối quan hệ được
Trang 12Hình 3.2 Biểu diễn đồ thị phụ thuộc
định nghĩa trong [47], các định nghĩa sử dụng nhãn từ loại (POS) và nhãn cụm từ của Penn Treebank
Hình 3.1 Kết quả đầu ra của phân tích phụ thuộc
Trong hình 3.3 tại dòng 2, nếu xét về vai trò ngữ pháp thì danh từ chính “stenosis” thể hiện
mối quan hệ chủ từ của
động từ chính “present”
với nhãn quan hệ ngữ
pháp là “nsubj”, đây
chinh là cơ sở để xây
dựng luật thể hiện mối quan
hệ Để dễ dàng biểu diễn
hình thức tập luật, chúng tôi đặt
tên cho 3 tham số gồm governor
là từ chính, dependent là từ phụ
thuộc và rel_label là nhãn mối
quan hệ ngữ pháp (xem minh
họa ở hình 3.3) Một trường hợp
cụ thể minh họa việc xây dựng
tập luật như sau: dựa trên kết
quả phân tích phụ thuộc ở hình
3.3 cho thấy dòng thứ 2 thể hiện cặp khái niệm (Mitral stenosis, not
Trang 13Hình 3.5 Đồ thị phụ thuộc cho câu văn bản
Hình 3.6 Kết quả đầu ra phân tích phụ thuộc.
present) có quan hệ phụ thuộc với nhau và dòng thứ 8 thể hiện mối quan
hệ phụ thuộc giữa cặp khái niệm (mitral regurgitation, not seen), từ đây
chúng tôi xây dựng được hai luật xác định mối quan hệ giữa hai khái niệm được minh họa ở hình 3.4
Hình 3.4 Luật xác định mối quan hệ giữa một cặp khái niệm
Luật biểu diễn trên là cho trường hợp hai khái niệm thể hiện mối quan
hệ trực tiếp với nhau, tuy nhiên có những trường hợp hai khái niệm không thể hiện mối quan hệ trực tiếp mà phải thông qua các từ (nút) trung gian trong câu văn bản Ví
dụ, xét câu văn bản “Very minimal
atelectatic changes are noted at the
lung bases with otherwise clear
lungs.”, trong đó cặp khái niệm
(minimal atelectatic, lung bases)
không thể hiện mối quan hệ trực
tiếp mà phải thông qua nút trung
gian là từ “noted” (xem đồ thị
minh họa hình 3.5)
Tập luật xác định mối quan hệ
giữa hai khái niệm thông qua một
nút trung gian dựa trên kết quả
đầu ra của phân tích phụ thuộc tại
dòng 4 và 10 ở hình 3.6 được xây
dựng để xác định mối quan hệ
cho cặp khái niệm (minimal
Trang 14Hình 3.7 Biểu diễn luật thông qua nút
trung gian.
atelectatic, lung bases) được
minh họa trong hình 3.7
Tập luật được mở rộng để
xác định mối quan hệ giữa hai
khái niệm thông qua nhiều nút
trung gian, trong kho ngữ
liệu được khảo sát thì số nút
trung gian tối đa là 3, tuy nhiên số nút trung gian có thể phụ thuộc vào kho ngữ liệu gán nhãn, tập luật này được dùng trong kiến trúc hệ thống điền mẫu được trình bày ở phần sau
3.3.2 Tập đặc trưng phân lớp mối quan hệ thời gian
Tập đặc trưng phân lớp mối quan hệ thời gian được luận án nghiên cứu đề xuất là nhằm giải quyết cho vấn đề phân lớp mối quan hệ thời gian giữa khái niệm và thời điểm tài liệu lâm sàng được tạo ra, việc phân lớp này không hiệu quả khi tiếp cận bằng phương pháp dựa trên luật, bởi
vì rất khó dùng tri thức chuyên gia để xây dựng tập luật phân lớp, cho nên luận án tiếp cận dựa trên phương pháp máy học tốt hơn Đối với phương pháp máy học, vấn đề quan trọng là xác định tập đặc trưng phân lớp, vì vậy mà luận án đã nghiên cứu đề xuất tập đặc trưng phân lớp như
sau: loại tài liệu, phân mục, thì – thể của động từ, mối quan hệ với các
mốc thời gian lâm sàng, phân đoạn đặc biệt, các động từ chỉ dấu hiệu và cụm từ đặc biệt (cue phrase) Tập đặc trưng này được áp dụng trong kiến
trúc hệ thống điền mẫu được trình bày trong phần tiếp theo
3.3.3 Hệ thống điền mẫu
Bài toán điền mẫu được đánh giá là khá phức tạp, một mẫu bao gồm nhiều thuộc tính, mà mỗi thuộc tính có yêu cầu khác nhau, nó đòi hỏi phải áp dụng nhiều kỹ thuật và phương pháp để giải quyết, đây chính là
lý do mà chúng tôi chọn nghiên cứu bài toán điền mẫu với mục tiêu là nghiên cứu được các phương pháp giải quyết bài toán