Tóm tắt: Bài toán rút trích thuật ngữ y khoa trong văn bản lâm sàng, với dữ liệu y khoa có tính riêng tư nên việc tiếp cận nguồn dữ liệu bị hạn chế. Chúng tôi đã dựa trên phương pháp khai thác thuật ngữ y khoa đối với tiếng Ba Lan, tiếng Anh, v.v để áp dụng cho tiếng Việt , ngay cả ở những tập dữ liệu đầu vào không lớn, nếu biết cách nhận diện thì những thuật ngữ quan trọng bị lồng ghép bên trong những cấu trúc ngữ pháp, ngữ cảnh phức tạp cũng được tìm ra. Phương pháp của chúng tôi được đánh giá và so sánh hiệu quả với công trình “Trích xuất thuật ngữ y học trong bệnh án điện tử tiếng Việt”_công trình đầu tiên dành cho tiếng Việt. Kết quả đánh giá cho thấy phương pháp của chúng tôi có hiệu quả cao hơn dựa trên chỉ số Recall, Precision và F-measure. Các thuật ngữ tìm thấy có thể giúp ích cho việc xây dựng hoặc bổ sung thuật ngữ cho bộ từ điển y khoa, hỗ trợ tiền xử lý cho bài toán hệ hỗ trợ chẩn đoán bệnh, quan hệ bệnh-thuốc, khai thác thông tin từ bệnh án v.v
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐAI HOC BÁCH KHOA
TRƯƠNG THỊ MỸ NGỌC
RÚT TRÍCH THUẬT NGỮ Y KHOA TRONG VĂN BẢN LÂM SÀNG TIẾNG VIỆT
Chuyên ngành: Khoa Học Máy Tính
Mã sỗ: 60.48.01
LUẬN VĂN THẠC sĩ
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG - HCMCán bộ hướng dẫn khoa học 1: GS.TS Cao Hoàng Trụ
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập -Tự do -Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC sĩ
Họ và tên học viên: TRƯƠNG THỊ MỸ NGỌC MSHV: 7140830 Ngày, tháng, năm sinh: 17/10/1988 Nơi sinh: Tỉnh Long AnChuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 604801
I TÊN ĐỀ TÀI:
RÚT TRÍCH THUẬT NGỮ Y KHOA TRONG VĂN BẢN LÂM SÀNG TIẾNG VIỆT
(Terminology extraction from Vietnamese clinical texts)
NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu các công trình liên quan bài toán rút trích thuật ngữ trong vãn bản lâm sàng
- Tìm hiểu các công trình liên quan bài toán rút trích thuật ngữ trong vãn bản lâm sàng tiếngViệt
- Xây dựng phương pháp rút trích thuật ngữ trong vãn bảng lâm sàng tiếng Việt dựa trên quytắc ngữ pháp và các độ đo thống kê thuật ngữ
- Thực hiện đánh giá phương pháp đề xuất của đề tài, so sánh với công trình liên quan bàitoán rút trích thuật ngữ trong vãn bản lâm sàng tiếng Việt
- Báo cáo kết quả thực hiện đề tài và chuẩn bị luận vãn
II NGÀY GIAO NHIỆM VỤ: 04/09/2017
III NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018
IV CÁN Bộ HƯỚNG DẪN: GS.TS CAO HOÀNG TRỤ
TS VÕ THỊ NGỌC CHÂU
Trang 4(Họ tên và chữ ký)
TRƯỞNG KHOA
(Họ tên và chữ ký)
TS VÕ THỊ NGỌC CHÂU
Trang 5LỜI CẢM ƠN
Xin được gởi lời cảm ơn chân thành tới Thầy hướng dẫn của tôi là GS.TS Cao HoàngTrụ Thầy đã hướng dẫn chúng tôi cách tiếp cận bài toán và cách giải bài toán trong khoa học.Chúng tôi không chỉ được học hỏi ở Thầy về kiến thức, mà còn học được phong cách làm việccủa một nhà khoa học, một nhà giáo ưu tú
Xin được gởi lời cảm ơn chân thành tới Cô hướng dẫn của tôi là TS Võ Thị Ngọc Châu
Cô đã tận tâm, nhiệt tình, trách nhiệm, đồng hành cùng tôi trong giai đoạn hiện thực lời giảibài toán Nếu không có sự hướng dẫn của Cô thì tôi không có cơ hội hoàn thành luận văn.Xin được gởi lời cảm ơn anh Phan Trường Khoa (Postdoctoral researcher tại UniversityCollege London) đã giúp tôi có được những bài báo có bản quyền Cảm ơn những người bạnphòng AC Lab, HPC Lab Cảm ơn hai bạn sinh viên Ngô Tấn Trung, Bùi Tuấn Đại, và cácanh chị, các bạn khóa K14, K15
Cảm ơn quý Thầy, Cô trong khoa Khoa Học & Kỹ Thuật Máy Tính ĐH Bách KhoaTpHCM
Cảm ơn Giai Đĩnh luôn là chỗ dựa, nguồn động viên tinh thần giúp tôi hoàn thành luậnvăn
Trang 6TÓM TẮT
Một phương pháp mới trong việc rút trích thuật ngữ y khoa trong văn bản lâm sàng tiếng Việt.Bài toán rút trích thuật ngữ y khoa trong văn bản lâm sàng, với dữ liệu y khoa có tính riêng tưnên việc tiếp cận nguồn dữ liệu bị hạn chế Chúng tôi đã dựa trên phương pháp khai thác thuậtngữ y khoa đối với tiếng Ba Lan, tiếng Anh, v.v để áp dụng cho tiếng Việt, ngay cả ở nhữngtập dữ liệu đầu vào không lớn, nếu biết cách nhận diện thì những thuật ngữ quan trọng bị lồngghép bên trong những cấu trúc ngữ pháp, ngữ cảnh phức tạp cũng được tìm ra
Chúng tôi dựa trên bảy luật của cấu trúc ngữ pháp cụm danh từ, cụm động từ, rút trích nhữngcụm từ dài nhất có thể Bước tiếp theo, dựa vào độ liên kết của hai từ liên tiếp nhau (bi-gram)chúng tôi tách cụm ở vị trí có độ liên kết thấp nhất và thỏa điều kiện ngữ pháp Qua nhiềucông đoạn, chúng tôi rút trích được những thuật ngữ y khoa
Phương pháp của chúng tôi được đánh giá và so sánh hiệu quả với công trình “Trích xuấtthuật ngữ y học trong bệnh án điện tử tiếng Việt”_công trĩnh đầu tiên dành cho tiếng Việt Kếtquả đánh giá cho thấy phương pháp của chúng tôi có hiệu quả cao hơn dựa trên chỉ số Recall,Precision và F-measure Các thuật ngữ tìm thấy có thể giúp ích cho việc xây dựng hoặc bổsung thuật ngữ cho bộ từ điển y khoa, hỗ trợ tiền xử lý cho bài toán hệ hỗ trợ chẩn đoán bệnh,quan hệ bệnh-thuốc, khai thác thông tin từ bệnh án v.v
Trang 7Terminology extraction from Vietnamese clinical texts Clinical textss contain free textdescribing the most important facts relating to patient's illnesses These texts are written inspecific language containing medical terminology related to hospital treatment
It would be helpful if term were possible to automatically extraction An set of terms whichcould be used for the purpose of information extraction
We propose a new method for identifying nested terms based on a combination of twoaspects: grammatical correctness and normalised pointwise mutual information (NPMI)counted for all bigrams in a given corpus
In our solution we use NPMI to recognise the weakest points to suggest the best place fordivision of a phrase into two parts By creating, at most, two nested phrases in each step andimportant terms can extract within complex constructions Appropriate recognition of nestedterms can thus influence the content of the extracted candidate term list and its order
Trang 8LỜI CAM KÉT
Tôi là Trương Thị Mỹ Ngọc học viên cao học khoa Khoa Học và Kỹ Thuật Máy Tính,Đại học Bách Khoa TP.HCM, MSHV 7140830 Tôi xin cam đoan rằng luận văn "Rút tríchthuật ngữ y khoa trong văn bản lâm sàng tiếng Việt" là kết quả quá trình tìm hiểu và nghiêncứu được tôi ghi chép lại với những cam kết sau:
- Luận văn được thực hiện cho mục đích tim hiểu và nghiên cứu ở bậc cao học
- Các công trình, bài báo tham khảo để xây dựng nên luận văn này đều được trích dẫn,tham khảo
- Tất cả các tài liệu được trích dẫn và có tính kế thừa từ các tạp chí và các công trình nghiên cứu đã được công bố
- Những công cụ, phần mềm cho quá trình thực hiện luận văn đều là phần mềm mã nguồn mở
- Hình ảnh và số liệu được trích dẫn nguồn tham khảo rõ ràng
- Kết quả nghiên cứu được trình bày trung thực dựa trên số liệu thực tế khi chạy chương trĩnh
TP.HCM, ngày 17 tháng 6 năm 2018
Trương Thị Mỹ Ngọc
Trang 9MỤC LỤC
MỤC LỤC viii
DANH MỤC HÌNH X DANH MỤC BẢNG xi
CHƯƠNG 1 TÔNG QUAN 1
1.1 Bối cảnh đề tài 1
1.2 Mục tiêu của đề tài 3
1.3 Phạm vi của đề tài 4
1.4 Cấu trúc luận văn 6
CHƯƠNG 2 CÁC CÔNG TRÌNH LIÊN QUAN 7
2.1 Các hướng tiếp cận bài toán 7
2.2 Phương pháp ngôn ngữ học 8
2.3 Phương pháp thống kê 9
2.4 Phương pháp học máy 9
2.5 Phương pháp sử dụng tri thức ngoài 11
2.6 Phương pháp lai 11
CHƯƠNG 3 KIẾN THỨC NỀN TẢNG 13
3.1 Bệnh án điện tử (BAĐT) 13
3.2 Các định nghĩa cơ bản 14
3.3 Ngữ pháp Tiếng Việt 16
CHƯƠNG 4 PHƯƠNG PHÁP ĐỀ XUẤT 21
4.1 Tổng quan bài toán 21
4.2 Ý tưởng hiện thực 21
Trang 104.4 Thành phần thống kê 24
CHƯƠNG 5 HIỆN THỰC QUY TRÌNH 26
5.1 Tiền xử lý 26
5.2 Tách từ và gán nhãn từ loại 28
5.3 Rút trích cụm từ tìm năng là thuật ngự y khoa dựa theo luật văn phạm 30
5.4 Loại bỏ những cụm từ có chứa từ trong danh sách dừng (stoplist) 344
5.5 Sắp xếp và lấy k tỷ lệ danh sách thuật ngữ tiềm năng 347
5.6 Rút trích thuật ngữ lồng nhau bằng phuơng pháp NPMI 37
5.7 Tính toán C-Value 41
CHƯƠNG 6 ĐÁNH GIÁ HIỆU QUẢ 47
6.1 Thuớc đo hiệu suất cơ bản trong trích xuất thuật ngữ 47
6.2 Xây dựng danh sách thuật ngữ tham khảo để đánh giá kết quả 47
6.3 Thí nghiệm đánh giá 49
CHƯƠNG 7 KẾT LUẬN 56
7.1 Kết quả đạt đuợc 56
7.2 Huớng phát triển 56
TÀI LIỆU THAM KHẢO 58
Trang 11DANH MỤC HÌNH
•
Hình 1.1: Hai giai đoạn khai thác bệnh án điện tử (BAĐT) 3
Hình 2.6: Mô hình hệ thống thường được sử dụng 12
Hình 3.1: Mối quan hệ giữa thuật ngữ, khái niệm và đối tượng 14
Hình 5.1: Quy trình rút trích thuật ngữ y khoa trong văn bản lâm sàng tiếng Việt 27 Hình 5.2.1: Sơ đồ ví dụ việc tách từ và gán nhãn của Vitk 29
Hình 5.3.1: Luật 1 ngữ pháp cụm danh từ 31
Hình 5.3.2: Luật 2 ngữ pháp cụm danh từ 32
Hình 5.3.3: Luật 3 ngữ pháp cụm danh từ 32
Hình 5.3.4: Luật 4 ngữ pháp cụm danh từ 32
Hình 5.3.5: Luật 2 ngữ pháp cụm danh từ 33
Hình 5.3.6: Luật 3 ngữ pháp cụm động từ 33
Hình 5.3.7: Luật 4 ngữ pháp cụm động từ 33
Hình 5.6.2: Cụm từ được cắt dựa theo quy tắc ngữ pháp 39
Hình 5.6.4: Cụm từ được cắt dựa theo chỉ số NPMI 41
Hình 5.7.3: So sánh log2 (x) và log2 (x+0.1) 43
Hình 6.3.2:Biểu đồ biểu diễn hiệu quả của quy trình bị ảnh hưởng bởi luật cụm từ 50
Hình 6.3.6: Biểu đồ biểu diễn hiệu quả của hệ thống bị ảnh hưởng bởi hệ số k 52
Hình 6.3.8: Biểu đồ so sánh độ đo hiệu quả của hai công trình rút trích thuật ngữ y khoa tiếng Việt 53
Hình 6.3.9: Quy trình của công trình [18] và công trình của chúng tôi 54
Trang 12DANH MỤC BẢNG
•
Bảng 1.3: Mau văn bản lâm sàng 5
Bảng 2.4: Các đặc trưng sử dụng trong phương pháp học máy 10
Bảng 3.3: Phân loại từ trong tiếng Việt 19
Bảng 5.2.2: Bảng kí hiệu nhãn từ loại của công cụ Vitk 30
Bảng 5.4: Danh sách từ cần loại bỏ (stoplist) 35
Bảng 5.5: Hiệu quả thay đổi theo tỷ lệ chọn thuật ngữ dài nhất trong danh sách 408 Bảng 5.6.3 Tần suất xuất hiện trong văn bản của mỗi từ; chỉ số NPMI ở từng vị trí bigrams 40
Bảng 5.7.4: Ví dụ về cách tính C-Value 46
Bảng 6.2.1: Kết quả trích xuất thuật ngữ thủ công 48
Bảng 6.2.2: Một số cụm từ của danh sách thuật ngữ tham khảo 49
Bảng 6.3.1: Hiệu quả của quy trình bị ảnh hưởng bởi luật văn phạm của cụm từ (cấu trúc ngữ pháp) 50
Bảng 6.3.3: Hiệu quả của công đoạn rút trích cụm từ dựa theo luật văn phạm so với 22 bộ lọc 50
Bảng 6.3.4: Hiệu quả của hệ thống bị ảnh hưởng bởi danh sách stoplist 51
Bảng 6.3.5: Hiệu quả của hệ thống bị ảnh hưởng bởi hệ số k 52
Bảng 6.3.7: So sánh hiệu quả của hệ thống 53
Bảng 6.3.10: Bộ lọc của công trình [18] 55
Trang 13CHƯƠNG 1 TỔNG QUAN
1.1 Bổi cảnh đè tài
Một hướng đi mới làm cho máy tính thông minh như một bác sĩ giàu kinh nghiệm: dựa vàocác triệu chứng thì chẩn đoán đúng bệnh; biết được bệnh thì kê những loại thuốc phù hợp đểchữa trị Hỗ trợ chẩn đoán bệnh bằng máy tính là một bài toán truyền thống của tin - y học từnhiều chục năm qua Các hệ chuyên gia với kỹ thuật suy diễn dựa vào tri thức của con ngườitrong y học được kỳ vọng rất nhiều nhưng đã không thành công, chủ yếu vì không biểu diễnđược tri thức y học phức tạp của con người dưới dạng máy có thể dùng được Một hướng đimới là dùng các kỹ thuật học máy theo quy nạp với bệnh án điện tử (BAĐT), máy tínhhoàn toàn có thể hỗ trợ hiệu quả cho con người trong công việc phức tạp này
Xưa nay, mọi hiểu biết về bệnh tật đều do các thầy thuốc phát hiện khi phân tích, đúc rút từnhững gì thấy được trong quá trình khám và chữa bệnh cho rất nhiều người Các ghi chép lâmsàng trong BAĐT chính là “những gì thấy được” của rất nhiều thầy thuốc trong lúc khámchữa bệnh Con người chỉ có thể xem từng bệnh án trên giấy, nhưng máy tính có thể cùng mộtlúc “xem” rất nhiều (hàng ngàn hàng triệu) BAĐT để phân tích, so sánh chúng, để hiểu hơn
về bệnh tật, về chữa trị, về tác dụng của thuốc, về quản lý khám chữa bệnh, thuốc men, tìm
ra những hiểu biết mới của y học Làm cho máy tính “hiểu” được văn bản lâm sàng là bướcquyết định để tìm ra các tri thức y học mới
Trang 14Từ vài năm gần đây, BAĐT được nói nhiều ở các nước phát triển như con đường dẫn đến sựthay đổi sâu sắc trong khám chữa bệnh và nghiên cứu y học Năm 2009, sau khi trở thànhTổng thống và trong kế hoạch hồi sinh nền kinh tế, Tổng thống Mỹ Barack Obama đã yêu cầunước Mỹ hiện đại hóa việc chăm sóc sức khỏe dựa vào việc chuẩn hóa và số hóa mọi bệnh ántrong bệnh viện, và chủ trương “Trong vòng 5 năm, mọi bệnh án của nước Mỹ phải được sốhóa” Ở Nhật Bản, chính phủ cũng có chính sách ưu tiên kinh phí để xây dựng BAĐT Tínhđến năm 2011, 51.5% trong số 822 bệnh viện cỡ lớn (hơn 400 giường bệnh) ở Nhật đã xâydựng BAĐT; 27,3% bệnh viện cỡ vừa (200-399 giường bệnh) đã có BAĐT và 13,5% bệnhviện cỡ nhỏ có BAĐT [17].
Tại Mỹ, I2B2-Trung tâm Quốc gia về Tính toán Y - Sinh hàng năm tổ chức các cuộc thi tìmcác phương pháp phân tích văn bản lâm sàng của BAĐT tiếng Anh Một vài thách thức nhữngnăm qua:
- Thách thức 2008: làm sao dùng BAĐT để phân loại các nhóm bệnh nhân béo phì và cácbệnh phát sinh do béo phì
- Thách thức 2009: rút trích thông tin từ BAĐT về việc dùng thuốc, liều lượng, hiệu quả,quản lý thuốc
- Thách thức 2012: phát hiện từ BAĐT các sự kiện về bệnh và điều trị gắn với thời gian vàquan hệ phụ thuộc thời gian giữa chúng
- Thách thức 2014: phát hiện, lọc bỏ các thông tin cá nhân từ BAĐT và các yếu tố rủi ro củabệnh tim
Câu chuyện BAĐT cũng đã bắt đầu ở nước ta với nỗ lực đặt những viên gạch đầu cho conđường dài này Từ năm 2013 bệnh viện đa khoa Vân Đồn của tỉnh Quảng Ninh là cơ quan y tếđầu tiên ở nước ta có một Hệ thông tin bệnh viện hiện đại với các BAĐT hoàn chỉnh (cóthông tin quản lý, văn bản lâm sàng và các thông tin khám chữa bệnh khác); và từ năm 2014
có thêm bệnh viện phụ nhi Đà Nang, bệnh viện đa khoa cấm Phả cấm Phả, bệnh viện nhi Hưng Yên, bệnh viện y- dược cổ truyền tỉnh Quảng Ninh [17],
Trang 15sản-Khai thác BAĐT gầm 2 giai đoạn Giai đoạn 1 nhằm xác định và xây dựng công nghệ nền đểkhai thác BAĐT Tiếng Việt và ứng dụng thử nghiệm: chuẩn hóa, làm sạch dữ liệu, lọc thôngtin riêng tư Điển hình là dự án KC.01/06-10 về xây dựng công cụ và tài nguyên cho xử lýtiếng nốí và văn bản Tiếng Việt 2007-2010 trong đó có phân tích tự động Tiếng Việt,chunking Giai đoạn 2 nhằm sử dụng các công nghệ nền vào khai thác BAĐT để giải quyếtmột số bài toán quan trọng trong nghiên cứu y học và chăm sóc sức khỏe ờ Việt Nam Hình1.1.
Hình 1.1: Hai giai đoạn khai thác bệnh án điện tử (BAĐT)[17]
1.2 Mục tiêu của đề tài
Văn bản lâm sàng (clinical text) do bác sĩ và y tá ghi chép hàng ngày về việc khám chữa vàtình trạng người bệnh Chúng thường ngắn, mang tính trần thuật, thường không tuân theo cácquy ước ngữ pháp ngôn ngữ một cách chặt chẽ và đặc biệt hơn cả là chúng chứa rất nhiềuthuật ngữ y khoa, tải theo nhiều tri thức của ngành y Chính phần nội dung này tạo ra giá trị và
ý nghĩa đặc biệt của ĐAĐT trong chăm sốc sức khỏe và nghiên cứu y khoa
Do đó, mục tiêu của đề tàỉ là trích xuất các thuật ngữ từ các văn bản lâm sàng tiếng Việt Đầuvào của quá trình trích xuất này là các văn bản lâm sàng tiếng Việt Đầu ra là một danh sáchcác thuật ngữ y khoa được rút trích từ cảc văn bản lâm sàng đỗ Những thuật ngữ liên quan tới
Trang 16từ không liên quan được xếp cuối danh sách Các thuật ngữ mới được rút trích này dùng để bổsung, cập nhật thuật ngữ cho từ điển y khoa; đánh chỉ mục index; xây dựng ontology; khaithác thông tin [26] [27], dùng làm đầu vào cho hệ hỗ trợ chẩn đoán bệnh, hệ phân tích quan hệbệnh-thuốc.
1.3 Pham vi của đề tài •
Rút trích thuật ngữ y khoa trong văn bản lâm sàng Tiếng Việt Công việc này là một cộngđoạn đầu của giai đoạn 2, thuộc một phần của khai thác thông tin từ BAĐT được thể hiện ởHình 1.1
Văn bản lâm sàng chỉ là 1 phần trong 3 phần của bệnh án điện tử BAĐT gồm:
- Dữ liệu cơ bản cho quản lý gồm :họ tên bệnh nhân, năm sinh, nghề nghiệp, quê quán, bảohiểm y tế, v.v
- Dữ liệu cận lâm sàng gồm: siêu âm, nội soi, x_quang, CT scan, MRI, v.v
- Dữ liệu lâm sàng (văn bản lâm sàng) của người bệnh trong một lần nằm viện gồm: phiếuđiều trị: ghi chép các chẩn đoán, nhận định và y lệnh hàng ngày của bác sĩ về bệnh nhân;phiếu chăm sóc: ghi chép mô tả của y tế về tình trạng bệnh nhân khi chăm sóc hàng ngày; hồ
sơ xuất viện: tổng hợp các dữ liệu và thông tin cơ bản của bệnh nhân trong toàn bộ một lầnđiều trị
Văn bản lâm sàng chứa nhiều thông tin y khoa, thuật ngữ nhất nên chúng tôi quyết địnhkhai thác ở phần văn bản này Công trình này chúng tôi quyết định chủ yếu phân tích và rúttrích cụm danh từ Vì cụm danh từ là thành phần chính trong câu, mang được nhiều thông tin.Theo đặc trưng của tiếng Việt trong thuật ngữ y khoa cũng có xuất hiện cụm động từ (Ví dụ:
hạ sốt, tràn dịch màn phổi, ) chúng tôi bổ sung thêm rút trích cụm động từ
Chúng tôi kế thừa lại công đoạn tiền xử lý; tách từ và gán nhãn từ loại; xếp hạng thuật ngữ;đánh giá của công trình liên quan [18]
Trang 17ẻ Ể
Trang 181.4 Cấu trúc luận văn
Chúng tôi xin được trình bày cấu tróc của luận văn để quý đọc giả tiện theo dõi
Chương 1: Giới thiệu về bối cảnh ra đời, nhu cầu thực tiễn của bệnh án điện tử Giai đoạn xâydựng và khai thác BAĐT ở Việt Nam Phạm vi và mục tiêu của đề tài
Chương 2: Trình bày một vài công trình ở các nước phát triển họ đẵ thục hiện, các phươngpháp tiếp cận khác nhau cho bài toán rút trích thuật ngữ
Chương 3: Nhắc lại một số khái niệm về ngôn ngữ, kiến thức cơ bản
Chương 4: Trình bày phương pháp giải bài toán
Chương 5: Trình bày từng công đoạn của quy trình, giải thuật và ví dụ
Chương 6: Kết quả, đánh giả hiệu suất quy trình, so sánh với công trình tương đương, một sốhạn chế, hướng phát triển, cải tiến thêm cho quy trình
Trang 19CHƯƠNG 2 CÁC CÔNG TRÌNH
LIÊN QUAN
2.1 Các hướng tiếp cận bài toán
Trong lĩnh vực sinh học phân tử, tên protein, gen [2] thay đổi rất nhanh chóng Trong lĩnh vực
ổn định hơn, như y học lâm sàng, tồn tại nhiều thuật ngữ địa phương mà chưa được liệt kêtrong bất kỳ từ điển nào Vì thế việc khai thác thuật ngữ một cách tự động trong văn bản lâmsàng là việc rất cần thiết hiện nay Thế giới có công trình tiếng Anh [3], tiếng Thụy Điển [8],tiếng Pháp [28] [6], tiếng Đức [4], tiếng Hà Lan [7], tiếng Tây Ban Nha [1], gần đây nhất làcông trình tiếng Ba Lan [10] Ở Việt Nam có công trình đầu tiên về trích xuất thuật ngữ y họctrong BAĐT tiếng Việt [18]
Rút trích thuật ngữ tự động (Automatic Term Extraction - ATE) là phương pháp sử dụng máytính để nhận dạng các chuỗi từ có tiềm năng là thuật ngữ trong đoạn văn bản Việc trích xuấtthuật ngữ sử dụng máy tính có thể hiện thực hoàn toàn tự động, hoặc bán tự động kết hợp vớicác chuyên gia để tăng độ chính xác trong kết quả hoặc trường hợp trích xuất thuật ngữ trongcác đoạn văn bản mang tính chất đặc biệt Tự động trích xuất thuật ngữ đóng vai trò cực kỳquan trọng trong nhiều hệ thống như truy hồi thông tin, hệ thống vấn đáp, xây dựng và tựđộng mở rộng các bộ từ điển hay bản thể học (Ontology) và mạng ngữ nghĩa từ (WordNet)
Từ khi phát triển tới nay, rất nhiều phương pháp tiếp cận được đề xuất cho vấn đề tự độngtrích xuất thuật ngữ như: sử dụng kỹ thuật ngôn ngữ học [9], sử dụng kỹ thuật thống kê [23],hoặc sử dụng kết hợp cả hai kỹ thuật Đe tăng thêm độ chính xác của kết quả đầu ra, các tàinguyên có sẵn bên ngoài khác (Ví dụ: từ điển chuyên ngành, tập văn bản chuyên ngành, ) cóthể được sử dụng để hỗ trợ cho quá trĩnh đánh giá thuật ngữ Bên cạnh các kỹ thuật về ngônngữ học và xác suất, người ta còn sử dụng học máy trong trích xuất thuật ngữ [18]
Trang 20Bước đầu tiên của trích xuất thuật ngữ là trích xuất các thuật ngữ tiềm năng từ tập văn bản Ởbước này, kỹ thuật ngôn ngữ học thường được áp dụng Bước tiếp theo là xếp hạng các thuậtngữ tiềm năng dựa trên điểm số thống kê của chúng, điều này nhằm đưa các từ có tiềm năngcao là thuật ngữ lên đầu của dãy kết quả.
Dựa trên tổng hợp của Kruthmmer and Nenadic 2004 [24], các hướng tiếp cận của bài toánATE được chia ra làm 4 loại chính là: ngôn ngữ học, giá trị thống kê, học máy và lai (kết hợpcác phương pháp với nhau) Ngoài ra, còn có phương pháp hỗ trợ là sử dụng tri thức ngoài
2.2 Phương pháp ngôn ngữ học
Trong bài toán tự động trích xuất thuật ngữ, phương pháp ngôn ngữ học thường là bước đầutiên để trích xuất các thuật ngữ tiềm năng từ văn bản Vì thuật ngữ chỉ xuất hiện trong một sốgiới hạn cấu trúc ngữ pháp là danh từ, động từ hay tính từ Việc sử dụng kỹ thuật ngôn ngữhọc để lọc bớt số chuỗi từ không phải là thuật ngữ tiềm năng, đây là bước quan trọng cải thiện
độ chính xác của tập đầu ra, cũng như kết quả cuối cùng của ATE
Thông thường, việc trích xuất thuật ngữ tiềm năng từ văn bản khi sử dụng phương pháp ngônngữ học sẽ theo các bước sau:
- Gán nhãn từ loại cho toàn bộ văn bản cần trích xuất, với những phân tích sâu hơn, văn bảncũng có thể được đánh dấu bởi các thông tin cú pháp phức tạp hơn
- Trích xuất các thuật ngữ tiềm năng bằng các bộ lộc như: ngữ nghĩa, từ vựng, hình thái Việcchọn lựa giữa các bộ lọc tùy thuộc vào đặc trưng của thuật ngữ ( thuật ngữ đơn từ, thuật ngữ
đa từ, hay thuật ngữ có tiền tố - hậu tố đặc biệt
- Tùy thuộc vào đặc trưng của bài toán có thể loại bỏ bớt các thuật ngữ tiềm năng bằng danhsách từ loại bỏ (list of stop-words)
Ví dụ: đã, dễ, này, kia, nọ, xong, thỉnh_thoảng, [18]
Dựa vào mục đích của việc trích xuất mà thuật ngữ tiềm năng có thể là kết quả cuối cùng của
hệ thống, hoặc được chuyển tiếp sang các bước ATE khác Công trình LEXTER củaBourigault vào năm 1992 trên tiếng Pháp [9] là một ví dụ của hệ thống ATE chỉ sử dụngthuần kỹ thuật ngôn ngữ học Nghiên cứu này dựa trên nhãn từ loại (PoS tagging) để lọc thuậtngữ tiềm năng bằng bộ lộc ngữ nghĩa Bên cạnh việc sử dụng đặc trưng từ loại để nhận dạngthuật ngữ, một số ngôn ngữ có đặc tính
Trang 21biến hình như tiếng Anh, tiếng LaTinh còn sử dụng đặc trưng là các tiếp đầu ngữ (prefix) vàtiếp vị ngữ (suffix) để nhận dạng thuật ngữ Hoặc đối với các ngôn ngữ đon hình như tiếngTrung Quốc, tiếng Nhật là sử dụng các đầu tố đặc biệt.
Tuy nhiên, việc sử dụng thuần phương pháp ngôn ngữ học, chỉ giúp phát hiện các từ có cấutrúc về mặt ngôn ngữ tương tự với các thuật ngữ mà không xét tới độ liên quan của từ đó vớichuyên ngành của thuật ngữ cần trích xuất cũng như độ quan trọng của từ đó trong văn bảnđang xét Điều này khiến cho việc chỉ sử dụng bộ lọc ngôn ngữ sẽ đem lại kết quả không cao
Vì vậy, phương pháp ngôn ngữ học thường được kết hợp sử dụng với kỹ thuật thống kê, hoặchọc máy, sự kết hợp này được gọi là phương pháp lai
2.3 Phương pháp thống kê
Đối với phương pháp này, các từ và cụm từ sẽ được hệ thống đánh giá theo một trong haithang đo chính: Termhood và Unihood Thang đo Termhood thể hiện độ liên quan của từ,cụm từ so với nội dung của văn bản đầu vào Ngược lại, thang đo Unihood thể hiện độ liên kếtgiữa các từ, cụm từ với nhau trong văn bản
Trước khi sử dụng được phương pháp thống kê, hướng tiếp cận này cần xác định các từ, cụm
từ để đánh giá hay còn gọi là thuật ngữ tiềm năng Có hai cách để xác định thuật ngữ tiềmnăng: dùng phương pháp n-gram hoặc dùng phương pháp ngôn ngữ học đã trĩnh bày ở trên.Với phương pháp n-gram, hệ thống sẽ lấy ra tất cả các cụm từ có không nhiều hơn n từ Ví dụ,với 3-gram, hệ thống sẽ lấy tất cả các từ có 1, 2, và 3 tiếng trong toàn bộ văn bản Do đó, khi
sử dụng n-gram, số lượng thuật ngữ tiềm năng là rất lớn khi n lớn
Một số công trĩnh như [20] [3] sử dụng thang đo Termhood Ngược lại, công trình như [25] sửdụng thang đo Unihood hoặc sử dụng kết hợp cả hai thang đo Termhood và Unihood trongcùng một hệ thống như [10]
2.4 Phương pháp học máy
Trong bài báo [26], tác giả Jody Foo sử dụng phương pháp học máy theo luật (LearningRules) cụ thể là sử dụng thuật toán Ripper Một trong những lý do quan trọng mà tác giả dùnghọc máy theo luật là vì kết quả của hệ thống cuối cùng có thể đọc hiểu được, chúng ở dạngcác quy luật, có thể biểu diễn trực tiếp (dùng luật nếu- thì: if-then rules) hoặc biểu diễn giántiếp ( dùng cây quyết định: Decision Tree)
Trang 22ẳ ố
ỗ ii ẳ
ấ áã
Trang 232.5 Phương pháp sử dụng tri thức ngoài
Một số công trình nghiên cứu và xây dựng hệ thống áp dụng phương pháp sử dụng tri thứcngoài như [10] [27] Nhưng đa số phương pháp này chỉ là phần giúp cải thiện độ chính xáccủa hệ thống, là một thành phần trong phương pháp lai Cách tiếp cận của phương pháp nàytrong các bài nghiên cứu là sử dụng một trong ba loại tri thức ngoài: WordNet, văn bảnthường và từ điển chuyên ngành Công trình trích xuất thuật ngữ sử dụng văn bản thường điểnhình như của tác giả Chung công bố năm 2003 [28] Hai tác giả Fukushige and Noguchi thì sửdụng cả 2 loại văn bản thường và từ điển chuyên ngành [29] Loại tri thức ngoài WordNet ítđược sử dụng bởi vì mặt hạn chế về số lượng cũng như độ đầy đủ của chúng, do hiện tại, đa
số công trình WordNet đều được tổng hợp thủ công hoặc bán tự động
2.6 Phương pháp lai
Đây là phương pháp kết hợp nhiều phương pháp tiếp cận khác như phương pháp ngôn ngữhọc, phương pháp thống kê, phương pháp sử dụng tri thức ngoài, phương pháp học máy Ưuđiểm lớn nhất của phương pháp lai là việc tận dụng được ưu điểm của từng phương phápthành phần, đồng thời giảm các hạn chế khi sử dụng các phương pháp thành phần một cáchriêng lẻ [18]
Đa số các công trình liên quan lựa chọn kết hợp giữa ba phương pháp ngôn ngữ học, phươngpháp thống kê và phương pháp sử dụng tri thức ngoài và sử dụng mô hình hệ thống như sơ đồHình 2.6 Với dữ liệu đầu vào, phương pháp ngôn ngữ học sẽ trích xuất ra các từ và cụm từđược cho là thuật ngữ tiềm năng Phương pháp thống kê sẽ sử dụng danh sách thuật ngữ tiềmnăng này để đánh giá thuật ngữ tiềm năng, sau đó kết hợp với phương pháp sử dụng tri thứcngoài để sắp xếp danh sách thuật ngữ tiềm năng
Với những ưu điểm vượt trội và độ linh hoạt trong sự kết hợp giữa các phương pháp khácnhau, phương pháp lai được sử dụng nhiều trong các công trình như [10] [20] [30] Trongtiếng Việt chưa có công trình nghiên cứu nào cho bài toán trích xuất thuật ngữ y khoa, nênphương pháp lai còn có thể giúp so sánh giữa các phương pháp thành phần với nhau, đánh giá
sự phù hợp của phương pháp đối với đặc trưng tiếng Việt
Trang 24Hình 2.6: Mô hình hệ thống thường được sử dụng.
Trang 25CHƯƠNG 3
KIẾN THỨC NỀN TẢNG
3.1 Bệnh án điện tử (BAĐT)
Trong những năm gần đây, với sự phát triển của công nghệ thông tin, các bệnh viện đều đã có
hệ thống thông tin bệnh viện Ngoài chức năng cơ bản là quản lý bệnh viện và nguời bệnh, các
hệ thống này còn có các chức năng quan trọng là quản lý các hồ sơ về bệnh phí, bảo hiểm,viện phí, quản lý các dữ liệu cận lâm sàng (nhu kết quả xét nghiệm máu, nuớc tiểu, Xquang, ) cuối cùng là xây dựng và quản lý BAĐT
Bệnh án là những ghi chép về các thông tin cá nhân, thông tin kết quả cận lâm sàng, các chẩnđoán lâm sàng và các kết quả theo dõi bệnh hàng ngày của bệnh nhân Có thể nói bệnh ánchính là sự đúc kết kinh nghiệm cũng nhu các phuơng pháp điều trị của bác sĩ trong quá trìnhchữa trị bệnh Trong đó dữ liệu về chẩn đoán lâm sàng có ý nghĩa đặc biệt quan trọng trongnghiên cứu y khoa Dữ liệu chẩn đoán lâm sàng có thể chia làm 3 loại sau:
- Phiếu điều trị: là các chẩn đoán và phuơng pháp điều trị hằng ngày của bác sĩ
- Phiếu chăm sóc: là thông tin đuợc y tá ghi lại trong quá trình chăm sóc bệnh nhân và thựchiện y lệnh của bác sĩ
- Hồ sơ xuất viện: là dữ liệu điều trị và thông tin cơ bản của bệnh nhân trong toàn bộ thờigian điều trị
Truớc đây các thông tin này đuợc ghi chép và lưu trữ dưới dạng giấy, dẫn tới nhiều bất tiệntrong lưu trữ quản lý và truy xuất thông tin BAĐT là bệnh án được số hóa bằng hệ thốngthông tin bệnh viện BAĐT được lưu trữ dưới dạng số hóa nhờ đó có một số ưu điểm sau:
- Lưu trữ thông tin chính xác, không bị thất lạc và trùng lặp
Trang 26- Hỗ trợ tìm kiếm và truy xuất thông tin.
- Đơn giản hóa việc chia sẻ và tổng hợp thông tin
Thuât ngữ - - Khái niệm - - Dối tượng
Hình 3.1: Mối quan hệ giữa thuật ngữ, khái niệm và đối tượng
Một số loại hồ sơ tương tự như BAĐT là hồ sơ sức khỏe điện tử (Electronic Health Record HER) Hai loại hồ sơ trên được phân biệt như sau: BAĐT là thông tin của bệnh nhân trongmột lần điều trị còn HER là thông tin tổng hợp của nhiều lần điều trị
-Không chỉ là nguồn kiến thức vô giá về chữa bệnh, BAĐT còn là một kho các thuật ngữ ykhoa, được bác sĩ ghi chép hàng ngày Các BAĐT này bên cạnh các thuật ngữ chuyên khoacòn có các thuật ngữ mang tính chất vùng miền, thuật ngữ mới hoặc các thuật ngữ chuyênkhoa đặc biệt hiếm gặp Các từ điển y khoa hiện nay không cập nhật hoặc cập nhật chậm cácthuật ngữ này [18]
3.2 Các định nghĩa cơ bản
Thuật ngữ
Thuật ngữ là từ ngữ biểu đạt khái niệm chuyên môn khoa học, xuất hiện trong mọi ngànhkhoa học Thuật ngữ được xây dựng dựa trên nhiều lĩnh vực khoa học như logic, nhận thứchọc, triết học, v.v Việc thể hiện khái niệm của thuật ngữ cũng như biểu diễn của nó trong mỗingôn ngữ là khác nhau Công việc chính của thuật ngữ là mô tả và truyền tải các kiến thức(ISO-704-2000)
Thuật ngữ bao gồm 4 bộ phận: đối tượng (object), khái niệm (concept), định nghĩa(definition), thể hiện (designation) Các bộ phận trên có mối quan hệ với nhau như sau: đốitượng là thứ có thể cảm nhận hoặc nhìn thấy và được trừu tượng hóa thông qua định nghĩa.Dựa vào ISO 704, thể hiện trong mỗi ngôn ngữ có thể chia thành các loại sau:
- Từ, thuật ngữ (term): mô tả những khái niệm chung như: dịch bệnh, bệnh nhiệt đới, v.v
- Danh xưng: là tên gọi, hay những khái niệm cụ thể như: bệnh H5N1, Internet, v.v
Trang 27- Các ký hiệu: mô tả cả khái niệm chung lẫn riêng như: s, @, v.v.
Thuật ngữ, khái niệm và đối tượng có quan hệ khăng khít với nhau Khái niệm như là cầu nốigiữa thuật ngữ và đối tượng Hình 3.1 thể hiện mối quan hệ giữa ba yếu tố này
Ví dụ: Máy đo huyết áp có thông số là 70 mmHg (đối tượng), đây là thông số thể hiện chothuật ngữ huyết áp Được định nghĩa là áp suất của máu vuông góc với thành mạch máu gây
ra khi di chuyển trong cơ thể
Trong trường hợp lý tưởng, một thuật ngữ chỉ liên quan tới một khái niệm, và một khái niệmchỉ được thể hiện được bằng một thuật ngữ Nhưng trong thực tế, cùng một thuật ngữ nhưng ởcác ngành khác nhau thì có thể liên quan tới các khái niệm khác nhau Ví dụ “ bệnh giời leo”còn có tên khac là “bệnh Zona”, hoặc “mề đay” là tên của biến đổi bất thường trên da nhưngcũng có thể mang ý nghĩa là một tấm kim loại đeo trước ngực của người lính Điều này, gâykhó khăn trong việc hiểu nghĩa của thuật ngữ nếu không được đặt trong một ngữ cảnh nhấtđịnh
Thuật ngữ là một cách cụ thể hóa khái niệm trong mỗi văn bản Một thuật ngữ mới có thểđược xây dựng bởi 3 cách sau:
- Sử dụng các định nghĩa của các thuật ngữ để thể hiện khái niệm gần giống Ví dụ: từ cửasau được sử dụng trong xây dựng, hiện nay được sử dụng trong khoa học máy tính chuyênngành bảo mật Backdoor, chỉ con đường bí mật dùng để xâm nhập trái phép
- Mở rộng thuật ngữ có sẵn Ví dụ: dịch bệnh, mở rộng ra thành các từ dịch bệnh sởi, dịchbệnh cúm, v.v
- Xây dựng mới hoàn toàn Phương pháp này được sử dụng để mô tả một khái niệm mớihoàn toàn Ví dụ: blog, AIDS
Vì các từ mới thường được xây dựng hoặc có quan hệ với các thuật ngữ đã tồn tại nên nó giúpích cho việc có thể xác định nghĩa của các thuật ngữ mới dễ dàng hơn
Thuật ngữ trong y khoa
Y khoa là một ngành khoa học lâu đời với sự phát triển và thay đổi nhanh chóng Điều nàykéo theo thuật ngữ trong ngành y khoa có số lượng khổng lồ và thuật ngữ mới được thêm vàohằng ngày Trong ngành này có một số nhóm thuật ngữ như: tên
Trang 28gen, tên protein, tên các nội tiết tố (hormone), tên thuốc, các hợp chất hóa học, phương phápchữa bệnh, v.v.
Hiện nay đã có các bộ từ điển chuyên ngành nhưng vì chính các nguyên nhân trên nên thường
bộ từ điển không thể cập nhật kịp với sự phát triển của ngành và nhanh chóng lỗi thời Trongmột số ngôn ngữ, thuật ngữ y khoa đã được xây dựng bên trong các từ điển như UMLS,MeSH, SNOMED, nhưng với số lượng thuật ngữ chuyên ngành quá lớn cũng như mỗi ngônngữ có một hệ thống thuật ngữ khác nhau, nên các bộ từ điển này không thể bao phủ hết.Trong nhiều ngôn ngữ, từ điển thuật ngữ y khoa vẫn chưa phát triển, trong đó có Việt Nam.Thuật ngữ y khoa trong tiếng Việt là sự kết hợp giữa các thuật ngữ LaTinh, tiếng Anh và thuậtngữ của mỗi vùng miền Vì vậy rất khó trong việc thu thập và hệ thống lại các thuật ngữ trongtiếng Việt một cách hoàn chỉnh và có cập nhật Điều này cho thấy sự cấp thiết của việc xâydựng một bộ thuật ngữ đầy đủ và tự động thu thập trong tiếng Việt [18]
Thang đo Termhood - Unihood
Termhood và Unithood là hai thang đo cơ bản thường được dùng trong các bài toán trích xuấtthuật ngữ và các bài toán xác định độ liên quan của thành phần văn bản trong tập văn bản lớnhơn Trong đó, Termhood và Unithood được định nghĩa như sau:
- Termhood: là thang đo sự liên quan của từ, cụm từ với một miền khái niệm cụ thể
- Unithood: là thang đo sự ràng buộc vững chắc và ổn định của cụm các từ trong tập vănbản
Các phương pháp sử dụng thang đo Termhood dùng tần suất xuất hiện của từ, cụm từ trongđoạn văn bản đầu vào để đánh giá độ liên quan với văn bản đó Trong khi đó, Unihood dựatrên tần suất xuất hiện cùng nhau giữa các từ, cụm từ trong văn bản Một vài công trìnhnghiên cứu đã chỉ ra rằng, việc sử dụng thang đo Termhood để trích xuất thuật ngữ mang lạihiệu quả cao hơn thang đo Unithood [10]
3.3 Ngữ pháp Tiếng Việt
Đe xây dựng được hệ thống trích xuất thuật ngữ trong tiếng Việt cần hiểu rõ về cấu trúc, ýnghĩa cũng như chức năng cấu tạo nghĩa bên trong của ngôn ngữ vấn đề đầu
Trang 29tiên ta cần quan tâm tới trong tiếng Việt chính là cấu tạo từ, một thành phần cơ bản trong ngônngữ.
Cấu tạo từ
Cấu tạo từ là cấu trúc nội tại của một loại đơn vị trong hệ thống ngôn ngữ Hiểu cấu tạo từ có
ý nghĩa đối với việc xác định loại hình cấu trúc của ngôn ngữ, từ đó xác định chức năng cấutạo nghĩa bên trong hệ thống ngôn ngữ đó về phương diện ngữ pháp, từ là đơn vị nhỏ nhất cónghĩa và hoạt động tự do trong câu Tiếng Việt là ngôn ngữ thuộc loại đơn lập, không có hiệntượng biến hĩnh như các ngôn ngữ tiếng Anh, tiếng Pháp, v.v Ví dụ trong tiếng Anh, từ “có”
có thể có nhiều hĩnh thái như từ “have”, “has”, “had” tùy thuộc vào ngữ cảnh và cấu trúc ngữpháp của câu Việc xem xét tới cấu tạo từ tiếng Việt liên quan tới 2 tên gọi [30] :
- Tiếng: là yếu tố cơ sở của từ trong tiếng Việt, tiếng được phân biệt theo ý nghĩa: tiếng cónghĩa và tiếng không có nghĩa Vĩ vậy từ trong tiếng Việt có thể phân biệt theo từ một tiếng là
từ đơn và từ hơn một tiếng là từ ghép Tiếng chính là cơ sở ở loại hình cấu trúc của tiếng Việt
- Từ tố: bên cạnh việc xem xét ở loại hình cấu trúc ngôn ngữ là tiếng, từ tiếng Việt là đơn vị
có nghĩa Khi phân tích cấu tạo từ, yếu tố nghĩa phải được tính đến Việc xem xét nghĩa theoquan điểm ngữ pháp học là không lấy mặt nội dung của nghĩa làm trọng tâm mà lấy chứcnăng vai trò của yếu tố mang nghĩa trong việc cấu tạo nên nghĩa của toàn bộ từ làm đối tượng.Mỗi yếu tố mang nghĩa trong từ là một từ tố Từ chứa một từ tố là từ đơn tố (chỉ chứa mộttiếng và từ ấy phải có nghĩa, ví dụ: nhà, học, viết) từ chứa hơn một từ tố gọi là từ đa tố (nếukhông có hiện tượng hòa âm gọi là từ ghép, có hiện tượng hòa âm phối ngữ tạo nghĩa gọi là từláy)
về mặt cấu tạo từ với các thành phần tiếng và từ tố, từ có thể phân biệt thành các loại khácnhau Nhưng khi xét tới đặc trưng của ngữ pháp sự phân biệt các từ khác nhau có sự phức tạphơn, sự phân biệt này gọi là phân biệt từ loại tiếng Việt
Từ loại
Theo truyền thống nghiên cứu vốn từ tiếng Việt, khi phân chia từ loại thành các lớp khái quát,người ta sẽ phân chia thành 2 loại là thực từ và hư từ Sự phân biệt thực từ và hư từ ngày nay,nhìn chung trong các ngôn ngữ, căn cứ vào ý nghĩa chủ yếu mà từ diễn đạt: ý nghĩa từ vựng
và ý nghĩa ngữ pháp Thực từ là từ biểu đạt ý nghĩa từ vựng, tức là gọi tên sự vật, sự việc, hiệntượng Hư từ là từ diễn đạt các mối quan
Trang 30hệ theo kiểu kèm theo, không gọi tên Một cách hiểu khác là thực từ có ý nghĩa độc lập táchrời, hư từ là không có khả năng độc lập, chỉ làm thành phần trong câu.
Khi từ loại được phân chia thành các lớp cụ thể hơn, ta có các loại từ như: danh từ, động từ,tính từ, số từ, đại từ, định từ, phó từ, quan hệ từ, tình thái từ, trợ từ, thán từ v.v Nhìn một cáchtổng quát hơn thi vốn từ tiếng Việt có thể phân bố vào lớp theo Bảng 3.3 [16] Trong bảng tathấy được các lớp từ đại từ, định từ, phó từ là các lớp chuyển tiếp của hai lớp lớn là thực từ và
hư từ, các lớp này tùy vào trường hợp và đặc trưng của câu mà có thể là thực từ hoặc hư từ.Các lớp từ loại trên dựa vào sự kết hợp bổ sung ý nghĩa cho nhau để xây dựng các cấu trúclớn hơn, gọi là cụm từ
Cụm từ
Cụm từ là kết quả của sự mở rộng một từ để bổ sung ý nghĩa cho nó, và yếu tố mở rộng có thể
là thực từ và hư từ Dựa vào cách hiểu này thì có thể nói cụm từ có đặc trưng chính phụ Xéttheo đặc trưng đó, cụm từ có hai thành phần là phần chính (đầu tố) và phần phụ (điều biến tố),phần phụ có thể phân biệt phần phụ đứng trước và phần phụ đứng sau phần chính Dựa vào từloại của các yếu tố ở phần chính, các cụm từ lớn trong tiếng Việt có thể phân chia thành cụmdanh từ, cụm động từ, cụm tính từ, ngoài ra cũng còn có cụm số từ và cụm đại từ
Trong số đó, cụm danh từ được hiểu tương đương về cách cấu tạo cú pháp với cụm danh từchính phụ Cụm động từ được hiểu hẹp hơn, chỉ tính động từ và các phó từ kèm theo động từkhông tính các danh từ làm bổ ngữ Cụm đại từ được coi như một dạng riêng của cụm danh
từ Cụm tính từ và số từ xuất hiện bên trong cụm danh từ thì được phân tích kết hợp bên trongcụm danh từ đó Tuy nhiên, cụm tính từ có thể xem xét như cụm động từ vì tính từ tiếng Việt
có thể đứng riêng tự nó làm vị ngữ không cần trợ động từ (Ví dụ: cô ấy xanh xao quá) [18].Việc xác định vai trò của các yếu tố dùng mở rộng một từ trong cụm từ không chỉ xác địnhyếu tố chính phụ, mà cần xem xét sâu hơn chức năng cụ thể của chúng Các chức năng nghĩacủa các yếu tố trong các loại cụm từ khác nhau là không giống nhau Nên tên gọi các yếu tốchính phụ của từng loại cụm từ là khác nhau
Trang 31Bảng 3.3: Phân loại từ trong tiếng Việt
Cấu true ngữ pháp của cụm danh từ tiếng Việt
Trong các đề tài nghiên cứu về thuật ngữ ở các ngôn ngữ khác, người ta đã chỉ ra rằng, cácthuật ngữ đa sổ là các danh từ hoặc các cụm danh từ [10] cấu tạo chung của cụm từ tiếng Việtbao gồm 2 phần: phần chính và phần phụ Phần phụ có thể đứng trước hoặc đứng sau từ chính.Phàn chính (đàu tố) mang ý nghĩa chính của cả cụm nên sẽ cùng từ loại với cụm từ đỏ Cácphần phụ (điều biến tố) của mỗi cụm từ sẽ cố đặc trưng về từ loại là khác nhau Vì vậy chúngtôi sử dụng cấu trúc chung nhất của thuật ngữ tiếng Việt sẽ là:
(Phần phụ) * ( N I V I A ) + (Phần phụ)*
Đặc điểm chung của các thuật ngữ là các từ khoa học và mang tính chính xác và rõ nghĩa Vìvậy trong cấu trúc của các thuật ngữ sẽ không mang các từ có tính nghi vấn, cảm thán hoặcphiếm chỉ Dựa vào điều đó chung tôi loại bỏ một số từ không thể xuất hiện trong phần phụnhư sau:
Trang 32- Từ hạn định (gán nhãn L trong PoS): này, đây, kia, nọ, đó, ấy, v.v.
- Thán từ (gán nhãn I trong PoS): ái chà, ô hay, ơ kìa, v.v
Trong đề tài nghiên cứu xây dựng bộ bản thể học (Ontology) dành cho ngôn ngữ tiếng Việt[13], để xây dựng được tập danh sách các từ và cụm từ cho bản thể, tác giả dựa vào cấu trúcngữ pháp tiếng Việt đã liệt kê ra một số bộ lọc dành cho cụm danh từ và danh từ riêng nhưsau:
Noun+ Noun
Noun* (Noun I ProperNoun) (Adj I Noun)*
Noun+ Verb (Adj I Noun)+
Noun* ProperNoun+ Number
Trang 33CHƯƠNG 4 PHƯƠNG
PHÁP ĐÈ XUẤT
4.1 Tổng quan bài toán
Rút trích thuật ngữ y khoa thuộc một phần của bài toán khai thác thông tin từ BAĐT Văn bảnlâm sàng do bác sĩ và y tá ghi chép hàng ngày về việc khám chữa và tình trạng người bệnh.Chúng thường ngắn, mang tính trần thuật và đặc biệt hon là chúng chứa rất nhiều thuật ngữ yhọc, tải theo nhiều tri thức của ngành y Chính phần nội dung này tạo ra giá trị và ý nghĩa đặcbiệt của BAĐT trong chăm sóc sức khỏe và nghiên cứu y học Sau quá trình tìm hiểu và được
đề xuất từ GV hướng dẫn, chúng tôi quyết định giải bài toán “Rút trích thuật ngữ y khoa trongvăn bản lâm sàng Tiếng Việt”
Dữ liệu đầu vào là văn bản lâm sàng tiếng Việt Sau khi qua hệ thống xử lý ngữ nghĩa, dữ liệuđầu ra sẽ là danh sách các từ, cụm từ được hệ thống xác định là các thuật ngữ tiềm năng nhất.Danh sách này được hệ thống sắp xếp theo độ chính xác từ cao tới thấp bằng các phưong phápthống kê Hình 5.1 thể hiện dòng dữ liệu của hệ thống
Dữ liệu đầu ra của hệ thống chúng tôi xử lý có thể sử dụng cho nhiều mục đích như: xây dựng
bộ từ điển chuyên khoa dành cho y tế, thống nhất về mặt định nghĩa của các thuật ngữ, xâydựng hệ thống quản lý thuật ngữ bằng máy tính Ngoài ra, hệ thống còn giúp hỗ trợ tiền xử lýcho một vài bài toán khác như rút trích ngữ nghĩa cho văn bản đa ngôn ngữ hoặc là tiền đềcho các bài toán trích xuất thuật ngữ trong các lĩnh vực khác
4.2 Ý tưởng hiện thực
Đối với bài toán trích xuất thuật ngữ nói chung và bài toán chúng tôi thực hiện nói riêng cóbốn hướng tiếp cận phổ biến:
Trang 34Sử dụng phương pháp ngôn ngữ học: sử dụng các biện pháp ngôn ngữ tự nhiên như: đánh
dấu từ loại (PoS tagging), nhận dạng tiền tố, hậu tố, điều biến tố và đầu tố [30] Từ đó, dựavào các bộ lọc ngữ pháp hoặc luật đã xây dựng sẵn, nhận dạng ra các cụm từ có cấu trúc đặctrưng của thuật ngữ Đặc trưng của hướng tiếp cận này là với mỗi đặc trưng của bài toán, mỗimiền tri thức khác nhau, ta phải xây dựng các bộ lọc và các luật riêng biệt để trích xuất, điềunày dẫn tới việc khó điều chỉnh kết quả như mong muốn, vì kết quả rất dễ bị nhiễu nếu các bộlọc xây dựng không tốt
Sử dụng phương pháp thống kê: sử dụng tần suất xuất hiện và các công thức thống kê theo
hai độ đo Termhood và Unihood của các từ và cụm từ trong tập dữ liệu, từ đó xếp hạng và
lọc ra các thuật ngữ tiềm năng Hướng tiếp cận này mang lại ưu điểm là dễ dàng điều chỉnhcác thông số để thích ứng với các tập dữ liệu ở các bài toán khác nhau Tuy nhiên phươngpháp thống kê thiên vị nhiều tới tần suất xuất hiện của các từ, ít sử dụng ngữ nghĩa của chúng
Sử dụng phương pháp học máy: các phương pháp học máy được sử dụng như học theo luật
(Learning Rules), mô hình Markov an (Hidden Markov Model - HMM), mạng nơ-ron(Neutron network), để chọn thuật ngữ có trong tập dữ liệu Nhưng phương pháp học máychỉ đạt kết quả cao với các bài toán nhận dạng tên của các thực thể như tên bệnh, tên thuốchoặc tên các gen Một số phương pháp học máy thuộc loại học theo kiểu hộp đen nên gây khókhăn cho việc mô tả và hiểu ý nghĩa mô hình sau khi học
Sử dụng kết hợp nhiều phương pháp hay còn gọi là phương pháp lai: kết hợp các phương
pháp trên để tạo ra một hướng tiếp cận mới Phương pháp này giúp khai thác, kết hợp và bùtrừ các ưu điểm và hạn chế của các phương pháp với nhau, cải thiện độ chính xác
Mỗi hướng tiếp cận đều có những ưu điểm và nhược điểm riêng cho từng bài toán cụ thể Tuynhiên, với những phương pháp ngôn ngữ học và phương pháp thống kê được áp dụng nhiều
và đạt được hiệu quả cao Phương pháp này dễ hiện thực và có thể áp dụng nhiều phép cải tiếnphù hợp cho ngôn ngữ tiếng Việt
Phương pháp lai này được khá nhiều công trình nghiên cứu sử dụng như [10] [30] và đến naycũng đạt hiệu suất tương đối Vì vậy, chúng tôi quyết định xây dựng hệ thống sử dụng phươngpháp tiếp cận này Cụ thể hơn là kết hợp giữa các bộ lọc từ vựng của phương pháp ngôn ngữhọc để trích xuất thuật ngữ tiềm năng và phương pháp thống kê C/NC-Value để xếp hạng
Trang 354.3 Thành phần ngôn ngữ học
Phương pháp ngôn ngữ học thường được sử dụng như bước tiền đề trong công cụ trích xuấtthuật ngữ bằng phương pháp lai Bước này rút trích và xây dựng danh sách các thuật ngữ tiềmnăng, danh sách này sẽ được chuyển tiếp sang bước xếp hạng bằng thống kê Phương phápngôn ngữ học gồm các bước sau:
- Tách từ và gán nhãn từ loại trong tập văn bản
- Áp dụng cấu trúc ngữ pháp của cụm danh từ vào tập văn bản đã được gán nhãn, trích xuấtđược cụm danh từ dài tối đa có thể
- Sử dụng danh sách từ loại bỏ (stoplist) để loại bỏ một số cụm danh từ không có tiềm năng
là thuật ngữ
Phân tách từ và gán nhãn từ loại
Phân tách từ (token) là quá trình tách mỗi câu trong văn bản thành những đơn vị từ vựng Đốivới tiếng Anh hay tiếng Pháp việc phân tách từ phần lớn là dựa vào ký hiệu khoảng trắng.Trong khi đó với tiếng Việt thì khoảng trắng không phải là dấu hiệu để xác định ranh giới cácđơn vị từ vựng do tần số xuất hiện từ ghép rất cao Ví dụ trong câu: Bệnh nhân I siêu âm Iphát hiện I sỏi I thận Câu ví dụ này có 8 tiếng, tương đương với 5 từ Nếu không có bướctách từ này thì bộ gán nhãn sẽ gán nhãn cho tất cả các tiếng trong câu và dẫn tới sai lệch.Sau khi tập văn bản đã được phân tách từ, chuỗi các từ nhận được sẽ là đầu vào của công cụgán nhãn hay còn gọi là đánh dấu từ loại (PoS tagging) Nhiệm vụ của bước này là xác định từloại phù hợp: danh từ, động từ, tính từ, cho các từ trong tập văn bản Như câu ví dụ phía trên
sẽ được gán nhãn: Bệnh_nhân/N siêu_âm/Np phát_hiện/v Sỏi/N thận/N Hiện nay các bộ đánhdấu từ loại đã được nghiên cứu và xây dựng ở hầu hết các ngôn ngữ Đối với tiếng Việt cũng
đã có nhiều bài nghiên cứu và công trình xây dựng với vấn đề này [31] [32],
Trang 36cụ trích xuất thuật ngữ Tập danh sách loại bỏ có thể coi như là một bộ lọc dựa trên kinhnghiệm của các nhà phân tích thuật ngữ vì mỗi ngôn ngữ hay mỗi tập dữ liệu khác nhau sẽ cótập danh sách từ đặc biệt khác nhau.
4.4 Thành phần thống kê
Để nhận dạng được các thuật ngữ tiềm năng, ngoài phương pháp dùng các luật ngữ pháp ởmục 3.3 hoặc các bộ lọc Bảng 6.3.8, hệ thống sử dụng thêm phương pháp xác suất Hai loạithang đo quan trọng liên quan tới thuật ngữ được sử dụng trong xác suất là Termhood vàUnithood như đã trình bày ở mục 3.2 Các thuật ngữ tiềm năng sẽ được xếp hạng dựa trênthang đo này, nếu vượt qua một ngưỡng cho trước hoặc có thứ hạng cao, thuật ngữ tiềm năng
đó sẽ là kết quả đầu ra của phương pháp xác suất
Qua tìm hiểu một số công trình nghiên cứu như [21] [25] có nhiều công thức xác suất thống
kê để đánh giá thuật ngữ tiềm năng, tuy nhiên chúng tôi chọn sử dụng công thức xác suất dựatrên thang đo Termhood để đánh giá là công thức C-Value vĩ được sử dụng nhiều trong cáccông trình nghiên cứu đạt kết quả cao, sử dụng trong nhiều ngôn ngữ có nhiều cải tiến mởrộng [22] [29]
Áp dụng phương pháp C-Value cho việc xếp hạng, chúng tôi nhận được một danh sách cácthuật ngữ tiềm năng Chúng tôi mong muốn các cụm từ không thuộc lĩnh vực y khoa hoặc ítquan trọng thi được xếp ở vị trí thấp trong danh sách
C-Value
C-Value trong xác suất thuộc loại thang đo Termhood để đánh giá một từ hay cụm từ có phải
là một thuật ngữ tiềm năng trong văn bản hay không Giá trị C-Value của một từ hay cụm từ
là một số thực dương Vì vậy ta có thể sử dụng giá trị này để xếp hạng theo mức độ tiềm năngcủa dữ liệu trả về [5]
Việc sử dụng tần suất cho vấn đề tự động trích xuất thuật ngữ thường mang lại kết quả tốt.Nguyên nhân do thuật ngữ biểu thị một cách ngắn gọn cho một khái niệm được sử dụngthường xuyên hay tên của một đối tượng Hay nói cách khác, bản chất của thuật ngữ có tần sốxuất hiện cao trong văn bản
Công thức Termhood (4.4.1) sử dụng tần suất xuất hiện của từ hay cụm từ a và tổng tần suấtxuất hiện của các cụm từ chứa a Công thức Termhood có dạng như sau:
Trang 37• f(P) : tần suất xuất hiện của p trong văn bản đầu vào.
Công thức C-Value (4.4.2) sử dụng thang đo Tennhood, do đó trong công thức cũng sử dụngchủ yếu là tần suất xuất hiện của từ, cụm từ đang xét a và tổng tần suất xuất hiện của các cụm
từ chứa a Tuy nhiên, C-Value có phần cải tiến dựa trên ỷ tưởng của thang đo Termhood nhưsau:
• f(p): tần suất xuất hiện của p.
Công thức C-Value sử dụng thêm thông số độ dài của a đang xét và sử dụng trung bình cộngtổng tần suất xuất hiện của các cụm từ chứa a Hai yếu tố này ảnh hưởng lán tới kết quả, giátrị của C-Value và đồng thời là điểm đặc trưng của công thức c~ Value trong thang đoTermhood