Developing core technologies for mining electronic medical records for health care and medical research

Các thực nghiệm được thực hiện với 70 văn bản lâm sàng đã được chú thích và được lựa chọn ngẫu nhiên từ 560.650 bản tóm tắt xuất viện của cơ sở dữ liệu Vaderbilt Medical Center’s Synthet

Trang 1

BÁO CÁO CUỐI KỲ ĐỀ TÀI KH&CN

Tên đề tài: Phát triển các công nghệ nền để khai thác bệnh án điện tử cho chăm sóc sức khoẻ và nghiên cứu y học

Mẫu R08 Ngày nhận hồ sơ

(Do CQ quản lý ghi)

Các thành viên chủ chốt

TT Học hàm, học vị, Họ và tên Chịu trách nhiệm Điện thoại Email

1 GS.TSKH Hồ Tú Bảo Chủ nhiệm

2 PGS.TS Đồng Thị Bích Thuỷ Đ Chủ nhiệm

3 GS.TS Cao Hoàng Trụ Tham gia

4 TS Võ Thị Ngọc Châu Tham gia

5 PGS.TS Lê Thị Lý Tham gia

6 TS Nguyễn Thị Minh Huyền Tham gia

7 BS Nguyễn Văn Bính Tham gia

8 GS.TS.BS Nguyễn Đức Công Tham gia

9 CN Nguyễn Ngọc Hợp Tham gia

Chí Minh

Đại học Quốc gia Thành phố Hồ Chí Minh

h

Trang 2

BÁO CÁO CUỐI KỲ

Tên đề tài: Phát triển các công nghệ nền để khai thác bệnh án điện tử cho

chăm sóc sức khoẻ và nghiên cứu y học

Trang 4

GIỚI THIỆU

Đây là báo cáo về các kết quả đã đạt được và các công việc đang được thực hiện trong đề tài Đề tài gồm 5 nội dung nghiên cứu chính, liên quan mật thiết với nhau như mô tả ở Hình 1.1:

(1) Nghiên cứu xây dựng quy trình chuẩn hoá ngôn ngữ trong khám chữa bệnh dùng cho bệnh

án điện tử (BAĐT) tại khoa Tiêu Hoá, bệnh viện Thống Nhất, Tp.HCM

(2) Nghiên cứu phương pháp và xây dựng phần mềm công cụ chuyển đổi BAĐT gốc thành CSDL thứ cấp loại 1

(3) Nghiên cứu phương pháp và xây dựng công cụ phân tích văn bản lâm sàng tiếng Việt

(4) Nghiên cứu phương pháp và xây dựng công cụ chuyển đổi văn bản lâm sàng từ các BAĐT thành các dạng tính toán được

(5) Nghiên cứu phương pháp và xây dựng công cụ phân tích quan hệ bệnh-thuốc

Các mục tiếp theo sẽ lần lượt trình bày tiến triển công việc của từng nội dung này

Hình 1.1 Sơ đồ liên kết các khối nội dung công việc trong đề tài

Trang 5

NỘI DUNG 1:

Nghiên cứu xây dựng quy trình chuẩn hoá ngôn ngữ trong khám chữa bệnh dùng cho BAĐT tại khoa Tiêu Hoá, bệnh viện Thống Nhất, Tp.HCM

1.1 Tổng quan về tình hình và nhu cầu

Công nghệ thông tin (CNTT) đang dần chứng tỏ tầm ảnh hưởng rất lớn đến mọi mặt của đời sống

xã hội, và ngày càng được công nhận như là một công cụ quan trọng để nâng cao chất lượng chăm sóc bệnh nhân (BN) và cải thiện tính an toàn trong quá trình khám chữa bệnh Trong các ứng dụng

về CNTT trong ngành y tế như cải cách hành chính, quản lý, đào tạo, giám sát dịch bệnh, nghiên cứu phát triển thuốc, hỗ trợ các kĩ thuật cao và hướng tới việc xây dựng bệnh viện (BV) điện tử, thì việc tạo lập và khai thác bệnh án điện tử (BAĐT) giữ vị trí trung tâm Đó là vì BAĐT là phương tiện có khả năng nhất trên phạm vi rộng và có tiềm năng lớn nhất để tích hợp và phát triển các ứng dụng trên

Trong quá trình khám chữa bệnh, hồ sơ bệnh án (HSBA), còn gọi là hồ sơ BN, là các giấy tờ

có liên quan đến quá trình điều trị của người bệnh tại một cơ sở khám chữa bệnh trong một thời gian Mỗi loại giấy tờ trong HSBA có nội dung và tầm quan trọng riêng của nó HSBA được ghi chép đầy đủ, chính xác và có hệ thống sẽ có ích cho việc chẩn đoán, điều trị, phòng bệnh, nghiên cứu, và đào tạo Nó cũng hỗ trợ cho việc đánh giá chất lượng điều trị, trách nhiệm, và khả nǎng của người thầy thuốc

Thuật ngữ có phần khác từ ngữ thông thường Một trong những đặc tính của thuật ngữ là tính miêu tả và định nghĩa Ngoài ra, nhiều từ ngữ có liên hệ với nhau như thuộc một hệ thống phân loại và phân cấp mang tính quốc tế Chữ viết ở đây quan trọng hơn tiếng nói Thuật ngữ khoa học

là một bộ phận từ ngữ quan trọng của hầu hết các ngôn ngữ trên thế giới, đó là “những từ và cụm

từ cố định để chỉ những khái niệm của một ngành khoa học nào đó, ngành sản xuất hay ngành văn hoá nào đó…”, “là bộ phận từ vựng biểu đạt các khái niệm khoa học, là thuộc tính của khoa học,

kỹ thuật, …”

Thuật ngữ y học lâm sàng (clinical terminology) là một bộ phận từ ngữ quan trọng của ngôn ngữ dùng trong khám chữa bệnh và được ghi chép lại trong HSBA Do đặc điểm lịch sử, các thuật ngữ y học lâm sàng nước ta hiện nay hiếm khi là các thuật ngữ mới, mà chủ yếu tiếp nhận và sử dụng các thuật ngữ quốc tế là điều không thể tránh, nhất là trong xu thế hội nhập toàn cầu Bảng phân loại quốc tế về bệnh tật ICD10 (International Classification of Diseases) được thống nhất áp dụng trong toàn quốc đã xác định xu thế trên Chuẩn hoá thuật ngữ lâm sàng là một trong những nội dung chính của chuẩn hoá ngôn ngữ trong khai báo bệnh Nói cách khác, tạo lập ngôn ngữ khám chữa bệnh không thể tách rời việc chuẩn hóa các thuật ngữ lâm sàng

Hồ sơ BAĐT là phiên bản số của HSBA giấy bao gồm toàn bộ các dữ liệu chuẩn về lâm sàng, như ghi chép của thầy thuốc, điều dưỡng viên, kết quả xét nghiệm, chẩn đoán hình ảnh, chẩn đoán chức năng, phương pháp điều trị, đơn thuốc và các sự can thiệp cho BN liên quan đến quá trình điều trị BAĐT chủ yếu được sử dụng bởi các nhà chuyên môn để chẩn đoán, điều trị, nghiên cứu, giám sát dịch, xác định các yếu tố nguy cơ, giúp cho công tác quản lí, giảm nhiều thời gian cho các thủ tục hành chính, tăng thời gian tiếp xúc BN

Tại Mỹ, từ năm 2009 đã định hướng và triển khai thực hiện việc hiện đại hóa chăm sóc sức khỏe trên cơ sở chuẩn hóa và số hóa mọi HSBA trong BV Do đó đến năm 2014, hệ thống hồ sơ

Trang 6

sức khỏe điện tử của BV cấp tỉnh phi liên bang đã tăng đều đặn và đã có 76% BV có ít nhất một

hệ thống hồ sơ sức khỏe điện tử với các ghi chép lâm sàng của bác sĩ (BS)

Tại Nhật Bản, năm 2011, trong các BV, tỷ lệ áp dụng BAĐT và hệ thống nhập liệu bằng máy tính lần lượt là 51,5% và 78,6% trong 822 BV lớn (400 giường trở lên), 27,3% và 52,1% trong 1.832 các BV trung bình (200-399 giường bệnh), và 13,5% và 26,0% trong 5951 BV nhỏ (ít hơn

BN ở BV lớn Đặc biệt một số BV đã bước đầu triển khai áp dụng BAĐT như BV đa khoa Vân Đồn- Quảng Ninh, BV Thủ Đức- TP Hồ Chí Minh, …

Xây dựng phương pháp và quy trình chuẩn hoá ngôn ngữ cho việc khai báo khám chữa bệnh

và thử nghiệm ở khoa Tiêu hóa/BV Thống Nhất là mục tiêu của nội dung thứ nhất của đề tài

1.2 Khảo sát và thống kê số liệu

Nhóm nghiên cứu đã tiến hành các bước khảo sát và thống kê số liệu sau đây

1 Thống kê HSBA, phân tích văn bản lâm sàng:

− Thời gian của các HSBA được khảo sát: từ tháng 6/2013 (lúc BV Thống Nhất bắt đầu

áp dụng hệ thông tin H-soft) đến tháng 12/2014

− Xác định số lượng HSBA bệnh tiêu hóa và cơ cấu mã bệnh

− Tổng số HSBA ra viện của khoa Tiêu hóa: 2.865

− Tổng số HSBA ra viện có chẩn đoán bệnh tiêu hóa: 2.233

để tìm chẩn đoán quyết định hoặc đánh giá hiệu quả điều trị), chỉ định thuốc và các can thiệp tiếp theo, ghi chép vào Phần bệnh án, hoặc Tờ điều trị trong HSBA Tờ điều trị thường có 2 hình thức ghi chép là lúc mới vào phần khám bệnh và khám hàng ngày (thường ít chi tiết hơn)

− Đối với BN đang nằm nội trú: nắm số lượng BN mình phụ trách, hàng ngày khám bệnh (hỏi bệnh, khám lâm sàng), xem kết quả cận lâm sàng mới về (nếu có), xem thuốc và

Trang 7

can thiệp xử lý trước đó, kiểm tra lại chẩn đoán (nếu cần), đánh giá kết quả điều trị, chỉ định các xét nghiệm tiếp (để tìm chẩn đoán quyết định hoặc đánh giá hiệu quả điều trị), chỉ định thuốc và các can thiệp tiếp theo, ghi chép vào Tờ điều trị trong HSBA Có thể các BS khám hết số BN mình phụ trách rồi ghi chép hoặc có BS khám xong BN nào thì ghi chép vào HSBA ngay cho BN đó Đôi khi cần chỉ định kháng sinh, thuốc hiếm, BS phải kê đơn trước khi ghi chép diễn biến bệnh

− Hàng ngày (trừ thứ 7 và chủ nhật), một số BS, ngoài việc khám bệnh cho số BN mình phụ trách trong khoa, phải làm nhiệm vụ khám ngoài phòng khám, khám BN từ các khoa khác gửi tới Chủ nhiệm khoa, phó chủ nhiệm khoa, hoặc BS được phân công, còn phải dự hội chẩn nếu BV yêu cầu

3 Quan sát, phân tích các loại văn bản có trong HSBA:

− Các loại văn bản chính trong HSBA mà BS và y tá cần ghi chép: (1) Phần bệnh án (lý

do vào bệnh viện, lịch sử bệnh, khám bệnh, …); (2)Tổng kết bệnh án; (3) Sơ kết 15 ngày điều trị; (4) Trích biên bản hội chẩn; và (5) Tờ điều trị: là văn bản dùng thường xuyên và quan trọng trong HSBA, gồm có ghi chép diễn biến khám lúc vào (ghi xét nghiệm, kê đơn, ), ghi chép diễn biến khám hàng ngày (ghi xét nghiệm, kê đơn, …), điểm bệnh của chủ nhiệm khoa, tổng kết bệnh án ra viện, khám các chuyên khoa khác,

− Bệnh dạ dày tá tràng: 1.001 HSBA = 44,79%

− Xuất huyết tiêu hóa: 274 HSBA = 11,06%

− Bệnh Xơ gan, K gan: 243 HSBA = 10,88%

− Sắp xếp trình tự xuất hiện của mỗi triệu chứng tương ứng với các giá trị có tần suất gặp

từ cao đến thấp

Trang 8

− Thống nhất, chuẩn hóa 60 thuật ngữ triệu chứng học theo giáo khoa, khuyến cáo của Hội khoa học Tiêu hóa Việt Nam và nguồn từ UMLS

− Áp dụng thêm 3 thang điểm lâm sàng thiết yếu

1.3 Những rào cản trong việc tạo lập BAĐT

Dưới đây là các rào cản chính trong việc tạo lập BAĐT, mà đặc biệt là các văn bản lâm sàng khám chữa bệnh hàng ngày:

1 Nếp làm việc truyền thống với công cụ quen thuộc là bút và giấy: trong quá trình thực

hành lâm sàng, vai trò của BS là quan trọng nhất Trong điều kiện áp lực BN như hiện nay, bài toán về năng suất làm việc của BS được quan tâm hàng đầu Phần ghi chép HSBA, gọi là thông tin lâm sàng (như lý do nhập viện, lịch sử bệnh, tiền sử bệnh, biên bản phẫu thuật, ghi chép diễn biến hàng ngày) là phần việc cuối, nhưng rất quan trọng trong mỗi thao tác lâm sàng Khi áp dụng BAĐT, điều dễ nhận thấy nhất là việc các BS phải thay đổi cách nhập dữ liệu, thay vì ghi chép bằng bút và giấy thì phải thao tác trên máy Điều này dẫn đến việc làm giảm đáng kể năng suất thực hành lâm sàng Đây là rào cản trực tiếp và lớn nhất, vì mỗi BS phải bỏ thêm hàng giờ đồng hồ mỗi ngày để hoàn tất công việc nhập dữ liệu vào BAĐT

2 Thông tin trong HSBA chưa thống nhất, chưa chuẩn hóa: hiện nay, thực tế ở nước ta đã

có một số BV với quyết tâm và chính sách đầu tư của lãnh đạo các cấp nên đã tạo lập được BAĐT ở mức độ căn bản, nghĩa là có sự thay thế HSBA giấy bằng việc nhập thông tin về BN và lưu giữ thông tin BN trên máy tính Thực sự đây là bước tiến hết sức quan trọng trong việc tạo lập BAĐT chuẩn Tuy nhiên, những BAĐT căn bản này chưa quan tâm nhiều đến chất lượng thông tin (nội dung) của BAĐT Đó là việc thống nhất, chuẩn hóa ngôn ngữ, thuật ngữ và các thang điểm lâm sàng thiết yếu thường dùng Điều này khó tránh khỏi do đặc điểm đào tạo, vùng miền, tập quán, …

3 Ứng dụng thiết bị và công nghệ mới: với HSBA giấy, việc tìm kiếm các thông tin của BN

tuy mất nhiều thời gian nhưng thao tác lại đơn giản là lật giở từng trang và tìm kiếm Không gian để BS có thể tham khảo nhiều thông tin trong một lần quan sát của HSBA giấy đang được coi là có ưu thế: vừa xem kết quả xét nghiệm máu vừa đọc kết quả trên film X quang, MRI, CT, Trong khi đó, trên BAĐT kích thước màn hình không cho phép Do đó, nhiều BS từ chối sử dụng máy tính để nhập liệu khi khám chữa bệnh

4 Những khác biệt về nhiệm vụ của từng BS, y tá: BS cấp cứu, BS phụ trách điều trị BN,

BS trực, hình thức và thời gian nhập dữ liệu, thời gian tiếp xúc với BN, vấn đề về quy trình công việc Mỗi một khác biệt đòi hỏi những lời giải về thiết bị công nghệ tương ứng phát sinh và làm cho BS khó làm quen hơn

5 Những quy định, quy trình chung của ngành y tế, của bảo hiểm y tế và từng BV: đặc điểm

HSBA giấy theo quy định của Bộ Y Tế là rất chi tiết, rất nhiều loại, những thủ tục mà bảo hiểm y tế quy định (như dịch vụ kĩ thuật như CT, MRI, chụp mạch,…), một số quy định riêng cho từng BV (như khám bệnh theo yêu cầu, …) Nhiều sự khác biệt phải giải quyết làm cho hệ thống máy cồng kềnh để thích ứng với nhu cầu thực tế lâm sàng Kết quả là chi phí về thiết bị, công nghệ và đào tạo sẽ trở thành gánh nặng quá mức

6 BV đa khoa chỉ có một khoa Tiêu hóa tiếp nhận BN nội khoa tiêu hóa: thực tế số mã

bệnh tiêu hóa chỉ chiếm 87,42% tổng số mã bệnh trong khoa tiêu hóa, trong khi các mã bệnh còn lại chiếm 12,58%, là các mã bệnh truyền nhiễm (như sốt siêu vi, viêm gan virus

Trang 9

A, B ), tim mạch (như tăng huyết áp, suy mạch ngoại biên, ), khớp (gút, viêm đa khớp,

…) Đây là đặc điểm mang tính đặc thù của BV Điều này sẽ bất lợi cho việc cùng một lúc BS trong khoa phải sử dụng 2 mẫu khám chữa bệnh; một cho mã bệnh đúng thuộc chuyên khoa tiêu hoá, và một cho các mã bệnh không thuộc chuyên khoa tiêu hóa

1.4 Giải pháp đề xuất để tạo lập BAĐT

Trong điều kiện khó khăn như trên, chưa thể có giải pháp hoàn chỉnh cho việc tạo lập BAĐT tiêu chuẩn, mà phải tìm kiếm nhiều giải pháp để vượt qua Phát triển và triển khai hệ thống hỗ trợ BS nhập dữ liệu trên cơ sở thống nhất ngôn ngữ để làm bệnh án, ghi chép diễn biến, cho thuốc chữa bệnh, làm các văn bản hành chính, … là lời giải khả dĩ giúp bước đầu tạo lập BAĐT tiêu chuẩn Đây thực sự là một bước đi quan trọng trong một quá trình lâu dài để xây dựng BAĐT tiêu chuẩn Các ý tưởng chính của giải pháp mà nhóm nghiên cứu đề xuất là:

1 Mục tiêu chung của giải pháp: tạo được năng suất làm việc cao hơn (nhanh và chất lượng

hơn), dễ dàng quản trị hệ thống, giảm thủ tục sao chép trên giấy, kiểm soát quá trình điều trị BN, dễ sử dụng, chi phí thấp, đào tạo ngắn, ứng dụng nghiên cứu và thanh toán bảo hiểm y tế thuận lợi

2 Cơ sở của giải pháp: theo y học thực chứng (evidence-based medicine), các quyết định

lâm sàng của BS dựa trên 3 yếu tố: (1) kiến thức và kinh nghiệm của BS; (2) chứng cớ y văn; và (3) sự lựa chọn của BN Trong quá trình thực hành lâm sàng, để ra quyết định chẩn đoán, dòng tư duy của BS luôn đi từ khái quát đến chi tiết, từ bệnh lý hệ cơ quan đến bệnh lý cơ quan Đây là cơ sở quan trọng giúp việc hình thành các cấu trúc và phân định chương bệnh, nhóm bệnh và bệnh theo mã bệnh quốc tế đang được áp dụng Hệ hỗ trợ bác sĩ nhập dữ liệu trong BAĐT được nhóm nghiên cứu thiết kế dựa trên sự kết hợp giữa thực hành y học thực chứng đầy đủ và tôn trọng nền tảng căn bản của phương pháp định bệnh

3 Yêu cầu của giải pháp: thực tế, giáo khoa, cập nhật, thân thiện và hướng tới tương lai

4 Các bước của quy trình tạo lập hệ hỗ trợ nhập dữ liệu:

− Thống kê y học: phải bám sát đặc điểm lâm sàng, sự phân phối mã bệnh, nhiệm vụ của

từng chuyên khoa với quy trình công việc truyền thống, bảo đảm chắc chắn việc ứng dụng triển khai BAĐT luôn phù hợp với đặc điểm bệnh học của cơ sở điều trị Khảo sát và phân tích số lượng BN cho kết quả về tổng số mã bệnh, tần suất các mã bệnh, tần suất các triệu chứng lâm sàng, cận lâm sàng trong từng mã bệnh Phân nhóm bệnh theo triệu chứng học

− Tìm hiểu hình thức và yêu cầu của tất cả các loại văn bản có trong HSBA giấy đang

sử dụng có tính thống nhất cấp quốc gia: bệnh án, tổng kết bệnh án, tờ điều trị, sơ kết

15 ngày điều trị, biên bản hội chẩn, các loại giấy yêu cầu đề nghị khám chuyên khoa, làm kỹ thuật, biên bản ghi chép các kết quả phẫu thuật, tiểu thủ thuật,

− Tìm hiểu quy trình làm việc của BS và y tá: khám bệnh, ghi chép thông tin vào HSBA,

…, mối quan hệ làm việc giữa BS với y tá (người ra y lệnh và người thực hiện, …) Sự liên kết hệ thống với khoa Dược, trang thiết bị, thanh toán tài chính,

− Thống nhất ngôn ngữ, chuẩn hóa các thuật ngữ và một số thang điểm lâm sàng thiết

yếu: có 2 nhóm thuật ngữ cần thống nhất và chuẩn hóa là thuật ngữ định bệnh và thuật

ngữ về triệu chứng học cùng các thang điểm lâm sàng thiết yếu thường dùng Bảng phân loại quốc tế bệnh tật phiên bản 10 của Bộ Y Tế (ICD10) với trợ giúp của

Trang 10

ICD10Data.com giúp thống nhất và chuẩn hóa các thuật ngữ định bệnh Thực tế ứng dụng ICD10 trong thực hành lâm sàng ở các BV trong cả nước hiện nay không phải không có điều gì để nói bởi vì ICD10 được thiết kế ưu tiên dịch tễ học, quản lý rồi mới đến lâm sàng Tuy nhiên phần này thực sự không phải là vấn đề quá khó để giải quyết trong từng BV hiện nay Phần khó khăn và phức tạp hơn nằm ở chỗ cần thiết phải thống nhất và chuẩn hóa về triệu chứng học và một số thang điểm lâm sàng thiết yếu thường dùng Đây thực sự là một thách thức thực tế của các thầy thuốc lâm sàng không chỉ ở nước ta mà ngay cả một số BV trên thế giới Không thể quá cầu toàn trong điều kiện thực tế ghi chép HSBA trong các BV ở nước ta hiện nay Mặt khác, cần tận dụng tối đa kiến thức mang tính giáo khoa quốc gia, thực tế ứng dụng tại các chuyên khoa trong các BV, khuyến cáo của các hội chuyên ngành y khoa (Hội khoa học Tiêu hóa Việt Nam, Hội Tim Mạch Việt Nam, …), kiến thức được cập nhật trên thế giới từ các Hội chuyên ngành và từ Thư viện Quốc gia Y học Mỹ (U.S National Library of Medicine), Hệ Thống nhất Ngôn ngữ Y học (Unified Medical Language System/UMLS), Hệ thống hóa Danh pháp Y học - Thuật ngữ Lâm sàng (Systematized Nomenclature of Medicine-Clinical Terms/ SNOMED CT), …

− Tạo bảng đặc tả với các ưu tiên từ thống kê, thống nhất và chuẩn hóa thuật ngữ và từ

các yêu cầu của hệ thống: việc thiết kế các đặc tả của mẫu khai báo sẽ đồng thời với

việc cắt gọt các phần thừa, bổ sung chỗ thiếu, thống nhất, chuẩn hóa các thuật ngữ định bệnh và triệu chứng lâm sàng BAĐT được thiết kế sẽ phải hoàn chỉnh hơn ở hai điều: (1) giúp BS và y tá không bỏ qua các quy trình hỏi bệnh, khám bệnh, quy nạp triệu chứng, với kinh nghiệm, kiến thức và các ưu tiên của BN để áp dụng giải quyết tình huống (đưa ra các quyết định về chẩn đoán, chỉ định các xét nghiệm cận lâm sàng tiếp theo, chỉ định thuốc và các can thiệp nếu có, …) và đánh giá hiệu quả của các can thiệp

− Tiến hành tạo mẫu khai báo trên cơ sở các bảng đặc tả và cài đặt trên các thiết bị điện

toán gọn nhẹ như laptop, máy tính bảng, smartphone: soạn thảo văn bản bằng cách

chạm và chọn sẽ giúp BS lâm sàng vượt qua rào cản về năng suất, một trong những khó khăn nhất khi tạo lập BAĐT Phần “thông tin khác” trong mẫu khai báo luôn có vì

ba lí do Thứ nhất, đây được coi là những ghi nhận bổ sung về bệnh học và triệu chứng học mang tính cá thể của từng BN Thứ hai, đó là sự ghi nhận những thông tin mới về định bệnh và triệu chứng học Những ghi nhận như vậy sẽ là những tri thức mới trong

y học vô cùng quý giá Thứ ba, đó cũng là yêu cầu về việc thực hành lâm sàng đầy đủ trên máy tính trong tương lai

Tài liệu tham khảo

[1] Hội nghị Ứng dụng công nghệ thông tin trong y tế lần thứ VII

(http://soyte.danang.gov.vn/web/guest/rss/-/asset_publisher/S7SM4AVkEOTw/

content/hoi-nghi-ung-dung-cong-nghe-thong-tin-trong-y-te-lan-thu-vii)

[2] Hướng dẫn ghi chép và mã hoá các thông số hồ sơ bệnh án Cục quản lý khám chữa bệnh, Bộ y tế (http://kcb.vn/wp-content/uploads/2015/07/Huong-dan-ghi-chep.doc) [3] Hồ Tú Bảo, Xây dựng và khai thác bệnh án điện tử: Con đường mới trong khám chữa bệnh và nghiên cứu y học Tạp chí khoa học và công nghệ Việt Nam Số 3 năm

2015, trang 16-20

Trang 11

[4] Hồ sơ bệnh nhân và cách ghi chép, Đại học Y Hà Nội (http://www.hmu.edu.vn/thuvien/Baithuochay/dieuduongcoban/bai7.htm)

[5] Nguyễn Văn Hùng, Thuật ngữ y khoa Việt – Anh Nhà xuất bản Y học, 2014

[6] J Steglitz, M Sommers, MR Talen, LK Thornton, B.Spring Evaluation of an electronic health record-supported obesity management protocol implemented in a community health center: a cautionary note, Oxfoxd University Press, 2015

[7] D Charles, M Gabriel, T Searcy Adoption of electronic health record systems among U.S nonfederal acute care hospitals: 2008-2014 ONC Data Brief, No 3, April 2015

[8] R.H Miller, I Sim Physicians’ use of electronic medical records: barriers and solutions Health Affairs, 23 (2), 116-126, 2004

[9] Health Information Technology: Electronic Medical Records, U.S Department of

Health and Human Services, February 2015 medical-record-system)

(https://healthit.ahrq.gov/ /electronic-[10] Nguyễn Hy Hậu Thuật ngữ Khoa học, 2016

[11] Benefits of Electronic Health Records USA Government Health and Human Services, August 2014 (https://www.healthit.gov/providers-professionals/benefits-electronic-health-records-ehrs)

[12] Y Yoshida, T Imai, K Ohe The trends in EMR and CPOE adoption in Japan under

the national strategy Int J Med Inform, 82 (10):1004-11, August 2013

[13] Nguyễn Như Ý Từ điển Giải thích Thuật ngữ Ngôn ngữ Học, Nxb Giáo dục Hà

Nội, 1997

Trang 12

NỘI DUNG 2:

Nghiên cứu phương pháp và xây dựng phần mềm công cụ chuyển đổi BAĐT gốc thành CSDL thứ cấp loại 1

2.1 Trích BA ĐT từ hệ thông tin bệnh viện

2.1.1 Truy nhập cơ sở dữ liệu của hệ thông tin bệnh viện

Việc truy nhập hệ thông tin bệnh viện (HTTBV) được tiến hành qua việc kết nối trực tiếp với hệ cơ sở

dữ liệu bệnh viện do công ty phần mềm Hoa Sen thao tác Phần mềm Oracle SQL Developer được dùng để kết nối trực tiếp vào hệ cơ sở dữ liệu của phần mềm HTTBV được cài sẵn trên máy tính nội

bộ chuyên dùng cho việc nghiên cứu Công ty Hoa Sen chuyển dữ liệu từ HTTBV ra một dạng trung gian như dữ liệu đầu vào cho chương trình của nhóm nghiên cứu của đề tài

2.1.2 Thực hiện việc tạo CSDL thứ cấp loại 1

Việc tạo CSDL thứ cấp loại 1 được thực hiện qua việc thực hiện các câu lệnh truy vấn SQL để rút trích thông tin cần thiết cho nghiên cứu Vì hệ CSDL trong bệnh viện được tổ chức khá phức tạp, để có thể viết được các câu lệnh truy vấn SQL đòi hỏi sự am tường kiến thức về hệ CSDL trong bệnh viện Do

đó, CSDL thứ cấp loại 1 được tạo ra với sự giúp đỡ của chuyên viên công ty phần mềm Hoa Sen Dữ liệu thứ cấp được tạo ra dưới nhiều lựa chọn sau đây

Tạo dữ liệu thứ cấp cho từng bệnh nhân

Cho trước mã số bệnh nhân, dữ liệu thứ cấp của một bệnh nhân cụ thể có thể được rút trích từ HTTBV bằng cách thực hiện câu lệnh SQL kết nối nhiều bảng dữ liệu chứa các trường cần quan tâm về bệnh nhân Ví dụ, nếu ta cần rút trích thông tin về diễn biến điều trị của bệnh nhân, trong HTTBV Vân Đồn,

ta cần kết (join) các bảng BA_CHAMSOC, BA_THUCHIEN, BA_DIEUTRI của các tháng mà bệnh nhân được nhận vào Ví dụ, đoạn SQL dưới đây truy vấn thời gian, diễn biến và y lệnh của bác sĩ được ghi lại với bệnh nhân có mã số 140518212235526004 được điều trị vào tháng 5

SELECT TO_CHAR(a.ngay,'dd/mm/yyyy hh24:mi') AS ngay,

Trang 13

Tạo dữ liệu thứ cấp đồng thời cho nhiều bệnh nhân

Cho trước mã số bệnh nhân và thời gian điều trị của nhiều bệnh nhân cần thu thập dữ liệu khám chữa bệnh cho nghiên cứu, việc tạo cơ sở dữ liệu thứ cấp của các bệnh nhân này được thực hiện bởi ngôn ngữ PL/SQL Ưu điểm của ngôn ngữ này là cho phép thực hiện các câu truy vấn phức tạp kết hợp linh hoạt với khả năng lập trình thủ tục truyền thống để truy vấn các đối tượng trong CSDL thông qua SQL Hình sau minh hoạ một phần cơ sở dữ liệu thứ cấp của nhiều bệnh nhân được định dạng dưới dạng file excel Như có thể thấy từ trong hình, nhiều phần xử lý cần làm tiếp trên CSDL thứ cấp này ở nội dung 2 của đề tài

< ROW >

< COLUMN NAME="NGAY">

<![CDATA[18/05/2014 21:48]]>

</ COLUMN >

< COLUMN NAME="DIENBIEN">

<![CDATA[Bệnh nhân tỉnh, không sốt, M 92l/p, HA 110/70mmHg Buồn nôn, nôn, đau bụng vùng quanh rốn Đi ngoài phân lỏng nhiều lần Bệnh nhân không có tiền sử dị ứng thuốc]]>

</ COLUMN >

< COLUMN NAME="YLENH">

<![CDATA[Tiếp nhân bệnh nhân xếp gường Hướng dẫn nội quy khoa phòng Do dấu hiệu sinh tồn, báo bác sỹ Duy trì dịch truyền phong lưu Thực hiện thuốc theo y lệnh Hướng dẫn bệnh nhân uống ORS rải rác Động viện bệnh nhân yên tâm điều trị ]]>

< COLUMN NAME="DIENBIEN">

<![CDATA[Bệnh nhân tỉnh, không sốt M - HA ổn định,Đỡ đau bụng]]>

</ COLUMN >

< COLUMN NAME="YLENH">

<![CDATA[Nằm nghỉ Duy trì dịch truyền ]]>

</ COLUMN >

</ ROW >

!

Trang 14

2.2 Làm sạch dữ liệu BAĐT

Ngày nay, các BAĐT đã được phổ biến và càng được quan tâm trong việc chia sẻ, xử lý, phân tích, và khám phá tri thức để có thể hỗ trợ cho các hoạt động chăm sóc sức khỏe và nghiên cứu y học Nhìn chung, BAĐT có những đặc điểm như sau:

− Cấu trúc của các BAĐT: các BAĐT có phần nội dung dữ liệu đơn giản được cấu trúc hóa và cũng có phần nội dung văn bản và hình ảnh phức tạp dạng phi cấu trúc

− Dữ liệu văn bản lâm sàng được diễn đạt bằng ngôn ngữ tự nhiên Đối với các BAĐT tiếng Viết, dữ liệu văn bản đôi khi có ghi kèm với các thuật ngữ tiếng Anh

− Dữ liệu văn bản lâm sàng được ghi lại với những câu ngắn, không đầy đủ thành phần, và đôi khi việc phân tách trong câu thường không rõ ràng

− Nội dung văn bản lâm sàng thường được hình thành trong thời gian ngắn do áp lực ghi nhận trên thực tế của các BAĐT này Do đó, thường văn bản lâm sàng có nhiều từ viết tắt và lỗi chính tả Đôi khi, văn bản lâm sàng được viết với nhiều dạng khác nhau của các từ-ngữ y khoa

− Dữ liệu văn bản lâm sàng trong các BAĐT này có thể có thông tin riêng của bệnh nhân

− Các đặc điểm như trên của các BAĐT đã tạo nhiều thách thức và khó khăn cho việc xử lý tự động và chia sẻ dữ liệu trong lĩnh vực y học và các lĩnh vực nghiên cứu liên quan Chính vì thế, mục tiêu chính của phần nội dung này, nội dung 2 của đề tài, là chuẩn bị các BAĐT cho các công tác xử lý tự động, phân tích, và khám phá tri thức sau này từ các BAĐT Đó chính là việc chuyển các BAĐT thành cơ sở dữ liệu (CSDL) thứ cấp Hai vấn đề chính cần được thực hiện cho nội dung này là làm sạch dữ liệu thô ban đầu thu thập được của các BAĐT và thực hiện lọc thông tin riêng liên quan đến các bệnh nhân ứng với các BAĐT này Vấn đề thứ nhất chủ yếu xử lý các ghi chú được ghi nhận với ngôn ngữ tự nhiên trong các BAĐT để các ghi chú này được “sạch”, nghĩa là “có thể hiểu được” bởi những cá nhân khác ngoài bản thân bác sĩ, y tá, hay điều dưỡng ghi nhận các ghi chú này Vấn đề thứ hai chủ yếu rút trích và thay đổi các nội dung trong các ghi chú cũng được ghi nhận với ngôn ngữ tự nhiên trong các BAĐT để đảm bảo các bệnh nhân tương ứng không thể được xác định khi các BAĐT của họ được xử lý ở các giai đoạn sau đó

Chi tiết của mỗi vấn đề trên đã được tiến hành cho đến hiện nay như trình bày ở các mục sau đây

2.2.1 Tổng quan về vấn đề làm sạch BAĐT

Như được xem xét trong [26, 27] về việc phân nhóm các dạng nhiễu trong dữ liệu văn bản y khoa của các dịch vụ tư vấn y khoa qua điện thoại, nhiễu tường minh (explicit noise) bao gồm các lỗi chính tả (spelling error), các từ viết tắt (abbreviation/unspecified acronym), các câu chưa hoàn chỉnh (unfinished sentence), các dấu phân tách câu bị bỏ qua (omission of sentence delimiters), và các dạng thể khác nhau của từ (variants of terms); trong khi đó, nhiễu ẩn (implicit noise) bao gồm các thông tin không liên quan đến bệnh nhân (non-patient information) và các thông tin không đáng tin cậy của bệnh nhân (patient’s untrustworthy information) Những dạng nhiễu này vẫn có khả năng hiện diện trong dữ liệu văn bản của các bệnh án điện tử được ghi nhận trong quá trình khám-chữa bệnh của bệnh nhân Ngoài ra, nhóm nghiên cứu cũng nhận thấy rằng các nhiễu ở dạng nhiễu ẩn chỉ có thể phát hiện và xử lý trong điều kiện các nhiễu ở dạng nhiễu tường minh đã được phát hiện và xử lý Do đó, cho vấn đề làm sạch dữ liệu văn bản trong bệnh án điện tử, nhóm nghiên cứu đề xuất việc xem xét giải pháp gồm 2 giai đoạn tuần tự là: (1) lọc nhiễu tường minh; (2) lọc nhiễu ẩn Ở phần xử lý hiện tại, nhóm nghiên cứu xem xét giải pháp cho giai đoạn lọc nhiễu tường minh với các dạng nhiễu gồm lỗi chính tả, từ viết tắt, và các dạng thể khác nhau của

Trang 15

từ gọi là từ đồng nghĩa (synonym); trong đó, các câu chưa hoàn chỉnh và các dấu phân tách câu bị

bỏ qua thuộc phạm vi xử lý của bài toán phân đoạn từ (word segmentation)

Vấn đề soát lỗi chính tả

Do mỗi ngôn ngữ có đặc điểm chính tả và ngữ pháp khác nhau nên việc soát lỗi chính tả được giải quyết với những giải pháp rất cụ thể cho mỗi ngôn ngữ Những khác biệt giữa các ngôn ngữ dẫn đến giải pháp cho việc soát lỗi chính tả được phát triển cho một ngôn ngữ cụ thể rất khó có thể được biến đổi để áp dụng hiệu quả cho một ngôn ngữ khác Ngoài ra, mục tiêu sau cùng của đề tài nhằm khai thác dữ liệu y khoa và bệnh án điện tử tiếng Việt Chính vì thế, nhóm nghiên cứu xem xét vấn đề soát lỗi chính tả cụ thể và trực tiếp trên dữ liệu văn bản trong các bệnh án điện tử tiếng Việt Do đó, trong phần tổng quan về các công trình liên quan dành cho vấn đề này, nhóm nghiên cứu bỏ qua những công trình liên quan trên thế giới đã được đề xuất cho các ngôn ngữ khác như tiếng Anh, tiếng Trung Quốc, tiếng Hàn, tiếng Thụy Điển, tiếng Hungarian,

Vào năm 1994, trong công trình [38], GS Nhàn đã giới thiệu một số vấn đề liên quan đến việc soát lỗi chính tả không cần dùng đến từ điển như sau Việc soát lỗi chính tả trong tiếng Việt chính là việc đánh dấu các chữ không là chữ tiếng Việt Ngoài ra, do tiếng Việt có số lượng chữ viết giới hạn (đếm và liệt kê được) nên việc soát lỗi chính tả trong tiếng Việt có thể được thực hiện bởi một thủ tục dựa trên quy tắc để khẳng định liệu một chuỗi có hoặc không có dấu phân tách có phải là chữ tiếng Việt hay không Do đó, có thể thấy rằng vấn đề nhận diện lỗi chính tả trong các BAĐT tiếng Việt có thể thực hiện được một cách đơn giản

Nhiều hơn việc nhận diện lỗi chính tả tiếng Việt, một số công trình ngày nay như [22, 24, 36, 37] xem xét việc nhận diện và hiệu chỉnh lỗi chính tả tiếng Việt và do đó, các công trình này xem xét thêm phần ngữ cảnh của mỗi chữ đang được soát lỗi chính tả Bảng 2.1 tóm tắt các công trình này

Bảng 2.1 Tóm tắt về các công trình soát lỗi chính tả tiếng Việt Năm Công trình-

Mô hình bi-gram, edit distance, SoundEx algorithm

Mô hình 5-gram nhưng dùng kết quả của mô hình 3-gram để xấp xỉ xác suất cho mô hình 5-gram, edit distance, ngữ cảnh với các chữ xung quanh

Trang 16

chính tả, và từ điển để nhận diện chữ có lỗi chính tả; và (2) chưa có công trình liên quan thực hiện cho các văn bản lâm sàng trong lĩnh vực y tế

Vấn đề giải nghĩa cho từ viết tắt

Vấn đề giải nghĩa cho từ viết tắt được thực hiện khá nhiều cho các văn bản y khoa trong các kho ngữ liệu y sinh học Tuy nhiên, việc xem xét cho các từ viết tắt trong các văn bản lâm sàng là một vấn đề nhiều thách thức Lí do là những từ viết tắt trong các văn bản lâm sàng thường không đi kèm với các định nghĩa của chúng, mang tính quy ước ngầm trong cộng đồng tạo và sử dụng những văn bản lâm sàng này, và thường được sử dụng trong hầu hết các văn bản lâm sàng Theo [31], các từ viết tắt thường được sử dụng do tính phổ biến nhưng đôi khi cũng phụ thuộc vào ngữ cảnh Như được nhận định trong [7], việc giải nghĩa đầy đủ cho các từ viết tắt là việc cấp thiết nhằm đảm bảo không có nhầm lẫn hay các diễn dịch khác nhau cho cùng một từ viết tắt và do đó,

có thể giúp các văn bản lâm sàng được rõ ràng

Một trong những công trình đầu tiên giải quyết vấn đề về các từ viết tắt với phương pháp dựa trên học máy, [49] đã định nghĩa 4 phương pháp phát hiện từ viết tắt trong các ghi chú lâm sàng như: phương pháp dựa trên danh sách, phương pháp dựa trên quy tắc, và 2 phương pháp dựa trên học máy với cây quyết định C4.5 Phương pháp dựa trên danh sách khai thác 2 danh sách phổ biến

là danh sách của Knuth gồm 110.573 từ tiếng Anh của Mỹ và danh sách thuật ngữ y khoa gồm

9.721 từ Phương pháp dựa trên quy tắc dùng các luật dạng if-then được tạo ra dựa trên kinh

nghiệm dùng dạng của từ và hai danh sách đã dùng ở phương pháp dựa trên danh sách ở trên Phương pháp dựa trên học máy với cây quyết định C4.5 thứ nhất dùng một số ít đặc trưng về dạng

từ và tần số xuất hiện trong kho ngữ liệu Trong khi đó, phương pháp dựa trên học máy thứ hai khai thác nhiều đặc trưng hơn với dạng của chữ, tần số xuất hiện trong kho ngữ liệu, xem xét liệu

từ có là từ tiếng Anh, xem xét liệu từ có là một thuật ngữ y khoa đã biết Kết quả trả về cho thấy phương pháp dựa trên học máy thứ hai cho độ xác đáng cao nhất với các thực nghiệm được thực hiện trên 10 ghi chú nhập viện được chọn ngẫu nhiên từ kho dữ liệu New York Presbyterian Hospital (NYPH) Clinical Data Repository (CDR); trong đó, 6 ghi chú được dùng cho huấn luyện

và 4 ghi chú được dùng cho kiểm tra Công trình này cũng xây dựng 3 kho nghĩa cho các từ viết tắt từ UMLS và cơ sở dữ liệu ADAM: kho nghĩa đầu tiên chỉ từ UMLS, kho nghĩa thứ hai từ UMLS và các thuật ngữ được viết tắt được trích từ UMLS, và kho nghĩa thứ 3 từ cơ sở dữ liệu viết tắt ADAM Nhóm tác giả cũng nhận thấy rằng UMLS là nguồn thông tin phù hợp cho việc xác định các nghĩa của các từ viết tắt

Về sau này, vào năm 2011, Wu và các cộng sự cũng sử dụng các phương pháp học máy với cây quyết định, máy vector hỗ trợ (support vector machine, SVM), và rừng ngẫu nhiên (random forest) để phát hiện các từ viết tắt trong các tóm tắt xuất viện trong công trình [46] Năm nhóm đặc trưng được khai thác cho bài toán; tuy nhiên đáng lưu ý là kết quả tốt nhất lại không bao gồm nhóm đặc trưng ngữ cảnh Do đó, có khả năng là việc xác định ngữ cảnh của công trình này chưa thật sự phù hợp cho bài toán Các thực nghiệm được thực hiện với 70 văn bản lâm sàng đã được chú thích và được lựa chọn ngẫu nhiên từ 560.650 bản tóm tắt xuất viện của cơ sở dữ liệu Vaderbilt Medical Center’s Synthetic Drivative chứa các bản sao của các bản tóm tắt đã được lọc thông tin riêng từ các BAĐT ở bệnh viện Vanderbilt University Hospital Kết quả thực nghiệm cho thấy rừng ngẫu nhiên hiệu quả nhất nhưng không phát hiện được các từ viết tắt đơn và chưa được biết trước; trong khi đó, SVM lại có thể phát hiện những từ viết tắt đơn và chưa được biết trước này Sau đó, nhóm tác giả cũng kết hợp kết quả từ 3 bộ phân lớp để nhận diện từ viết tắt theo

Trang 17

cơ chế bầu cử và kết quả tổng hợp là hiệu quả nhất khi một token được dự báo là từ viết tắt bởi 1 trong 3 bộ phân lớp này Tuy thế mà nhóm tác giả cũng ghi chú rằng phương pháp hiện tại gặp khó khăn trong việc nhận diện các từ viết tắt gồm nhiều token và những từ viết tắt tương tự với các chữ tiếng Anh thông thường cũng như những từ viết tắt không được ghi nhận trước trong tập huấn luyện Tương tự công trình [49] của Xu và các cộng sự, tập dữ liệu huấn luyện và kiểm tra của công trình này tương đối nhỏ

Nhóm tác giả này cũng đã tham dự cuộc thi chuẩn hóa từ viết tắt trong các ghi chú lâm sàng vào các mã khái niệm trong Unified Medical Language System (UMLS Concept Unique Identifier, CUI) vào năm 2013 của tổ chức ShARe/CLEF eHealth Evaluation Lab và đạt được kết quả cao nhất trong số những nhóm tham gia Công trình tương ứng của nhóm tác giả này được trình bày trong [47] Khi này, tập dữ liệu của cuộc thi lớn hơn nhiều so với tập dữ liệu đã được dùng trong hai công trình [46, 49] được tham khảo ở trên Cụ thể là tập dữ liệu gồm 298 ghi chú lâm sàng; trong đó, tập huấn luyện gồm 199 ghi chú lâm sàng và tập kiểm tra gồm 99 ghi chú lâm sàng Để giải quyết cho bài toán của cuộc thi, Wu và các cộng sự đã tiến hành chuẩn hóa các từ viết tắt theo 3 bước: (1) tìm các nghĩa của mỗi từ viết tắt; (2) gán nghĩa đúng cho mỗi lần xuất hiện của từ viết tắt; và (3) ánh xạ chuỗi tương ứng nghĩa đúng đến một UMLS CUI Trong bước (1), nhóm tác giả đã dùng kho ngữ liệu huấn luyện bao gồm tất cả các từ viết tắt và những nghĩa của chúng đã được chú thích trong tập huấn luyện kết hợp với cơ sở tri thức hiện tại dành cho các

từ viết tắt là UMLS LRABR, ADAM, và danh sách từ viết tắt của Berman trong [3] Để thực hiện bước (2), nhóm tác giả đã dùng phương pháp học máy với SVM, kết hợp phương pháp dựa trên hồ

sơ, và phương pháp bầu cử dựa trên số đông Khi đã xác định được nghĩa đúng của từ viết tắt, nhóm tác giả thực hiện mã hóa từ viết tắt với UMLS CUI tương ứng trong bước (3) Độ chính xác cao nhất mà nhóm tác giả đạt được trong cuộc thi này là 71.9%

Gần đây nhất, nhóm tác giả này đã thực hiện việc giải nghĩa đúng cho các từ viết tắt với phương pháp dựa trên học giám sát với SVM có dùng các đặc trưng trích từ neural word embedding như được giới thiệu trong [48] vào năm 2015 Trong công trình này, việc nhận diện các từ viết tắt trong các ghi chú lâm sàng không được trình bày Cho phần phân giải nhập nhằng giữa các nghĩa của các từ viết tắt, Wu và các cộng sự đã khai thác các đặc trưng khác nhau như: (1) nhóm đặc trưng về dạng của chữ trong cửa sổ kích thước là 3 của từ viết tắt; (2) đặc trưng về hướng; (3) đặc trưng về vị trí; và (4) đặc trưng neural word embedding với các cách kết hợp khác nhau Trong phần thực nghiệm, nhóm tác giả đã dùng kho ngữ liệu MIMIC II gồm 403.871 ghi chú lâm sàng Tập dữ liệu cho phần đánh giá với phương pháp đánh giá chéo 10-fold bao gồm các ghi chú nhập viện VUH có 25 từ viết tắt trong 200 câu và các ghi chú lâm sàng UMN có 75 từ viết tắt trong 500 câu Các câu này được chọn ngẫu nhiên và chú thích thủ công bởi các chuyên gia miền Kết quả tốt nhất trên tập VUH là 93.01% và trên tập UMN là 95.79%

Cũng trong năm 2015, trong công trình [30], Liu và các cộng sự đã giới thiệu phương pháp giải nghĩa đúng cho các từ viết tắt trong các ghi chú lâm sàng dựa trên phương pháp truy hồi thông tin với độ tương tự ngữ nghĩa Nhóm tác giả đã xác định các tài nguyên cho bài toán từ các nguồn

dữ liệu ngoài như 42.506 bài báo Wikipedia, 6 bài báo khoa học, và 2 sách y khoa để xây dựng kho nghĩa bao hàm được tất cả các dạng đầy đủ dự tuyển cho mỗi từ viết tắt Sau đó, nhóm tác giả dùng word embeddings để biểu diễn ngữ nghĩa phân bố của các từ viết tắt và các dự tuyển này và dùng độ tương tự ngữ nghĩa giữa từ viết tắt và các dự tuyển Sau cùng, nhóm tác giả kết hợp độ tương tự ngữ nghĩa và độ đo xếp hạng phổ biến (rating score) của mỗi dự tuyển trong các nguồn

dữ liệu để quyết định nghĩa đúng với dạng đầy đủ của mỗi từ viết tắt Các thực nghiệm của công

Trang 18

trình này được thực hiện với 818 từ viết tắt và 42.506 dự tuyển Kết quả thực nghiệm cho độ chính xác là 82.27% Lưu ý rằng nhóm tác giả đã giới thiệu là việc nhận diện từ viết tắt được xử lý với các biểu thức chính quy; tuy nhiên, không trình bày các biểu thức chính quy được đề cập này Dựa trên quá trình giải quyết vấn đề chung của vấn đề này, giải pháp cho vấn đề nhận diện và

mở rộng từ viết tắt này được đề xuất trong các công trình liên quan ở trên được tóm tắt như sau:

Bước (1) Hiệu chỉnh lỗi chính tả bán phần

• Phổ biến cho tiếng Anh và tiếng Việt

o Nhận diện lỗi chỉnh tả dùng từ điển, quy tắc, mô hình n-gram

o Hiệu chỉnh lỗi chính tả với quá trình tương tác

• Cần xem xét thêm ngữ nghĩa

• Cần xem xét thêm ngữ cảnh lâm sàng (clinical context)

Bước (2) Nhận diện các viết tắt

• Xu và các cộng sự, 2007, trong [49] dùng danh sách, luật, và cây quyết định

• Wu và các cộng sự, 2011, trong [46] dùng cây quyết định, SVM, và rừng ngẫu nhiên

• Liu và các cộng sự, 2015, trong [30] dùng các biểu thức chính quy

Bước (3) Xây dựng kho nghĩa (sense inventory) của các viết tắt

• Xu và các cộng sự, 2007, trong [49] dùng UMLS, ADAM

• Wu và các cộng sự, 2013, trong [47] dùng kho ngữ liệu huấn luyện, UMLS LRABR, ADAM, danh sách từ viết tắt của Berman trong [3]

• Liu và các cộng sự, 2015, trong [30] dùng các bài báo trên Wikipedia, các bài báo khoa học, và sách liên quan

• Wu và các cộng sự, 2015, trong [48] dùng kho ngữ liệu MIMIC II gồm 403,871 ghi chú lâm sàng của tổ chức Multiparameter Intelligent Monitoring

Bước (4) Phân giải nhập nhằng cho các viết tắt và thay cụm từ đầy đủ của viết tắt

• Wu và các cộng sự, 2013, trong [47] dùng SVM, profile, và cơ chế số đông

• Wu và các cộng sự, 2015, trong [48] dùng SVM với đặc trưng word embedding (được gọi là: deep neural networks for word embeddings)

• Liu và các cộng sự, 2015, trong [30] dùng độ tương tự ngữ nghĩa với word embeddings và điểm xếp hạng

Nhóm nghiên cứu nhận thấy rằng không có công trình nào xem xét đầy đủ các bước xử lý của vấn đề nhận diện và giải nghĩa đầy đủ cho các từ viết tắt trong các văn bản lâm sàng tiếng Anh với hiệu quả cao trên lượng dữ liệu lớn Hơn nữa, tập đặc trưng được xem xét trong các công trình liên quan dựa trên phương pháp học máy còn đơn giản, chưa khai thác được các ngữ cảnh gồm các từ lân cận của mỗi từ viết tắt, và chưa xem xét được cho những từ viết tắt mới chưa được biết trước trong các BAĐT mới theo thời gian Do đó, vấn đề này có thể xem là vẫn chưa được giải quyết để làm rõ nội dung của các văn bản lâm sàng và từ đó, gia tăng tính khả đọc của các văn bản này và quan trọng hơn nữa là chuẩn bị dữ liệu cho các bước xử lý và phân tích sau đó trên các văn bản này Tương tự đối với các văn bản lâm sàng tiếng Việt, hiện nay chưa có công trình nào xem xét

và giải quyết vấn đề này để giúp gia tăng tính khả đọc của các BAĐT tiếng Việt

Vấn đề rút trích tập từ đồng nghĩa

Cho đến nay trên thế giới, các công trình liên quan nhận định việc cần thiết của tập các từ đồng nghĩa nhằm hỗ trợ cho các vấn đề xử lý khác trên dữ liệu văn bản y khoa (medical text) và văn bản

Trang 19

lâm sàng (clinical text) như truy hồi thông tin với khả năng mở rộng truy vấn dựa trên thuật ngữ đồng nghĩa [52], gia tăng tính khả đọc của các văn bản bằng cách liên kết các từ khó với các từ đồng nghĩa trên các tài nguyên trên Internet [2], và hỗ trợ xây dựng các từ điển đồng nghĩa cho các ngôn ngữ khác với tiếng Anh [21], và cũng như bổ sung tập từ đồng nghĩa cho các từ điển đồng nghĩa hiện tại như Blair và các cộng sự của công trình [5] đã đo đạc và ghi nhận việc thiếu từ đồng nghĩa này, Nhiều công trình đầu tư các giải pháp cho các văn bản tiếng Anh như các công trình [6, 18, 23, 32, 35, 44, 51, 52] và một số công trình như [19, 20, 21] đã và đang xem xét cho các văn bản thuộc tiếng Thụy Điển Dành cho các văn bản y khoa và văn bản lâm sàng tiếng Việt, nhóm nghiên cứu nhận thấy chưa có công trình nào xem xét vấn đề liên quan đến việc nhận diện

và rút trích tập từ đồng nghĩa

Trong giai đoạn trước của những năm 2000, đa số công trình thực hiện việc trích dẫn tập thuật ngữ đồng nghĩa từ các văn bản khoa học trong lĩnh vực y sinh học Một số công trình tiêu biểu là [6, 32, 51] Trong công trình [51] vào năm 2003, Yu và các cộng sự đề xuất giải pháp cho vấn đề rút trích các thuật ngữ đồng nghĩa về protein và gien từ các văn bản khoa học trong lĩnh vực sinh học với 4 cách tiếp cận khác nhau: học không giám sát (unsupervised learning), học giám sát bán phần (partially supervised learning), học giám sát (supervised learning), và cách tiếp cận dựa trên tri thức thủ công với các mẫu rút trích tên đồng nghĩa trong cùng câu như “also called” và “known as” Phương pháp học không giám sát dựa trên độ tương tự về ngữ cảnh và khi đó, những tập từ có ngữ cảnh tương tự nhau được cho là tương tự nhau về nghĩa và là đồng nghĩa của nhau Phương pháp học giám sát bán phần dựa trên cách tiếp cận bootstrapping dùng một tập hạt giống (seed) ban đầu của quan hệ đồng nghĩa do người dùng cung cấp và dẫn ra các mẫu trích xuất quan hệ đồng nghĩa để xác định các tập đồng nghĩa mới; sau đó, gia tăng tập hạt giống với các tập mới được xác định có độ tin cậy cao (> 0.6) và lặp lại Phương pháp học giám sát dùng mô hình phân lớp SVM để phân biệt ngữ cảnh có chứa cặp thuật ngữ đồng nghĩa (ví dụ: A, also known as B) và ngữ cảnh không có chứa cặp thuật ngữ đồng nghĩa (ví dụ: A regulates B) Sau đó, nhóm tác giả thực hiện kết hợp kết quả của phần rút trích thủ công với kết quả của các phương pháp dựa trên học máy gồm học giám sát bán phần và học giám sát Phần thực nghiệm sử dụng tập dữ liệu gồm 52.000 bài báo khoa học từ các tạp chí: Science, Nature, Cell, EMBO, Cell Biology, PNAS, và Journal of Biochemistry; trong đó, 20.000 bài báo cho phần phát triển phương pháp và 32.000 bài báo cho phần kiểm tra Cho phần học giám sát bán phần và học giám sát, khoảng 650 cặp tên đồng nghĩa về gien và protein đã biết trước được dùng Cho phần đánh giá, tập dữ liệu chuẩn gồm những cặp đồng nghĩa đúng xuất hiện trong 52.000 văn bản ở trên được xây dựng từ cơ sở dữ liệu SWISSPROT Tập dữ liệu chuẩn này được gọi là GoldStandard, bao gồm 989 cặp đồng nghĩa về gien và protein xuất hiện chung với nhau trong ít nhất 1 câu trong tập dữ liệu gồm 52.000 văn bản

ở trên Nhóm nghiên cứu nhận thấy công trình này chỉ xem xét giai đoạn xác định quan hệ đồng nghĩa giữa các cặp tên protein hoặc gien Các tên protein hoặc gien này đã được nhận diện trước

từ văn bản y khoa bởi bộ nhận diện thực thể có tên cho protein và gien Kết quả cho thấy việc kết hợp các kết quả từ các phương pháp học giám sát, giám sát bán phần, và dựa trên tri thức thủ công hiệu quả hơn các phương pháp riêng lẻ Lưu ý là việc rút trích được thực hiện cho các văn bản khoa học và có đặc điểm là các tên đồng nghĩa thường được xuất hiện chung với nhau trong cùng câu và thường xuất hiện ở phần đầu của văn bản Do đó, nếu bài toán xem xét việc liên kết các văn bản với nhau thông qua tập thuật ngữ đồng nghĩa thì phương pháp của công trình [51] này cần được xem xét hiệu chỉnh cho phù hợp

Trang 20

Trong năm 2005, Cohen và các cộng sự, nhĩm tác giả của cơng trình [6] đã dùng cấu trúc mạng đồng xuất hiện để rút trích các tên protein và gien đồng nghĩa từ các bản tĩm tắt MEDLINE dựa trên cách thức giải quyết vấn đề trong phân tích mạng tốn học Cho phần thực nghiệm, tập

dữ liệu huấn luyện, đánh giá, và kiểm tra được trích từ khoảng 50.000 bản tĩm tắt từng năm 2001,

2002, và 2003 của MEDLINE Các bản tĩm tắt này đều chứa từ “gene” Cho phần đánh giá so sánh với cơng trình [51], tập dữ liệu chuẩn cũng được chuẩn bị từ các cơ sở dữ liệu như: SWISSPROT, FlyBase, Genew, LocusLink, MGI, và SGD Tập dữ liệu chuẩn này cĩ 483 cặp thuật ngữ đồng nghĩa Kết quả đạt được của cơng trình [6] này tốt hơn kết quả của phương pháp học giám sát bán phần SNOWBALL được giới thiệu trong cơng trình [51] của nhĩm tác giả Yu và các cộng sự ; nhưng vẫn khơng tốt bằng phương pháp tổng hợp trong cơng trình [51] Lưu ý là cơng trình này cũng như cơng trình [51] chỉ xem xét cho những cặp tên đồng nghĩa xuất hiện cùng nhau trong 1 câu của các văn bản khoa học trong lĩnh vực y sinh học theo những mẫu rút trích (extraction pattern) cĩ thể được rút trích và tổng quát hĩa được

Trong năm 2008, McCrae và các cộng sự trong cơng trình [32] đã rút trích tập từ đồng nghĩa

từ các văn bản khoa học trong lĩnh vực y sinh học bằng cách khám phá mẫu từ vựng với Nạve Bayes, logistic regression, C4.5, và SVM trong WEKA Kết quả cho thấy logistic regression cho các xác suất phù hợp cho việc hình thành các synset sau đĩ Do đĩ, sau khi thực hiện phân lớp với SVM, nhĩm tác giả áp dụng logistic regression trên tập kết quả để cĩ được các xác suất hậu nghiệm tương ứng cho mỗi cặp thuật ngữ đồng nghĩa Cho phần thực nghiệm, cơng trình [32] đã dùng tập dữ liệu huấn luyện được trích từ cơ sở tri thức English section of the BioCaster ontology với 4 kiểu: bệnh truyền nhiễm (infectious disease), triệu chứng (symptom) của bệnh truyền nhiễm, tác tử (agent), và chủ thể (host) Tập dữ liệu kiểm tra gồm các thuật ngữ thuộc 4 kiểu trên được chuẩn bị thủ cơng từ 150 bản tĩm tắt của PubMed cĩ chứa thuật ngữ “infectious diseases” Các tập

dữ liệu kết quả cụ thể là: tập BioCaster gồm 450 thuật ngữ được nhĩm thành 244 synset và cĩ 477 cặp đồng nghĩa; tập kiểm tra gồm 301 thuật ngữ, 221 synset, và 101 cặp đồng nghĩa Tập BioCaster và tập kiểm tra cĩ chung 35 thuật ngữ và 16 cặp đồng nghĩa Các mẫu và thống kê được thực hiện từ kho ngữ liệu lớn khác được xây dựng từ cơ sở dữ liệu của PubMed với tất cả các thuật ngữ cĩ trong tập huấn luyện và kiểm tra ở trên Kho ngữ liệu này dựa trên 250 bản tĩm tắt cho mỗi thuật ngữ cĩ thứ hạng cao từ kết quả tìm kiếm, khơng bao gồm các văn bản trùng nhau Kết quả của kho ngữ liệu gồm 83.492 văn bản, 1.506.042 câu; trong đĩ, cĩ 46.216 câu chứa các cặp thuật ngữ trong tập huấn luyện trước đĩ Kết quả hiện tại của cơng trình này khơng cao Do

đĩ, nhĩm tác giả đã nhấn mạnh việc dùng bộ nhận diện thực thể cĩ tên (named entity recognizer, NER) để tự động hĩa việc rút trích các ngữ danh từ và từ đĩ cĩ thể phát triển được từ điển đồng nghĩa lớn; cũng nhấn mạnh tập mẫu hiện tại cĩ độ xác đáng (precision) cao nhưng độ phủ (recall) thấp và từ đĩ cần chú trọng việc tạo ra các mẫu cĩ độ phủ cao trong tương lai

Trong những năm 2010 và sau này, vấn đề khai thác văn bản y khoa và văn bản lâm sàng được quan tâm nhiều hơn Do đĩ, nhiều cơng trình đã xem xét việc nhận diện và rút trích các tập thuật ngữ đồng nghĩa trên văn bản lâm sàng và trên cả hai loại văn bản y khoa và văn bản lâm sàng như được trình bày trong các cơng trình [19, 20, 21, 51] Trong đĩ, vào năm 2012, cơng trình [51] hướng đến việc áp dụng tập thuật ngữ đồng nghĩa sẵn cĩ cho việc mở rộng truy vấn của bài tốn truy hồi thơng tin trên các văn bản lâm sàng tiếng Anh Cụ thể là Zeng và các cộng sự đã

mở rộng truy vấn dựa trên tập từ đồng nghĩa bằng phương pháp so trùng mẫu với các nguồn dữ liệu trong UMLS, cụ thể là SNOMED, MeSH, và ICD Nhĩm tác giả này đã khai thác 3 nguồn dữ liệu của UMLS: SNOMED, MeSH, và ICD để xác định các từ đồng nghĩa và các biến thể từ vựng

Trang 21

của các thuật ngữ truy vấn Hai tập dữ liệu mẫu tách biệt nhau được trích từ cơ sở dữ liệu VINCI Mỗi tập gồm 300 ghi chú lâm sàng Tập (1) dành cho bệnh nhân có từ 2 mã ICD9 (309.81) cho bệnh post-traumatic stress disorder (PTSD) Tập (2) dành cho bệnh nhân có từ 2 mã ICD9 (250.*) cho bệnh diabetes mellitus (DM) 19 câu truy vấn được dùng cho phần kiểm tra Mặc dù công trình này không liên quan trực tiếp đến bài toán nhận diện và rút trích tập thuật ngữ đồng nghĩa trong các văn bản lâm sàng nhưng nhóm nghiên cứu cũng lưu ý cho phần mở rộng truy vấn với tập

từ đồng nghĩa là: (1) công trình này đã không dùng toàn bộ dữ liệu trong UMLS mà chọn lọc những nguồn tài nguyên chủ yếu; (2) Số lượng thuật ngữ được mở rộng với tập từ đồng nghĩa nhiều hơn so với hai phương pháp mở rộng còn lại nên dễ dẫn đến độ xác đáng (precision) thấp;

và (3) ngữ cảnh của các từ đồng nghĩa trả về với thuật ngữ truy vấn không xem xét được

Từ năm 2012 đến 2014, Henriksson và các cộng sự đã có nhiều đầu tư cho các bài toán liên quan đến tập thuật ngữ đồng nghĩa như việc rút trích từ đồng nghĩa và mở rộng từ viết tắt trong [19], xây dựng từ điển đồng nghĩa SNOMED CT tiếng Thụy Điển [21], và rút trích được các từ đồng nghĩa có chiều dài khác nhau [18] Ngoài ra còn có công trình [20] là công trình trước của nhóm tác giả Henriksson và các cộng sự trong [19] Các quan hệ rút trích được chỉ xem xét cho các unigram Trong khi đó, công trình [19] được Henriksson và các cộng sự xem xét cho các từ đồng nghĩa có chiều dài khác nhau với phương pháp kết hợp các không gian ngữ nghĩa khác nhau (ensemble of distributional semantic spaces), có xem xét các mô hình phân bố khác nhau (random indexing và random permutation), các bộ thông số mô hình khác nhau và việc sử dụng 2 kiểu kho ngữ liệu khác nhau (văn bản lâm sàng và văn bản y khoa) Phần hậu xử lý cũng được thực hiện:

mở rộng từ viết tắt dựa trên quy tắc về đặc điểm của từ viết tắt từ từ nguyên bản ban đầu và rút trích tập từ đồng nghĩa dựa trên ngưỡng ngắt của thứ hạng và độ tương tự cosine của các cặp đồng nghĩa Tập dữ liệu văn bản lâm sàng được trích từ kho ngữ liệu tiếng Thụy Điển (Stockholm EPR Corpus) Kho ngữ liệu này bao gồm những bản ghi y tế từ bệnh viện the Karolinska University Hospital in Stockholm ở Thụy Điển được ghi nhận trong 5 năm Tập dữ liệu văn bản y khoa được trích từ Lakartidningen (1996-2005) là một tạp chí tiếng Thụy Điển xuất bản hàng tuần the Journal

of the Swedish Medical Association Kết quả cho thấy việc kết hợp các không gian ngữ nghĩa khác nhau có thể phản ánh được các khía cạnh ngữ nghĩa khác nhau của các từ và do đó, có thể cải thiện được hiệu quả giải quyết của bài toán mặc dù kết quả không cao

Trong công trình [18] trước đây, Henriksson và các cộng sự đã giới thiệu chi tiết của phương pháp rút trích các từ đồng nghĩa của các thuật ngữ trong SNOMED CT từ việc phân tích phân bố của các thuật ngữ trong kho ngữ liệu y tế MIMIC-II Cho phần thực nghiệm của công trình, nhóm tác giả đã sử dụng tập khái niệm chuẩn SNOMED CT (mỗi khái niệm bao gồm: Concept ID, Fully Specified Name, Preferred Term, và Synonym) và kho ngữ liệu lâm sàng MIMIC-II Kết quả đạt được minh họa được khả năng nhận diện các quan hệ đồng nghĩa giữa các thuật ngữ có chiều dài khác nhau dựa trên kho ngữ liệu lâm sàng MIMIC II Hiện tại, kết quả cho thấy hiệu quả rút trích không cao (recall của top 20 là 0.24 dành cho thuật ngữ đơn và là 0.16 dành cho thuật ngữ kép)

Do đó, như được nhóm tác giả nhận định, tập dự tuyển ban đầu từ mô hình n-gram (unigram, bigram, và trigram) có thể được cải tiến theo hướng tiếp cận khác, ví dụ như phân tích cú pháp không sâu (shallow parser), thay vì dùng mô hình n-gram

Trong công trình [21], Henriksson và các cộng sự đã xây dựng danh sách các thuật ngữ dựa trên kho ngữ liệu hiện có bằng việc cập nhật kho ý niệm SNOMED CT tiếng Thụy Điển với các từ đồng nghĩa trích từ các hồ sơ sức khỏe điện tử: phương pháp được thực hiện tương tự như phương pháp đã được giới thiệu ở công trình [18] của nhóm tác giả Henriksson và các cộng sự với điểm

Trang 22

khác biệt là sử dụng kho ngữ liệu Stockholm EPR corpus tiếng Thụy Điển và tập dữ liệu y khoa MeSH cho các thuật ngữ quan tâm và xử lý cho 2 kiểu ngữ nghĩa là disorder và finding với giá trị của các thông số khác nhau Nhóm tác giả cũng xem xét các thuật ngữ đồng nghĩa có chiều dài khác nhau từ mô hình n-gram, cụ thể là quan hệ đồng nghĩa giữa unigram và unigram; giữa unigram và multiword; và giữa multiword và unigram Cho phần thực nghiệm, nhóm tác giả đã dùng kho ngữ liệu Stockholm EPR corpus tiếng Thụy Điển gồm các hồ sơ sức khỏe từ bệnh viện Karolinska University Hospital in Stockhoml Kho ngữ liệu này dùng để phân tích phân bố ngữ nghĩa của các thuật ngữ quan tâm để tìm ra các thuật ngữ đồng nghĩa và cập nhật cho SNOMED

CT tiếng Thụy Điển Cho phần thuật ngữ truy vấn trong phần đánh giá kết quả rút trích các thuật ngữ đồng nghĩa, nhóm tác giả đã dùng danh sách thuật ngữ y học tiếng Thụy Điển MeSH chuẩn

có chứa các từ đồng nghĩa Nhóm nghiên cứu nhận thấy đây là công trình phù hợp cho việc tham khảo phương pháp xây dựng từ điển đồng nghĩa tiếng Việt có liên kết đến danh sách các thuật ngữ trên thế giới như SNOMED CT của UMLS và các thuật ngữ đã được dùng trong các bệnh án điện

tử tiếng Việt và các bài báo khoa học tiếng Việt trong lĩnh vực y học Kết quả cho thấy mô hình random permutation hiệu quả đối với không gian thuật ngữ kép Tuy nhiên, khó khăn với thuật ngữ kép là việc nhận diện thuật ngữ kép như là một đơn vị ngữ nghĩa (semantic unit) và sau đó là

mô hình hóa với không gian vector phân bố ngữ nghĩa hiện tại

Gần đây nhất là các công trình [23, 35, 44] Tuy nhiên, các công trình này không được đề xuất trực tiếp cho tập văn bản lâm sàng tiếng Anh cũng như tiếng Việt Trong đó, Nguyen và các cộng

sự, nhóm tác giả của công trình [35], đã đề xuất các cách tiếp cận khác nhau để biểu diễn các ngữ quan hệ trong văn bản y khoa trong mô hình không gian vector và sau đó, áp dụng thuật giải gom cụm k-means để nhóm các vector của các ngữ quan hệ tương tự nhau thành các nhóm Mỗi nhóm tương ứng với tập các quan hệ đồng nghĩa với nhau Các cách tiếp cận khác nhau để biểu diễn các ngữ quan hệ này trong không gian vector là: CBOW (Continuous bag-of-words), BOW (bag-of-words), và topic model với LDA-SP; trong đó, CBOW biểu diễn thành vector đặc trưng phân bố ứng với 3 cách thể hiện ngữ quan hệ dạng vai trò (role), dạng câu (sentence), hay dạng quan hệ (relation), BOW biểu diễn thành vector tần số, và LDA-SP biểu diễn thành vector xác suất thuộc

về đối với mỗi chủ đề của ngữ quan hệ tương ứng Ngoài ra, nhóm tác giả còn xem xét mô hình SNE (Semantic Network Extractor) với 2 mô hình MLN (Markov Logic Network) để rút trích tập các ngữ quan hệ đồng nghĩa Cho phần thực nghiệm, tập dữ liệu huấn luyện được chuẩn bị bởi PASMED từ 47 triệu quan hệ có qua quá trình lọc bỏ những quan hệ bị nhận diện sai Kết quả là tập dữ liệu gồm hơn 4 triệu quan hệ với 763.065 quan hệ duy nhất và 7.132 ngữ quan hệ duy nhất Các ngữ quan hệ và thực thể được trả về từ gốc và chữ viết thường Tập dữ liệu đánh giá dựa trên

dữ liệu của Nebot và Berlanga được chuẩn bị thủ công và kết quả là 286 ngữ quan hệ được nhóm thành 107 nhóm; trong đó, 7 nhóm đơn và kích thước nhóm trung bình là 3.7 Khác với các công trình rút trích tập từ đồng nghĩa trong các văn bản y khoa hay ghi chú lâm sàng thường là các danh từ/ngữ danh từ, công trình này rút trích tập từ đồng nghĩa dành cho các mối quan hệ được thể hiện bởi các động từ/ngữ động từ Kết quả cho thấy việc rút trích tập từ/ngữ quan hệ với mô hình CBOW hiệu quả so với SNE, LDA-SP, và BOW Với mô hình CBOW, việc biểu diễn các thành phần của một quan hệ đồng nghĩa dạng vai trò thường hiệu quả hơn dạng câu hay quan hệ Tuy nhiên, công trình này có giả định trước về việc rút trích ngữ quan hệ; nghĩa là các ngữ quan hệ đã được cho trước cho bài toán Do đó, khi xem xét cho các văn bản lâm sàng hay văn bản y khoa tiếng Việt, việc rút trích các thực thể có tên và sau đó là các quan hệ giữa các thực thể có tên này cần được thực hiện trước khi thực hiện nhận diện các quan hệ nào đồng nghĩa với các quan hệ nào

Trang 23

Trong công trình [44], Wang và các cộng sự đã xây dựng mô hình không gian ý niệm là một dạng mở rộng của mô hình Word2Vec để biểu diễn mỗi thuật ngữ y khoa là một vector bằng cách thêm tập nút xuất (output node) cho vector nhãn đúng để chỉ rằng liệu từ đó có được kết hợp với 1 trong 148 kiểu và nhóm ngữ nghĩa nào không trong UMLS Sau đó, nhóm tác giả xây dựng mô hình phân lớp tuyến tính để rút trích tập từ đồng nghĩa trong không gian ý niệm Khi này, không gian ý niệm bao gồm các đặc trưng term embedding dạng bán giám sát và các đặc trưng mở rộng dùng để mô tả sự tương tự giữa 2 từ trong cả 2 không gian: word embedding và thể hiện bề mặt của từ (surface form) Cho phần thực nghiệm, nhóm tác giả đã dùng tập dữ liệu khoảng 130 triệu câu và khoảng 15 triệu từ phân biệt trong tập từ vựng được rút trích từ các bài báo Wikipedia, các bài tóm tắt của MEDLINE (phiên bản 2013), và 20 tạp chí và sách y học Kích thước dữ liệu văn bản khoảng 20GB Nhóm nghiên cứu lưu ý về công trình này là công trình này được đề xuất cho các văn bản y sinh học tiếng Anh; chứ không xem xét cho văn bản lâm sàng hay các ghi chú trong quá trình khám chữa bệnh Kết quả đạt được của công trình này là việc rút trích tập từ y khoa đồng nghĩa hiệu quả hơn với mô hình không gian ý niệm truyền thống

Xa hơn, đề xuất của công trình [23] không dành cho lĩnh vực y sinh học mà dành cho các văn bản trên Web nói chung; tuy nhiên theo hướng tiếp cận mở, nghĩa là không có sự chỉ định trước về tập thuật ngữ cần được xác định tập thuật ngữ đồng nghĩa và cũng không có sự chỉ định trước về nguồn gốc của các tập thuật ngữ đồng nghĩa cần được xem xét Do đó, việc tham khảo công trình này có thể giúp hình thành giải pháp tổng quát cho việc nhận diện và rút trích tập từ đồng nghĩa cho các văn bản lâm sàng và văn bản y khoa tiếng Việt Cụ thể là Hu và các cộng sự, nhóm tác giả của công trình [23], đã rút trích tập đồng nghĩa dùng cách tiếp cận học máy dựa trên mô hình CRF với các đặc trưng ở mức từ và đặc trưng POS Các thực thể dự tuyển được lựa chọn từ các ngữ danh từ cơ bản và việc gán nhãn cho dữ liệu huấn luyện dựa trên các thực thể dự tuyển này dùng các quy tắc dựa trên kinh nghiệm cho cả 2 lớp âm và dương Cho phần thực nghiệm, nhóm tác giả

đã dùng hơn 20 triệu trang web chứa khoảng 2 tỉ câu được trích từ 4 nguồn chính là Wikipedia, Hudong-Baike, Baidu-Baike, và Soso-Baike, có xem thêm một số website khác Nhóm nghiên cứu nhận thấy rằng các cặp đồng nghĩa dự tuyển không được rõ ràng do các cặp này được giả định là những cặp thực thể liền kề trong khoảng cách cụ thể (ví dụ không quá 4 chữ) Ngoài ra, công trình này không có phần mô tả rõ ràng về tập dữ liệu huấn luyện và tập dữ liệu kiểm tra cụ thể, không có phần đánh giá cho giai đoạn gán nhãn của tập dữ liệu huấn luyện dùng các quy tắc dựa trên kinh nghiệm Có thể nhận thấy giả định về các cặp đồng nghĩa dự tuyển của công trình này tương tự như các quan sát của các nhóm tác giả trong các công trình [6, 51] trước đây Tuy nhiên, đặc điểm này không còn đúng cho việc rút trích các từ đồng nghĩa trong các văn bản lâm sàng

Chinese-Tóm lại, việc nhận diện và rút trích các từ đồng nghĩa cho các văn bản khoa học trong lĩnh vực y sinh học và các văn bản lâm sàng là một bài toán khó, phản ảnh qua các kết quả của các công trình liên quan chưa cao Đặc biệt là dành cho các văn bản lâm sàng, vấn đề vẫn chưa được xem xét và giải quyết chi tiết, thường chỉ là việc liên kết giữa các thuật ngữ trong các văn bản lâm sàng hoặc trong các truy vấn đến các từ điển đồng nghĩa sẵn có Việc áp dụng các giải pháp dành cho các văn bản khoa học dựa trên các mẫu rút trích (extraction pattern) không khả thi với các văn bản lâm sàng Lí do là việc ghi chú trong quá trình nhận-khám-chữa bệnh của các bệnh nhân không có kèm các khái niệm, tên hay diễn giải đồng nghĩa Do đó, khi chuẩn hóa các văn bản lâm sàng, liên kết các văn bản lâm sàng với nhau, hay gia tăng tính khả đọc của các văn bản lâm sàng,

Trang 24

tập từ đồng nghĩa cần được nhận diện và rút trích từ tập các văn bản lâm sàng này và cũng cần được liên kết đến các từ điển đồng nghĩa phổ biến sẵn có như các nguồn của UMLS

Cho vấn đề thứ nhất này, hiện tại, không có công trình nào liên quan đến việc soát chính tả, phân giải nghĩa cho các từ viết tắt, và rút trích các từ đồng nghĩa cho các ghi chú lâm sàng trong các BAĐT tiếng Việt Giải pháp được đề xuất cho vấn đề này là phương pháp lai, kết hợp phương pháp học máy (bán giám sát và không giám sát) và phương pháp dựa trên quy tắc và từ điển, theo

cơ chế lặp gia tăng để hỗ trợ cho các BAĐT mới được xử lý và khai thác trong tương lai

2.2.2 Giải pháp học giám sát với đặc trưng đa mức để nhận diện các từ viết tắt trong BAĐT

Trước khi đi vào chi tiết của giải pháp được đề xuất trong phần này, nhóm nghiên cứu định nghĩa vấn đề giải nghĩa cho từ viết tắt trong các ghi chú lâm sàng trong các BAĐT một cách tự động trong Hình 2.1 để từ đó, xác định nội dung cụ thể của giai đoạn nhận diện các từ viết tắt như sau:

Hình 2.1 Làm sạch các ghi chú lâm sàng với giải quyết từ viết tắt

Trong quá trình này, nhóm nghiên cứu xem xét 2 giai đoạn: (1) giai đoạn nhận diện từ viết tắt;và (2) giai đoạn phân giải nhập nhằng viết tắt Trong giai đoạn (1), việc nhận diện từ tắt liên quan đến việc rút trích phần văn bản trong các ghi chú lâm sàng mà các phần này là thể rút gọn (viết tắt) của các chữ, từ, hay cụm từ đầy đủ khác nhau Trong giai đoạn (2), việc phân giải nhập nhằng viết tắt nhằm xác định thể đầy đủ (nghĩa rõ) của mỗi viết tắt được xác định ở giai đoạn (1)

Do một thể đầy đủ có thể có nhiều dạng viết ngắn gọn, tức là có nhiều viết tắt được dùng thay cho thể đầy đủ và ngược lại, có thể có nhiều thể đầy đủ có cùng một thể viết tắt nên giai đoạn (2) cần thực hiện phân giải nhập nhằng cho mỗi viết tắt để xác định thể đầy đủ đúng của mỗi viết tắt Kết quả của giai đoạn (2) sẽ giúp thay thế các viết tắt trong các văn bản lâm sàng và khi này, các văn bản lâm sàng trở nên rõ ràng và dễ đọc hơn cho người đọc Hơn thế nữa, các văn bản lâm sàng sau khi được xử lý viết tắt có thể được dùng cho các hoạt động phân tích và khám phá tri thức tự động hiệu quả hơn

Cho giai đoạn nhận diện từ viết tắt, nhóm nghiên cứu xem tác vụ này là tác vụ phân lớp nhị

phân ở mức token (token-level binary classification task) Bài toán này được xem là tác vụ phân

lớp nhị phân vì bài toán cần nhận diện phần văn bản nào được trích từ các ghi chú lâm sàng trong các BAĐT là viết tắt Do đó, chúng ta đang xem xét hai nhóm phần văn bản: viết tắt (abbreviation, 1) và không viết tắt (non-abbreviation, 0), tương ứng hai lớp của tác vụ phân lớp Bài toán này được giải quyết ở mức token là do nhóm nghiên cứu xem xét đơn vị văn bản được trích dẫn từ các ghi chú lâm sàng cho bài toán là đơn vị token Khi này, chúng ta có tập các ghi chú lâm sàng có thể có các viết tắt trong đó Mỗi ghi chú lâm sàng bao gồm nhiều câu Mỗi câu bao gồm nhiều token Mỗi token là chuỗi ký số và/hoặc ký tự Sau đó, chúng ta sẽ nhận diện xem liệu token nào

là viết tắt và token nào không là viết tắt Cho giai đoạn phân giải nhập nhằng viết tắt, nhóm nghiên

Trang 25

cứu xem tác vụ này là tác vụ tìm kiếm thể đầy đủ của mỗi viết tắt trong một kho nghĩa (sense

inventory) cho trước Trong phần báo cáo này, nhóm nghiên cứu sẽ tập trung giới thiệu giải pháp

học máy với rút trích đặc trưng đa mức cho tác vụ phân lớp nhị phân ở mức token của giai đoạn nhận diện từ viết tắt Chi tiết của giải pháp được trình bày trong Hình 2.2 như sau:

Hình 2.2 Quá trình nhận diện viết tắt trong các ghi chú lâm sàng trong các BAĐT với rút trích

đặc trưng đa mức và phương pháp học giám sát

Trong đề xuất giải pháp hiện tại của nhóm nghiên cứu, quá trình này được tự động hóa trong không gian vec-tơ mà ở đó, mỗi token được biểu diễn thành một vec-tơ số học Cụ thể, quá trình nhận diện viết tắt này được thực hiện trong 3 phần: (A) phần chuẩn bị dữ liệu; (B) phần xây dựng

bộ nhận diện; và (C) phần nhận diện viết tắt Các phần này được chuẩn bị và thực thi tuần tự với nhau

Dữ liệu nhập của quá trình này là tập các ghi chú lâm sàng Do quá trình này dựa trên phương pháp học có giám sát nên tập các ghi chú lâm sàng này bao gồm 2 phần: phần huấn luyện và phần cần được nhận diện Trong phần huấn luyện, mỗi token đã được xác định trước là viết tắt hay không là viết tắt Khi này, mỗi token có chú thích viết tắt/không viết tắt đi kèm Trong phần cần được nhận diện, mỗi token chưa được biết là viết tắt hay là không là viết tắt Khi này, quá trình nhận diện cần xác định liệu mỗi token như vậy có thật sự là viết tắt hay không

Kết quả mong đợi của quá trình này là tập các token đã được xác định là viết tắt hoặc là không là viết tắt Các token được xác định là viết tắt sẽ là dữ liệu nhập của quá trình phân giải nhập nhằng viết tắt sau đó để các thể đầy đủ của các viết tắt cần được xác định và thay thế cho các viết tắt này trong các ghi chú lâm sàng sau đó

Với dữ liệu nhập và kết quả mong đợi của quá trình nhận diện như trên, mỗi phần của quá trình (Chuẩn bị dữ liệu, Xây dựng bộ nhận diện, và Nhận diện viết tắt) được thực hiện như sau:

Trang 26

(A) Chuẩn bị dữ liệu

Phần chuẩn bị dữ liệu đóng vai trò quan trọng trong việc biến đổi dạng phi cấu trúc (văn bản) của các ghi chú lâm sàng được diễn tả bằng ngôn ngữ tự nhiên thành các đối tượng ở dạng tính toán được Cụ thể là phần này sẽ giúp biểu diễn mỗi token trong các ghi chú lâm sàng thành một vec-tơ

số học trong không gian vec-tơ (vector space) được xác định bởi p chiều (dimension) Mỗi chiều tương ứng với một đặc trưng (feature) đặc tả một khía cạnh nào đó của mỗi token Trong tác vụ

này, nhóm nghiên cứu xem xét mỗi token ở các mức khác nhau từ mức chi tiết đến mức tổng quát;

cụ thể là: mức token (token level), mức câu (sentence level), và mức ghi chú (note level) Cách

thức xây dựng đặc trưng này được gọi là “kỹ thuật đặc trưng đa mức“ (level-wise feature engineering) nhằm nắm bắt các khía cách khác nhau của mỗi token ở các cấp độ chi tiết khác nhau

để có thể phân biệt các token giữa các nhóm viết tắt và không viết tắt hiệu quả hơn Cụ thể của các đặc trưng ở các mức được mô tả như sau:

(A.1) Các đặc trưng ở mức token Các đặc trưng này sẽ đặc điểm hóa bản thân mỗi token tùy vào

hình thức viết và nghĩa của mỗi token

− AnyDigit: đặc trưng này chỉ thị liệu token đang xét có chứa bất kỳ ký số nào không Nếu

có thì giá trị của đặc trưng này là 1 Nếu không thì là 0 Đặc trưng này giúp xác định các token không là viết tắt vì thường các viết tắt không bao gồm ký số ngoại trừ một số trường hợp đặc biệt ký số được dùng để nối các thành phần của thể đầy đủ của viết tắt hoặc dùng thay cho các thể đầy đủ của các số

− AnySpecialChar: đặc trưng này chỉ thị liệu token đang xét có chứa bất kỳ ký tự đặc biệt

nào không Nếu có thì giá trị của đặc trưng này là 1 Nếu không thì là 0 Thường thì các viết tắt không chứa các ký tự đặc biệt ngoại trừ “_“, „“-“, “.“

− AllConsonants: đặc trưng này chỉ thị liệu token đang xét có được hình thành từ tất cả các

phụ âm hay không Nếu có thì giá trị của đặc trưng này là 1 Nếu không thì là 0 Đa phần các viết tắt thường bao gồm toàn các phụ âm Tuy nhiên, một số viết tắt được hình thành

từ các ký tự đầu của mỗi chữ trong thể đầy đủ của viết tắt có thể bao gồm nguyên âm trong viết tắt

− Length: đặc trưng này chỉ thị số lượng ký tự trong token đang xét, gọi là chiều dài của

token Thường thì chiều dài của token không lớn do mục đích sử dụng của viết tắt là tiết kiệm thời gian ghi chép các thể đầy đủ của các viết tắt tương ứng

− inDictionary: đặc trưng này chỉ thị liệu token đang xét có trong từ điển y khoa cho trước

không Từ điển này được xem là nguồn tài nguyên chuyên ngành hỗ trợ giúp xác định ngữ nghĩa của các viết tắt Nếu có thì giá trị của đặc trưng này là 1 Nếu không thì là 0 Việc sử dụng từ điển này giúp xác định các token không là viết tắt do mỗi mục trong từ điển này được viết ở thể đầy đủ

− isAcronym: đặc trưng này chỉ thị liệu token đang xét có là dạng viết tắt chữ đầu trong từ

điển y khoa cho trước không Nếu có thì giá trị của đặc trưng này là 1 Nếu không thì là

0

(A.2) Các đặc trưng ở mức câu Các đặc trưng này giúp xác định ngữ cảnh xung quanh của mỗi

token Khác với các công trình liên quan, ngữ cảnh xung quanh của mỗi token trong giải pháp của

nhóm nghiên cứu được xây dựng dựa trên mô hình túi từ liên tục (continuous bag-of-words

Trang 27

(CBOW) model) Trong mô hình này, mỗi chữ (token, word) được biểu diễn thành một vec-tơ liên

tục trong không gian vec-tơ dựa trên các chữ trong ngữ cảnh xung quanh chữ đang xét Do đó, mô hình giúp xây dựng các đặc trưng ngữ cảnh ở mức câu cho mỗi token mà tác vụ đang xét

(A.3) Các đặc trưng ở mức ghi chú Các đặc trưng này giúp phân biệt các token là viết tắt hay

không là viết tắt ở mức ghi chú do các viết tắt thường được sử dụng trong sự quy ước giữa các thành viên của một cộng đồng cụ thể và khi này, các viết tắt có tính phổ biến, có tính lặp lại trong một tập các ghi chú được giả định là đầy đủ của một cộng đồng cụ thể này Do đó, nhóm nghiên cứu nắm bắt tần suất xuất hiện của mỗi token trong một tập ghi chú đầu vào của tác vụ

Kết quả đạt được của kỹ thuật đặc trưng đa mức của phần này là không gian vec-tơ gồm p

chiều; trong đó, có tp chiều ở mức token, sp chiều ở mức câu, và np chiều ở mức ghi chú với tp =

6, sp = V với V là kích thước tầng xuất của mô hình CBOW, và np = 1 Trong không gian này,

mỗi token của tập dữ liệu nhập được biểu diễn thành mỗi vec-tơ với các giá trị được xác định như phần mô tả ở trên Riêng cho mỗi token thuộc phần huấn luyện, thông tin về lớp viết tắt/không viết tắt của token sẽ được gán tương ứng cho giá trị lớp của vec-tơ tương ứng Khi này, các vec-tơ

này gọi là các vec-tơ huấn luyện ở mức token (training token-level vector) và là đầu vào của phần

Xây dựng bộ nhận diện Các vec-tơ tương ứng với các token trong phần cần được nhận diện viết

tắt là những vec-tơ ở mức token (token-level vector) và là đầu vào của phần Nhận diện viết tắt

(B) Xây dựng bộ nhận diện

Trong phần này, bộ nhận diện viết tắt được xây dựng với phương pháp học có giám sát trong không gian vec-tơ Do học có giám sát phổ biến ngày nay nên có nhiều lựa chọn về một giải thuật học có giám sát cho phần này để quá trình nhận diện viết tắt được hiệu quả Một số giải thuật học

có giám sát có thể được sử dụng cho phần này là giải thuật học cây quyết định, giải thuật học rừng ngẫu nhiên, giải thuật học k-nn, Kết quả của các giải thuật này được đánh giá với cơ chế đánh

giá chéo k-phần (k-fold cross validation) để kiểm chứng tính hiệu quả của kết quả đạt được đạt

được ở một mức nhất định Nếu không thì phần kỹ thuật đặc trưng và giải thuật học tương ứng cần được xem xét lại cho một bộ nhận diện hiệu quả hơn Kết quả của phần này là bộ phân lớp nhị phân giúp xác định liệu một token tương ứng với một vec-tơ có thuộc lớp viết tắt hay không, được

sử dụng trong phần Nhận diện viết tắt kế tiếp

(C) Nhận diện viết tắt

Trong phần này, việc nhận diện viết tắt được thực hiện tự động với bộ nhận diện ở phần (B) trên các vec-tơ tương ứng với các token cần được xác định là viết tắt hay không ở phần (A) Đây là quá trình phân lớp của tác vụ phân lớp được định nghĩa cho bài toán Kết quả đạt được của phần này

có thể được tăng cường kiểm chứng với tương tác của người dùng trong cơ chế học năng động

(active learning) Nhóm nghiên cứu sẽ xem xét thêm cơ chế này trong tương lai

Các viết tắt được xác định có thể làm cơ sở cho việc gia tăng tính khả đọc của các ghi chú lâm sàng bằng việc thay thế các thể đầy đủ tương ứng cho các viết tắt này; từ đó, giúp gia tăng khả năng được chia sẻ của các ghi chú này Kết quả này cũng góp phần cho công tác lọc nhiễu tường minh trong các BAĐT

Trang 28

2.2.3 Kết quả thực nghiệm

Bảng 2.2 Chi tiết về các ghi chú lâm sàng và viết tắt

Clinical Note Types Care Treatment Order Treatment Progress

Bảng 2.3 Kết quả thực nghiệm trên tập Care Note

Algorithm Measure Token- level Token-level + Note-level Sentence- level - 5 Combination – 5

Combination with No External Resource - 5

Bảng 2.4 Kết quả thực nghiệm trên tập Treatment Order Note

Algorithm Measure Token- level + Note-level Token-level Sentence- level - 5 Combination - 5 with No External Combination

Bảng 2.5 Kết quả thực nghiệm trên tập Treatment Progress Note

Algorithm Measure Token- level + Note-level Token-level Sentence- level - 5 Combination - 5 with No External Combination

Trang 29

Bảng 2.6 Kết quả thực nghiệm với các kích thước tầng xuất khác nhau

của mô hình CBOW dùng trong Random Forest

Note Type Layer

size

Sentence-level Combination with an External Resource Accuracy Precision Recall F-measure Accuracy Precision Recall F-measure Care Notes 5 99.950 100.0 99.2 99.6 99.987 100.0 99.8 99.9

− Token-level: chỉ dùng nhóm đặc trưng ở mức token

− Token-level + Note-level: chỉ dùng nhóm đặc trưng ớ mức token và mức ghi chú

− Sentence-level-5: chỉ dùng nhóm đặc trưng ở mức câu với 5 đặc trưng ngữ cảnh với mô

hình CBOW

− Combination-5: dùng tất cả các nhóm đặc trưng ở các mức khác nhau; trong đó, có 5 đặc

trưng ngữ cảnh với mô hình CBOW

− Combination with No External Resource-5: dùng tất cả các nhóm đặc trưng ở các mức

khác nhau nhưng không dùng các đặc trưng liên quan đến tài nguyên ngoài như là từ điển y khoa ; trong đó, có 5 đặc trưng ngữ cảnh với mô hình CBOW

Trong các phần thực nghiệm trên các nhóm đặc trưng có dùng tài nguyên ngoài, nhóm nghiên cứu sử dụng từ điển y khoa gồm 1995 thuật ngữ y học tiếng Việt lẫn tiếng Anh Mỗi thuật ngữ y học được kết hợp tương ứng với viết tắt dạng chữ đầu để hỗ trợ quá trình rút trích đặc trưng Các kết quả thực nghiệm trên mỗi nhóm ghi chú lâm sàng được trình bày ở Bảng 2.3, 2.4, và 2.5 Ngoài ra, nhóm nghiên cứu cũng khảo sát sự khác biệt giữa việc sử dụng nhiều (100) và ít (5) đặc trưng ngữ cảnh với mô hình CBOW và trình bày kết quả trong Bảng 2.6

Trong các bảng số liệu, độ chính xác của việc nhận diện viết tắt cao, xoay quanh khoảng 99% Đặc biệt là khi sử dụng nhiều đặc trưng ngữ cảnh hơn, hiệu quả của mô hình không tăng lên Do

đó, với 5 đặc trưng ngữ cảnh, mô hình nhận diện viết tắt đạt được có độ hiệu quả tương đương hoặc cao hơn so với trường hợp 100 đặc trưng ngữ cảnh Kết quả thực nghiệm cho thấy tính hiệu quả của giải pháp được đề xuất giữa các nhóm đặc trưng khác nhau, không phân biệt cấu trúc và loại ghi chú lâm sàng; trong đó, các mô hình nhận diện viết tắt với tổ hợp các đặc trưng ở các mức khác nhau luôn cho kết quả tốt hơn

Trang 30

2.2.4 Sơ kết về vấn đề làm sạch BAĐT

Cho phần nội dung làm sạch dữ liệu văn bản trong các BAĐT, nhóm nghiên cứu đã hoàn thành giai đoạn nhận diện các viết tắt trong các ghi chú văn bản lâm sàng Tuy nhiên, để giải pháp được tiện dụng trong thực tế hơn, nhóm nghiên cứu đang phát triển giải pháp học bán giám sát trong không gian đặc trưng khả thích nghi cho giai đoạn nhận diện các viết tắt này Hiện tại, kết quả khả quan của giai đoạn này giúp giai đoạn phân giải nghĩa rõ của các viết tắt sau đó được hiệu quả hơn Cho giai đoạn phân giải nghĩa rõ của các viết tắt, nhóm nghiên cứu đang chuẩn bị thực hiện

và đề xuất giải pháp tương ứng Các kết quả đạt được dự kiến sẽ gia tăng tính khả đọc và giúp các ghi chú lâm sàng sẽ được hiểu tốt hơn khi các ghi chú này được chia sẻ cho các hoạt động nghiên cứu và phát triển y học và chăm sóc sức khỏe

2.3 Lọc thông tin riêng trong BAĐT

2.3.1 Tổng quan về vấn đề lọc thông tin riêng tư trong BAĐT

Cho vấn đề lọc thông tin riêng trong các bệnh án điện tử, hiện nay, nhóm nghiên cứu biết được hai cuộc thi lọc thông tin riêng i2b2 năm 2006 và 2014 Các công trình dự thi ở hai năm này đạt được kết quả rất khả quan, tuy nhiên vẫn chưa thật sự đủ hiệu quả để các phương pháp lọc thông tin có thể được đưa vào sử dụng trong thực tế như được nhận định trong công trình [41] Do đó, vấn đề lọc thông tin riêng trong các bệnh án điện tử ngày nay vẫn được xem là chưa được giải quyết mặc

dù có rất nhiều công trình được phát triển và giới thiệu trên thế giới Chi tiết về 18 công trình liên quan trong giai đoạn 1995-2010 có thể được tham khảo trong tài liệu [33] Chi tiết về một số công trình liên quan tham gia cuộc thi lọc thông tin riêng i2b2 năm 2014 có thể được tham khảo trong tài liệu [41] Trong phần này, nhóm nghiên cứu điểm qua một số công trình liên quan theo các khía cạnh khác nhau như sau:

− Các công trình đạt thứ hạng cao khi tham dự cuộc thi i2b2 năm 2006 và 2014: [43, 45] của năm 2006 và [9, 29, 50] của năm 2014

− Các công trình giới thiệu những hệ thống lọc thông tin riêng trong đó có hệ thống thương mại và cũng có hệ thống mở: [42] với hệ thống Scrub là một trong những hệ thống lọc thông tin riêng đầu tiên cho dữ liệu văn bản lâm sàng, [16] với hệ thống thương mại De-Id, [11] với hệ thống HIDE, [34] với hệ thống MIT, [1] với hệ thống MIST, [10] với hệ thống lai BoB, [17] với hệ thống bootstrapping MIST được mở rộng từ hệ thống MIST, [12] với

hệ thống Smarter Planet của IBM, [28] với hệ thống MIST mở rộng để xem xét độ phức tạp về cách hành văn trong các BAĐT

− Các công trình giới thiệu những giải pháp bước đầu cho việc lọc thông tin riêng cho các BAĐT được viết với các ngôn ngữ khác với tiếng Anh: [13, 14, 15] cho tiếng Pháp, [8] cho tiếng Thụy Điển, [53] cho tiếng Anh của Úc, [39] cho tiếng Đức, [4] cho tiếng Na-Uy, [40] cho tiếng Hàn Quốc, và [25] cho tiếng Serbian

Qua phần khảo sát các công trình liên quan vấn đề lọc thông tin riêng, nhóm nghiên cứu nhận thấy rằng hầu hết các tiếp cận đều là các tiếp cận lai, nghĩa là kết hợp giữa phương pháp dựa trên học máy và phương pháp dựa trên quy tắc, so trùng mẫu và khai thác từ điển Một số công trình ban đầu được phát triển cho bài toán này như [16, 42] hay được phát triển cho tập BAĐT thuộc ngôn ngữ khác ngôn ngữ tiếng Anh như [14, 25, 40] đều bắt đầu với hướng tiếp cận dựa trên quy tắc Tuy nhiên, hướng tiếp cận này không linh hoạt với việc phân giải nhập nhằng giữa các kiểu PHI với nhau và phụ thuộc nhiều vào tập dữ liệu mẫu để từ đó rút trích ra các mẫu và hình thành

Trang 31

các biểu thức chính quy tương ứng Với hướng tiếp cận dựa trên học máy trong hầu hết các công trình khác, việc rút trích đặc trưng và chuẩn bị tập dữ liệu huấn luyện và kiểm tra là việc khó khăn

để không hạn chế tính tổng quát hóa của giải pháp khi áp trên nguồn dữ liệu khác Do đó, giải pháp lai kết hợp hai hướng tiếp cận này là xu thế hiện diện trong những công trình gần đây như được đề xuất bởi các công trình [9, 29, 50] dự thi ở i2b2 2014 Đây cũng là một trong những lí do hình thành nên giải pháp của nhóm nghiên cứu cho vấn đề này

Ngoài ra, danh sách các kiểu PHI hiện nay vẫn chủ yếu dựa trên 18 kiểu PHI của tổ chức HIPAA Nhưng trong cuộc thi i2b2 2014, danh sách này được mở rộng nhằm đảm bảo khả năng bảo vệ thông tin riêng của bệnh nhân cao hơn như được giới thiệu trong [41] Danh sách mở rộng gồm 7 kiểu PHI chính và 25 kiểu PHI chi tiết Khi xây dựng giải pháp lọc thông tin riêng cho các BAĐT thuộc các ngôn ngữ khác, danh sách kiểu PHI cần được xem xét cho các yêu cầu bảo vệ thông tin riêng của bệnh nhân ở các nước cụ thể Khi này, danh sách các kiểu PHI có thể ít hoặc nhiều hơn như được giới thiệu trong công trình [40] dành cho các BAĐT ở Hàn Quốc Hiện nay, các văn bản pháp luật dành cho lĩnh vực y tế ở Việt Nam chưa có quy định cụ thể các nội dung gì liên quan đến bệnh nhân cần được bảo vệ riêng tư Do đó, giải quyết vấn đề lọc thông tin riêng cho các BAĐT tiếng Việt là một vấn đề cấp thiết và nhiều khó khăn

2.3.2 Giải pháp học bán giám sát lai để lọc thông tin riêng trong BAĐT

Trong nội dung lọc thông tin riêng trong các BAĐT, nhóm nghiên cứu cũng xem xét hai giai đoạn: (1) nhận diện thông tin riêng trong các BAĐT; và (2) thay thế các thông tin riêng thành các thông tin tương đương để đảm bảo tính riêng tư trong các BAĐT nhưng vẫn giữ được đặc điểm và ý nghĩa của các thông tin riêng của các BAĐT này Phần sau của nội dung này sẽ trình bày giải pháp chi tiết của giai đoạn (1) nhận diện thông tin riêng trong các BAĐT Giai đoạn này được giải quyết với giải pháp được đề xuất là giải pháp học bán giám sát lai trong cơ chế lặp tăng dần

(A) Rút trích đặc trưng từ văn bản trong bệnh án điện tử

Danh sách đặc trưng dựa trên tập các đặc trưng của các công trình liên quan [12, 36, 65] và có xem xét đến sự ảnh hưởng của các đặc trưng đến các kết quả tương ứng cho mỗi kiểu PHI như được giới thiệu trong các công trình liên quan này

Bảng 2.7 Danh sách đặc trưng đề xuất cho mô-đun học máy của giải pháp lọc thông tin riêng

3 Kết hợp của token và POS trong cửa sổ

ngữ cảnh kích thước là 5

w0p-1, w0p1, w0p-1p-2, w0p1p2, w0p-1p1

4 Tiền-hậu tố của token Tiền tố và hậu tố có chiều dài từ 1 đến 5

5 Dạng của token ở thể đầy đủ Biểu diễn lại token dựa trên đặc điểm của các ký tự xuất

hiện trong token đầy đủ cho mỗi ký tự

6 Dạng của token ở thể ngắn Tương tự ở trên nhưng rút ngắn cho nhóm ký tự liền kề

8 Đặc trưng từ điển/mẫu Có xuất hiện trong các từ điển và so trùng khớp với biểu

thức chính quy về tuổi, thành phố, ngày, ngày lễ, số điện thoại, nghề nghiệp, bang, đường phố, tiền tố, hậu tố

10 Kiểu PHI từ bộ chỉ báo kiểu PHI Kết quả từ bộ chỉ báo ngữ cảnh cho các kiểu PHI, ví dụ:

Dr cho DOCTOR

Trang 32

Lưu ý:

− Xem xét bổ sung thêm document-level features: section heading (before HISTORY OF PRESENT ILLNESS, HISTORY OF PRESENT ILLNESS, PAST MEDICAL HISTORY, PHYSICAL EXAMINATION, after PHYSICAL EXAMINATION), sentence position (beginning of a section, end of a section)

− Việc so trùng chuỗi nên dùng “exact match” hay là “fuzzy match” để tránh trường hợp sai chính tả Nếu không thì xem xét dùng thêm đặc trưng liên quan đến chính tả và lấy ra kết quả chính tả của mỗi token từ phần mềm aSpell cho BAĐT tiếng Anh

− Quá trình rút trích giá trị cho các đặc trưng được thực hiện tự động cho mỗi bệnh án điện

tử

(B) Tiến hành hậu xử lý cho hướng tiếp cận bán giám sát

Có 6 bước hậu xử lý sau đây nhằm nhận diện các thông tin riêng bị sót và hiệu chỉnh các thông tin

bị nhận diện sai để cải thiện độ phủ (recall) và độ chính xác (precision) tương ứng

(B.1) Kiểm tra O-PHI (chuyển từ O-PHI thành PHI)

1 Gán lại nhãn cho mỗi loại PHI có B, I, và E, cần thực hiện lấy hết các thành phần của PHI cho trường hợp của “short extent error” và sau đó, gán lại nhãn B-PHI, I-PHI, và E-PHI cho mỗi thành phần của PHI đó Các loại PHI cần được xử lý là: DOCTOR, PATIENT, HOSPITAL, LOCATION, ID, PHONE, và DATE

− Ví dụ tên đúng của bác sĩ là “SURG AG NISTE MARHALT” nhưng kết quả gán nhãn trả về bác sĩ là “NISTE MARHALT”: nhãn đúng là B-DOCTOR, I-DOCTOR, I-DOCTOR, E-DOCTOR và kết quả nhãn là B-DOCTOR và E-DOCTOR à từ các token được nhận dạng, dò ngược lên trước và về sau để lấy thêm các token lân cận có chữ đầu viết hoa để tổng hợp lại thành 1 tên đúng của bác sĩ và gán lại nhãn đúng à

cách xử lý này cho DOCTOR, PATIENT, HOSPITAL, LOCATION

− Dành cho việc xử lý “short extent error” của ID, PHONE, và DATE là dựa trên các biểu thức chính quy: mở rộng về trước và về sau của các token đã được gán nhãn hiện tại khi vẫn còn có thể so khớp được với các biểu thức chính quy của kiểu PHI tương ứng

2 Kiểm tra các O-PHI mà đáng lẽ ra phải là HOSPITAL nhưng không phải là trường hợp của “short extent error” với các token “Hospital”, “Medical Center”, “Health”, “Care Center”, và “Morgue” (có xem xét case-sensitive), và sau đó xử lý giống trường hợp 1 Ngoài ra, xác định thêm các tên bệnh viện (có thể có hoặc không có số (number) đi kèm) > xem xét phần ngữ cảnh (các từ xung quanh) của các token tiềm năng, ví dụ: ngay phía sau có “where”, “in which” để chỉ location/hospital và kết hợp với các từ phía trước như

"admitted to", "transferred (from) to", "moved (from) to", "in", Phần ngữ danh từ ở giữa chính là tên bệnh viện

3 Tương tự ở trường hợp 2, kiểm tra các O-PHI mà đáng lẽ ra phải là PHI (PATIENT, DOCTOR, LOCATION, AGE) nhưng không phải là trường hợp của “short extent error” với các indicators, và sau đó xử lý giống trường hợp 1:

− PATIENT: Mr., Mrs., Miss, Ms, …, son of, sons of, daughter of, daughters of, (mother, father, grandmom, grandmother, grandfather,…), Name’s son, Name’s sons, Name’s daughter, Name’s daughters, …

Trang 33

− DOCTOR: Dr., M.D., …

− LOCATION: Street, street, St., road, Road, Rd., Town, town, Blvd., Boulevard, Pkwy, Parkway, Line, Ln, … hoặc các từ là “state name” từ danh sách các states để khoanh vùng lân cận của các token là LOCATION Khi này dùng regular expression

(ví dụ: Pkwy , Pidsnews , Alaska 77015 hoặc là Collot Ln , Dugo , Indiana 68961 hoặc là Com St , Tton , Arkansas 32167 à part 1, InitCap 1, InitCap 2 #####), xác

định tổ hợp của các token là LOCATION và gán nhãn lại theo BIO/BIOES/IO

− AGE: patient is Number, patient is Number year old, patient is 89yr., patient is 89y., patient is 89yo, patient is 89-year-old, Name is Number, Name is Number year old, Name is 89yr., Name is 89y., Name is 89 yo, Name is 89-year-old, age is Number, age is Number year old, age is 89yr., age is 89y., age is 89yo, age is 89-year-old, 89yr., 89y, 89yo, 89-year-old, 89 year old, … PHI terms chỉ dành cho trường hợp tuổi lớn hơn 89 Lưu ý các số ở trước “year old”, “yr”, “y”, “yo”, … có thể được viết dạng chữ như “eighty-nine” hoặc “eighty nine”

4 Chuyển các O-PHI thành ID dựa trên vị trí của token (sau khi đã so trùng với các biểu thức chính quy):

− đầu record (chuỗi toàn số),

− sau/sau/sau tên bệnh viện viết tắt (chuỗi toàn số, chuỗi số có ký hiệu phân tách “/” và

có ký tự),

− ngay trước tên bác sĩ (chuỗi số có ký hiệu phân tách “/” và có ký tự),

− ngay sau tên bác sĩ (chuỗi số có ký hiệu phân tách “/” và có ký tự hoặc hai chuỗi liên tiếp như thế, có hoặc không có dấu phân tách “/”),

− ngay trước “HISTORY OF PRESENT ILLNESS” (chuỗi số-ký tự),

− ngay sau “UNIT NUMBER :” (chuỗi số dạng ###-##-##),

− ngay sau “BATCH :” (chuỗi toàn số),

− ngay sau “Index No.” (chuỗi số-ký tự có thể có phân cách “space”),

− - ngay sau “Report :” (chuỗi số-ký tự có thể có phân cách “space”),

− - ngay sau “MRN :” (chuỗi toàn số),

− ngay sau “Provider Number :” (chuỗi toàn số)

(B.2) Kiểm tra PHI (chuyển PHI thành O-PHI hoặc là PHI khác)

5 Chuyển DATE, PHONE, và ID thành O-PHI

Đây là trường hợp của những giá trị độ đo của các chỉ số y tế (gọi là medical values) ở dạng chuỗi số (có hoặc không có dấu phân tách) Do đó, kiểm tra các token lân cận có là các thuật ngữ y khoa (medical term) hoặc có là từ viết tắt của các medical term tương ứng hay không Dựa vào các medical term lân cận, chuyển các chuỗi số này thành O-PHI Medical terms (từ dữ liệu huấn luyện và cơ sở dữ liệu MIMIC II) lấy từ danh sách sno_edited.txt trong công trình [45]

6 Chuyển DOCTOR thành O-PHI

“PCP Name : UNKNOWN” hoặc “PCP Name: UNKNOWN” hoặc “PCP Name : NONE” hoặc “PCP Name: NONE”; trong đó, UKNOWN (unknown, Unknown) và NONE (none, None) được nhận diện là DOCTOR thì sẽ được chuyển thành O-PHI

Lưu ý: Xem xét việc sử dụng “coreference resolution system” trong phần hậu xử lý

Trang 34

(C) Giải pháp tổng thể đề xuất cho việc lọc thông tin riêng tư trong BAĐT

Thuật giải được tóm tắt như sau:

Bước 1 Hiệu chỉnh lại các nhãn PHI bị gán nhầm cho cả tập huấn luyện và tập kiểm tra

(những PHI không có cùng dạng/mẫu với các PHI trong cùng kiểu PHI)

Bước 2 Rút trích đặc trưng cho mỗi BAĐT trong tập huấn luyện và tập kiểm tra

Bước 3 Trích phần dữ liệu huấn luyện để xây dựng và đánh giá CRF Lưu ý giai đoạn nay

được đề xuất chỉ với 1 CRF chung cho các kiểu PHI

Bước 4 Xây dựng và đánh giá CRF với k-fold cross validation (k=5 hoặc 10): tính precision

và recall trung bình cho mỗi kiểu PHI trên k folds và sau đó, xây dựng các mô hình CRF trên toàn bộ tập huấn luyện Nếu precision và recall cho mỗi kiểu PHI của các CRF hiện tại đã đạt ngưỡng yêu cầu thì chuyển sang bước (9)

Bước 5 Thực hiện gán nhãn các PHI cho tập dữ liệu còn lại trong phần dữ liệu huấn luyện

với mô hình CRF

Bước 6 Thực hiện hậu xử lý theo thứ tự ở trên cho tập kết quả gán nhãn ở bước (4)

Bước 7 Thực hiện đánh giá kết quả gán nhãn tổng thể cho mỗi BAĐT và sau đó, chọn các

BAĐT có độ tin cậy cao nhất có xem xét precision và recall của mô hình CRF ở bước lặp hiện tại Đưa các BAĐT được chọn vào tập huấn luyện ở bước lặp hiện tại Xem xét hiệu chỉnh giá trị của các đặc trưng ở các BAĐT này cho nhất quán giữa giá trị của các đặc trưng và nhãn được gán

Bước 8 Quay lại thực hiện từ bước (4)

Bước 9 Thực hiện gán nhãn các PHI cho tập dữ liệu kiểm tra độc lập với mô hình CRF đạt

được

Bước 10 Thực hiện hậu xử lý theo thứ tự ở trên cho tập kết quả gán nhãn ở bước (9)

Giải pháp được phác thảo trong Hình 2.3 với các bước chính được tóm tắt như sau:

(1) Học giám sát với CRFs và cơ chế đánh giá chéo k-phần

(2) Nhận diện thông tin riêng

(3) Thực hiện hậu xử lý dựa trên quy tắc

(4) Chọn các bản ghi được dự báo với độ tin cậy cao nhất

(5) Cập nhật các bản ghi chưa được gán nhãn

(6) Tăng cường tập huấn luyện với các bản ghi được gán nhãn và chọn ở bước (4) và lặp lại

từ bước (1) với cơ chế học bán giám sát dạng tự huấn luyện đến khi hiệu quả học không được cải thiện

Trang 35

Hình 2.3 Tổng quan về giải pháp học bán giám sát lai cho giai đoạn nhận diện thông tin riêng

Đặc điểm của giải pháp được đề xuất là:

− Giải pháp theo hướng tiếp cận lai; trong đó, kết hợp phương pháp học giám sát và phương pháp so trùng mẫu dựa trên quy tắc, biểu thức chính quy và từ điển theo cơ chế lặp, gia tăng từng phần

− Giải pháp xem xét nhiều khía cạnh khác nhau của token đang được xem xét để phân giải nhập nhằng các kiểu PHI khác nhau có cùng dạng dựa trên ngữ cảnh thông qua các chỉ báo tương ứng

− Giải pháp hỗ trợ việc học mô hình dự báo nhãn PHI từ tập nhỏ các BAĐT do có thể khai thác được các bệnh án mới được xử lý có độ tin cậy cao và do đó, gia tăng tập dữ liệu huấn luyện của mô hình theo thời gian Chính vì thế, giải pháp này có thể được triển khai trong môi trường học chủ động (active learning) để có được sự tương tác của người dùng và thẩm định lại kết quả gán nhãn PHI của thuật giải ở mỗi lần lặp; từ đó, có thể tránh được việc tích lũy lỗi do có thể các thông tin PHI của các bệnh án mới chưa hẳn được nhận diện đúng hoàn toàn

2.3.3 Kết quả thực nghiệm

Để minh họa tính hiệu quả của giải pháp được đề xuất, trong phần này, nhóm nghiên cứu giới thiệu một số kết quả thực nghiệm trên tập dữ liệu chuẩn đã được sử dụng trong cuộc thi lọc thông tin riêng của tổ chức i2b2 vào năm 2006 Dữ liệu được dùng trong thực nghiệm bao gồm 668 bản ghi cho phần huấn luyện ban đầu và 220 bản ghi trong phần kiểm tra với bước học bán giám sát dạng tự huấn luyện

Cho phần đánh giá, các độ đo phổ biến như Precision, Recall, và F-measure được sử dụng Nhóm nghiên cứu ghi nhận các giá trị của các độ đo này cho mỗi loại thông tin riêng và cũng ghi nhận các giá trị tổng thể (trung bình) cho tất cả các loại thông tin riêng Cho phần thực nghiệm này, nhóm nghiên cứu xem xét 8 loại thông tin riêng cụ thể là: AGE (tuổi trên 89), DATE (ngày/tháng/năm), DOCTOR (tên bác sĩ), HOSPITAL (tên bệnh viện), ID (các định danh), LOCATION (tên nơi chốn), PATIENT (tên bệnh nhân), và PHONE (số điện thoại) Cho phần so sánh trong đánh giá, nhóm nghiên cứu tham khảo kết quả của 2 nhóm tác giả đã từng đạt thứ hạng cao nhất-nhì trong cuộc thi 2006 của i2b2 trên cùng tập dữ liệu được sử dụng trong phần minh họa này Hai nhóm tác giả tương ứng của hai công trình là Wellner và cộng sự của [45] và Szarvas và

Trang 36

cộng sự của [43] Các kết quả của nhóm nghiên cứu được dùng trong phần so sánh bao gồm các kết quả ở các bước xử lý như sau:

− CRF: kết quả của mô hình CRF đầu tiên trên tập dữ liệu kiểm tra mà chưa thực hiện bất kỳ công tác hậu xử lý nào

− CRF_PP: kết quả của mô hình CRF đầu tiên trên tập dữ liệu kiểm tra và sau đó thực hiện các công tác hậu xử lý; nhưng chưa thực hiện cơ chế lặp gia tăng với học bán giám sát dạng tự huấn luyện

− Semi_CRF_PP_2: kết quả của mô hình CRF đầu tiên trên tập dữ liệu kiểm tra và sau đó thực hiện các công tác hậu xử lý; đã thực hiện cơ chế lặp gia tăng với học bán giám sát dạng tự huấn luyện và sau đó lại thực hiện các công tác hậu xử lý trên tập dữ liệu kiểm tra mới Như thế giai đoạn hậu xử lý đã được tiến hành 2 lần

− Semi_CRF_PP_3: kết quả của mô hình CRF đầu tiên trên tập dữ liệu kiểm tra và sau đó thực hiện các công tác hậu xử lý; đã thực hiện cơ chế lặp gia tăng với học bán giám sát dạng tự huấn luyện và sau đó lại thực hiện các công tác hậu xử lý trên tập dữ liệu kiểm tra mới và lặp lại Như thế giai đoạn hậu xử lý đã được tiến hành 3 lần

− Semi_CRF_PP_Final: kết quả của mô hình CRF đầu tiên trên tập dữ liệu kiểm tra và sau

đó thực hiện các công tác hậu xử lý; đã thực hiện cơ chế lặp gia tăng với học bán giám sát dạng tự huấn luyện và sau đó lại thực hiện các công tác hậu xử lý trên tập dữ liệu kiểm tra mới và lặp lại đến khi hiệu quả học không được cải thiện Đây là kết quả sau cùng của giải pháp được đề xuất

Các kết quả so sánh với các công trình [43, 45] được trình bày trong Bảng 2.8 và các kết quả của các bước khác nhau của giải pháp được trình bày trong Bảng 2.9

Bảng 2.8 Kết quả thực nghiệm tổng quan của các công trình [43, 45] và nhóm nghiên cứu trên tập

Bảng 2.9 Kết quả thực nghiệm (trung bình) của các bước xử lý trong giải pháp được đề xuất

Trang 37

PHONE Ngoài ra, kết quả sau cùng ở nhóm AGE lại thấp nhất do các quy tắc cho việc chuyển đổi giữa AGE và các giá trị y tế mà nhóm nghiên cứu xem xét bị nhầm lẫn Tuy thế mà, giải pháp được đề xuất tổng quát hóa hơn so với giải pháp của các công trình [43, 45] với cơ chế học bán giám sát cho phép bộ nhận diện thông tin riêng của nhóm nghiên cứu có được khả năng tăng cường theo thời gian trong thực tế Khi đó, hiệu quả của giải pháp được cải thiện dần, đặc biệt là hiệu quả với độ đo RECALL Cụ thể là Bảng 2.9 đã cho thấy các kết quả được cải tiến từ bước CRF_PP sang bước Semi_CRF_PP_2 và cuối cùng là Semi_CRF_PP_Final khi mà các giá trị độ

đo Precision và Recall đều được tăng lên Điều này chứng tỏ rằng giải pháp học bán giám sát phù hợp cho bài toán nhận diện thông tin riêng trong các BAĐT và giúp tổng quát hóa được quá trình

xử lý khi kết hợp giữa phương pháp học máy với mô hình CRF và phương pháp nhận diện mẫu dựa trên quy tắc và từ điển

2.3.4 Sơ kết về vấn đề lọc thông tin riêng trong các BAĐT

Giai đoạn nhận diện thông tin riêng trong các BAĐT của bài toán lọc thông tin riêng trong các BAĐT đã được hoàn thành với kết quả khả quan Nhóm nghiên cứu đang thực hiện phần chú thích thông tin riêng trong các BAĐT tiếng Việt để kiểm chứng giải pháp được đề xuất trên các BAĐT tiếng Việt Sau đó, nhóm nghiên cứu cũng chuẩn bị giải pháp và phát triển phần mềm cho giai đoạn 2 của bài toán lọc thông tin riêng trong các BAĐT

2.4 Chuẩn hoá BAĐT từ các hệ thông tin bệnh viện

Việc ghi chép thông tin khám chữa bệnh bằng bút và giấy là phương thức làm việc quen thuộc của các bác sĩ và y tá từ xa xưa cho đến hiện tại Vì vậy một trong những rào cản lớn để hiện thực hoá BAĐT, mà cụ thể là việc tạo ra các văn bản lâm sàng lưu trong máy tính, là làm sao công nghệ thông tin có thể giúp cho các bác sĩ và y tá thấy việc dùng máy tính để ghi nhận thông tin khám chữa bệnh sẽ hiệu quả hơn dùng bút và giấy

Hiện nay ở Việt Nam đã có nhiều công ty phát triển phần mềm quản lý hệ thông tin bệnh viện nhưng, theo khảo sát của nhóm nghiên cứu, vẫn chưa có phần mềm hỗ trợ nhập văn bản khám chữa bệnh hàng ngày một cách dễ dàng Vì vậy, tuy không nằm trong nội dung đăng ký của đề tài, nhóm nghiên cứu đã triển khai việc thiết kế và hiện thực một phần mềm như thế với các mục đích sau:

1 Giúp cho việc nhập văn bản lâm sàng hàng ngày một cách nhanh chóng và dễ dàng

2 Đảm bảo cho việc ghi nhận thông tin lâm sàng được đầy đủ cho quá trình khám chữa bệnh

3 Chuẩn hoá các thuật ngữ y học trong văn bản lâm sàng để phục vụ cho việc chia sẻ và khai thác thông tin trong BAĐT sau này

Để đạt được các mục đích này, cần có sự phối hợp giữa công nghệ phần mềm và tri thức của chuyên gia y khoa Các ý tưởng thiết kế chính của phần mềm là:

1 Xây dựng phần mềm trên máy tính bảng để bác sĩ và y tá có thể dễ dàng mang theo và nhập văn bản

2 Hạn chế tối đa việc gõ bàn phím, mà thay vào đó là chạm các chức năng và chọn các giá trị

có sẵn trên màn hình máy tính bảng

3 Dựa trên tri thức của chuyên gia y khoa, tạo sẵn đầy đủ các mục cần phải có cho việc chẩn đoán và điều trị một bệnh cụ thể, và cung cấp sẵn các giá trị là thuật ngữ đã được chuẩn hoá

Định dạng
Số trang	74
Dung lượng	8,79 MB