n BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC PHẠM TRUNG DŨNG NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU HỖ TRỢ CÔNG TÁC CHẨN ĐOÁN BỆNH TẠI BỆNH VIỆN ĐA KHOA
Trang 1n
BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA
TRƯỜNG ĐẠI HỌC HỒNG ĐỨC
PHẠM TRUNG DŨNG
NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT KHAI PHÁ
DỮ LIỆU HỖ TRỢ CÔNG TÁC CHẨN ĐOÁN BỆNH TẠI BỆNH VIỆN ĐA KHOA TỈNH THANH HÓA
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
THANH HÓA, NĂM 2020
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA
TRƯỜNG ĐẠI HỌC HỒNG ĐỨC
PHẠM TRUNG DŨNG
NGHIÊN CỨU ỨNG DỤNG KỸ THUẬT KHAI PHÁ
DỮ LIỆU HỖ TRỢ CÔNG TÁC CHẨN ĐOÁN BỆNH TẠI BỆNH VIỆN ĐA KHOA TỈNH THANH HÓA
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Chuyên ngành: Khoa học máy tính
Mã số: 8.48.01.01
Người hướng dẫn khoa học: TS Nguyễn Thế Cường
THANH HÓA, NĂM 2020
Trang 3Danh sách Hội đồng đánh giá luận văn Thạc sĩ khoa học
(Theo Quyết định số: 1320/QĐ-ĐHHĐ ngày 4 tháng 9 năm 2020 của
Hiệu trưởng Trường Đại học Hồng Đức)
PGS,TS Hoàng Văn Dũng Trường ĐHSP KT HCM Chủ tịch
TS Trần Quang Diệu Học viện CTQG HCM Phản biện 1 PGS.TS Vũ Việt Vũ Trường ĐHQG Hà Nội Phản biện 2
PGS.TS Phạm Thế Anh Trường ĐH Hồng Đức Ủy viên
TS Trịnh Viết Cường Trường ĐH Hồng Đức Thư ký
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan:
1 Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng
dẫn của người hướng dẫn
2 Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác
giả, tên công trình, thời gian, địa điểm công bố
3 Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu
hoàn toàn trách nhiệm
Tác giả
Phạm Trung Dũng
Trang 5LỜI CẢM ƠN
Để hoàn thành luận này, tôi đã nhận được sự hướng dẫn tận tình, giúp
đỡ chu đáo của TS Nguyễn Thế Cường – Phó trưởng khoa Công nghệ Thông tin và Truyền thông, xin tỏ lòng biết ơn sâu sắc đến thầy
Qua đây tôi cũng xin chân thành cảm ơn Ban Giám hiệu, Phòng Đào tạo sau đại học, Khoa Công nghệ Thông tin và Truyền thông Trường Đại học Hồng Đức - Tỉnh Thanh Hóa đã giúp đỡ, tạo mọi điều kiện thuận lợi nhất cho tôi hoàn thành luận văn này
Về phía Bệnh viện Đa khoa tỉnh Thanh Hóa, tôi xin trân trọng cảm ơn TS.BS Lê Văn Cường – Phó Giám đốc bệnh viện, Ths.BS Lê Duy Long khoa Hồi sức tích cực đã hỗ trợ tôi về mặt chuyên môn
Tôi cũng xin gửi lời cảm ơn tới tất cả những người thân trong gia đình, bạn bè và đồng nghiệp đã động viên, giúp đỡ tôi trong suốt quá trình học tập và thực hiện luận văn
Tôi xin trân trọng cảm ơn!
Trang 6MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN iii
MỤC LỤC iv
DANH MỤC CÁC TỪ VIẾT TẮT iv
DANH MỤC CÁC HÌNH vii
DANH MỤC CÁC BẢNG BIỂU viii
MỞ ĐẦU 1
1 Lý do chọn đề tài: 1
2 Mục tiêu nghiên cứu: 4
3 Đối tượng và phạm vi nghiên cứu: 5
4 Phương pháp nghiên cứu: 5
5 Ý nghĩa của đề tài: 5
6 Cấu trúc luận văn: 5
CHƯƠNG 1: TỔNG QUAN VỀ BỆNH VIỆN ĐA KHOA TỈNH THANH HOÁ 6
1.1 Tổng quan về Bệnh viện Đa khoa Tỉnh Thanh Hoá 6
1.2 Quy trình khám chữa bệnh tại bệnh viện Đa khoa Tỉnh Thanh Hoá 10
1.3 Nhu cầu về việc ứng dụng công nghệ thông tin trong hỗ trợ khám chữa bệnh 13
1.4 Kết luận chương 1 15
CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG Y TẾ 16
2.1 Tổng quan về khai phá dữ liệu 16
2.2 Các kỹ thuật khai phá dữ liệu điển hình 17
2.2.1 Các công cụ khai phá dữ liệu 18
2.2.2 Các kỹ thuật khai phá dữ liệu chính 19
2.3 Khai phá dữ liệu y khoa 23
2.4 Các nghiên cứu liên quan về các hệ hỗ trợ chẩn đoán bệnh 25
2.5 Khai phá dữ liệu sử dụng cây quyết định 29
Trang 72.5.1 Tổng quan về cây quyết định 29
2.5.2 Khai phá dữ liệu bằng cây quyết định 33
2.5.3 Ưu điểm và nhược điểm của cây quyết định 39
2.6 Kết luận chương 2 40
CHƯƠNG 3: MÔ HÌNH CHẨN ĐOÁN BỆNH SUY TIM 42
3.1 Tổng quan về bệnh suy tim 42
3.2 Các yếu tố lâm sàng liên quan 42
3.2.1 Triệu chứng lâm sàng 42
3.2.2 Tiếp cận chẩn đoán suy tim 44
3.2.3 Tiếp cận chẩn đoán suy tim mạn tính theo Hội tim mạch Châu Âu (ESC 2016) 46
3.3 Xây dựng cây quyết định hỗ trợ chẩn đoán suy tim 49
3.4 Thu thập dữ liệu huấn luyện 50
3.5 Xây dựng cây quyết định với phần mềm WEKA 53
3.5.1 Các tính năng chính của Weka 54
3.5.2 Trích chọn thuộc tính 55
3.5.3 Xây dựng dữ liệu huấn luyện bằng WEKA 56
3.6 Kết luận chương 3 62
KẾT LUẬN 63
1 Kết quả đạt được 63
2 Hạn chế 63
3 Hướng phát triển 63
DANH MỤC TÀI LIỆU THAM KHẢO 65
Trang 8NYHA Hội tim mạch NewYork
RBF Radial Basic Function
SVM Máy vector hỗ trợ
Trang 9DANH MỤC CÁC HÌNH
Hình 1.1 Sơ đồ tổ chức bộ máy hoạt động của Bệnh viên Đa khoa Tỉnh 6
Hình 1.2 Sơ đồ quy trình khám chữa bệnh tại bệnh viên Đa khoa Tỉnh Thanh Hoá 12
Hinh 2 1 Các bước trong Datamining[22] 17
Hinh 2 2 Ví dụ về phân cụm dữ liệu 21
Hình 3.1 Quy trình chẩn đoán suy tim[2] 46
Hình 3 2 Mẫu dữ liệu thu nhận từ hệ thống quản lý khám chữa bệnh của Bệnh viện Đa khoa Tỉnh Thanh Hóa năm 2020 51
Hình 3.3 Công cụ ArffViewer cho phép chuyển đổi tệp dữ liệu từ csv thành .arff 57
Hình 3.4 Dữ liệu được đọc bởi ArffViewer 57
Hình 3.5 Kết quả đánh giá mô hình theo phương pháp Percentage Split 60
Hình 3.6 Kết quả đánh giá mô hình theo phương pháp K-folds (với K=10) 60
Hình 3.7 Mô hình cây quyết định dùng để chấn đoán bệnh suy tim tại bệnh viện Đa khoa Tỉnh Thanh hóa 61
Trang 10DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1 Phân loại mức độ suy tim theo NYHA 49 Bảng 3 2 Bảng dữ liệu được lọc những thông tin không cần thiết cho quá trình xây dựng cây quyết định 52 Bảng 3 3 Mẫu dữ liệu đã được mã hóa 53 Bảng 3.4 Kết quả thu được từ dữ liệu huấn luyện 61
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Trong thời đại ngày nay, kết quả xét nghiệm lâm sàng ở nhiều nơi thường được thực hiện dựa trên trực giác và kinh nghiệm của bác sĩ thay vì dựa trên thông tin phong phú có sẵn trong nhiều cơ sở dữ liệu Nhiều khi quá trình này dẫn đến vô tình thiên vị, sai sót và chi phí y tế lớn ảnh hưởng đến chất lượng dịch vụ cung cấp cho người bệnh Ngày nay, nhiều bệnh viện đã lắp đặt một số loại hệ thống thông tin để quản lý chăm sóc sức khỏe hoặc bệnh nhân của họ Các hệ thống thông tin này thường tạo ra lượng dữ liệu có thể ở định dạng khác nhau như số, văn bản, biểu đồ và hình ảnh nhưng thật không may, điều này cơ sở dữ liệu có chứa nhiều thông tin hiếm khi được sử dụng cho ra quyết định lâm sàng Có rất nhiều thông tin được lưu trữ trong kho lưu trữ có thể được sử dụng hiệu quả để hỗ trợ ra quyết định trong chăm sóc sức khỏe
Chẩn đoán y khoa thời hiện đại là một quá trình rất tổng hợp, đòi hỏi
dữ liệu bệnh nhân chính xác, sự hiểu biết về tài liệu y khoa và nhiều năm kinh nghiệm lâm sàng Thật không may, dữ liệu chăm sóc sức khỏe không được
“khai thác” để khám phá thông tin ẩn nhằm đưa ra quyết định hiệu quả được ngành chăm sóc sức khỏe thu thập một lượng lớn Các quyết định lâm sàng thường được đưa ra dựa trên nhận thức và kinh nghiệm của bác sĩ hơn là dựa trên dữ liệu phong phú kiến thức được che giấu trong cơ sở dữ liệu Tuy nhiên chuyên môn của mọi bác sĩ thậm chí không thuộc mọi chuyên ngành phụ và ở một số nơi là nguồn lực khan hiếm Thông tin do bệnh nhân cung cấp có thể dẫn đến các triệu chứng và dấu hiệu dư thừa và có liên quan lẫn nhau trong chẩn đoán y khoa, đặc biệt khi bệnh nhân mắc nhiều hơn một loại bệnh cùng loại Các bác sĩ có thể không có khả năng chẩn đoán chính xác Tuy nhiên, do
sự phụ thuộc lẫn nhau phức tạp vào nhiều yếu tố, việc chẩn đoán chính xác bệnh ở giai đoạn sớm là một nhiệm vụ khá khó khăn
Trang 12Để tăng cường sức khỏe và chăm sóc sức khỏe, hỗ trợ quyết định lâm sàng (CDS) cung cấp cho bác sĩ lâm sàng, nhân viên, bệnh nhân hoặc các cá nhân khác kiến thức và thông tin cụ thể của từng người, được lọc hoặc trình bày một cách thông minh vào những thời điểm thích hợp Trong việc nâng cao kết quả tại một số cơ sở chăm sóc sức khỏe và địa điểm thực hành, CDS
đã có hiệu quả bằng cách cung cấp kiến thức y tế cần thiết cho người sử dụng kiến thức Giải quyết các yêu cầu lâm sàng, chẳng hạn như đảm bảo chẩn đoán chính xác, tầm soát kịp thời các bệnh có thể phòng ngừa hoặc ngăn ngừa các tác dụng phụ của thuốc, là những cách khai thác chung nhất của CDS Tuy nhiên, CDS cũng có thể có khả năng giảm chi phí, nâng cao hiệu quả tiến trình và giảm thiểu sự bất tiện cho bệnh nhân Trên thực tế, đôi khi CDS có thể giải quyết đồng thời cả ba lĩnh vực này, chẳng hạn, bằng cách cảnh báo cho các bác sĩ về xét nghiệm trùng lặp có khả năng xảy ra Đối với các nhiệm
vụ nhận thức phức tạp hơn, chẳng hạn như ra quyết định chẩn đoán, mục đích của CDS là hỗ trợ, thay vì thay thế, bác sĩ lâm sàng, trong khi CDS có thể giảm bớt gánh nặng cho bác sĩ lâm sàng về việc xây dựng lại các đơn đặt hàng cho mỗi cuộc gặp gỡ cho các nhiệm vụ khác CDS có thể sẽ cung cấp các đề xuất, nhưng bác sĩ lâm sàng phải lọc thông tin, xem xét các đề xuất và quyết định xem có nên hành động hay không
Hệ thống hỗ trợ quyết định lâm sàng được phân loại rộng rãi thành hai nhóm chính là (1) CDSS dựa trên kiến thức và (2) CDSS không dựa trên kiến thức Hệ thống hỗ trợ quyết định lâm sàng dựa trên kiến thức bao gồm các quy tắc chủ yếu ở dạng các câu lệnh nếu - thì(if – then) Nói chung, dữ liệu được liên kết với các quy tắc này Ví dụ, chỉ tạo cảnh báo và hơn thế nữa nếu cường độ cơn đau lên đến một mức nhất định Nói chung, CDSS dựa trên tri thức bao gồm ba phần chính - cơ sở tri thức, quy tắc suy luận và cơ chế giao tiếp Để minh họa kết quả cho người dùng cũng như cung cấp đầu vào cho hệ thống, cơ sở kiến thức nắm giữ các quy tắc, công cụ suy luận kết hợp các quy tắc với dữ liệu bệnh nhân và cơ chế giao tiếp được sử dụng Các hướng dẫn thích ứng từ một máy chủ cơ sở tri thức được chứng minh là hiệu quả hơn nhiều so với các hướng dẫn khác trong một số trường hợp nhất định, chẳng
Trang 13hạn như hướng dẫn quản lý cơn đau ngực Tính mơ hồ, thiếu chính xác và không chắc chắn là những khía cạnh cơ bản và không thể thiếu của kiến thức,
do đó, trong một số vấn đề thực tế, các chuyên gia phải đối mặt với sự mơ hồ trong các vectơ đặc trưng và sự không chắc chắn trong việc ra quyết định Về
cơ bản, một triệu chứng là một dấu hiệu không chắc chắn của một hiện tượng
vì nó có thể xảy ra hoặc không xảy ra với nó Đặc biệt, sự không chắc chắn thể hiện mối quan hệ giữa các triệu chứng và hiện tượng
Trong hầu hết mọi giai đoạn của quá trình ra quyết định lâm sàng, sự không chắc chắn đều xảy ra Các nguồn không chắc chắn có thể bao gồm bệnh nhân không thể mô tả chính xác những gì đã xảy ra với họ hoặc họ phải chịu đựng như thế nào, bác sĩ và y tá không thể giải thích chính xác những gì
họ phát hiện, kết quả của các báo cáo trong phòng thí nghiệm có thể có một số mức độ sai sót, các nhà sinh lý học không hiểu chính xác con người như thế nào cơ thể hoạt động, các nhà nghiên cứu y tế không thể mô tả chính xác cách các bệnh thay đổi hoạt động bình thường của cơ thể, các nhà dược học không hiểu các cơ chế hoàn toàn tính đến hiệu quả của thuốc, và không ai có thể xác định chính xác tiên lượng của một Các hệ thống hỗ trợ quyết định được triển khai với sự hỗ trợ của trí tuệ nhân tạo có khả năng tạo nên sự quan tâm trong môi trường mới và học hỏi một cách cụ thể Trong hệ thống hỗ trợ
có sự trợ giúp của máy tính/hệ thống chuyên gia, các phương pháp khác nhau được khai thác để tổng hợp thông tin được sử dụng cho quá trình ra quyết định Phương pháp thống kê, mạng nơron, phương pháp dựa trên tri thức, dựa trên quy tắc logic mờ, thuật toán di truyền, cây quyết định và nhiều hơn nữa được bao gồm trong các phương pháp này Kể từ khi ý tưởng về CDSS dựa trên máy tính xuất hiện lần đầu tiên, các nghiên cứu đáng kể đã được thực hiện trong cả lĩnh vực lý thuyết và thực tiễn Tuy nhiên, nhiều trở ngại vẫn tồn tại cản trở việc triển khai hiệu quả các CDSS trong môi trường lâm sàng, trong đó việc trình bày và lý luận về kiến thức y khoa chủ yếu là không chắc chắn là những lĩnh vực cần các phương pháp và kỹ thuật tinh chỉnh
Trang 14Ngày nay, với sự phát triển vượt bậc của công nghệ thông tin, các ứng dụng công nghệ thông tin đã góp phần thay đổi cuộc sống của con người, hỗ trợ chúng ta trong hầu hết tất cả các lĩnh vực: kinh tế, xã hội, giáo dục, y tế, khoa học… nó đã trở thành một phần không thể thiếu được trong cuộc sống hàng ngày của con người Tuy nhiên, song hành cùng với sự phát triển này là
sự gia tăng bùng nổ của dữ liệu Khai phá dữ liệu là một trong những lĩnh vực đang phát triển nhanh chóng và đã được ứng dụng trong nhiều lĩnh vực khác nhau Những lĩnh vực ứng dụng tiêu biểu của khai phá dữ liệu là trong kinh doanh thương mại, khoa học kỹ thuật Trong những lĩnh vực đó, y học là một trong những lĩnh vực mà khai phá dữ liệu đã có những đóng góp đáng kể và trở thành một trong những giải pháp cho nhiều vấn đề y học Khai phá dữ liệu giúp tìm ra manh mối liên hệ giữa các triệu chứng lâm sàng, chẩn đoán bênh Tuy nhiên Khai phá dữ liệu trong lĩnh vực y khoa ở nước ta còn rất ít, gặp nhiều khó khăn do hiện nay chưa thực sự nhiều bệnh viện thực hiện bệnh án điện tử (EMR) Việc khai phá trong lĩnh vực này thực sự mang lại nhiều ý nghĩa cho y học chứng cớ và y học thực chứng để hỗ trợ cho các bác sĩ, chẩn đoán bệnh sớm và điều trị có hiệu quả Đây là một nhu cầu thiết thực trong các bệnh viện Từ những lý do trên và xu hướng tất yếu, tôi chọn đề tài
“Nghiên cứu ứng dụng kỹ thuật khai phá dữ liệu hỗ trợ công tác chẩn đoán bệnh tại Bệnh viện Đa khoa tỉnh Thanh Hóa ” để làm thực hiện Hi vọng, kết quả nghiên cứu của luận văn sẽ góp phần hỗ trợ công tác chẩn đoán bệnh tại bệnh viện Đa khoa Tỉnh Thanh Hóa
2 Mục tiêu nghiên cứu:
+ Nghiên cứu tổng quan về khai phá dữ liệu trong y học, trong đó tập trung vào khai phá dữ liệu và các ứng dụng khai phá dữ liệu trong y học
+ Nghiên cứu về dữ liệu bệnh nhân thông qua nghiên cứu hồ sơ bệnh án + Nghiên cứu các kỹ thuật khai phá dữ liệu dựa trên các cây quyết định
Trang 153 Đối tượng và phạm vi nghiên cứu:
Luận văn đi sâu vào tập trung nghiên cứu về khai phá dữ liệu, các kỹ thuật khai phá dữ liệu Phạm vi của luận văn giới hạn trong việc tìm hiểu về khai phá dữ liệu, sử dụng cây quyết định trong khai phá dữ liệu
4 Phương pháp nghiên cứu:
- Tìm hiểu nghiệp vụ y tế liên quan đến một số bệnh vụ thể phân chia theo độ tuổi, giới tính, vùng miền, thói quen sinh hoạt…
- Thu thập và tiền xử lý dữ liệu tại Bệnh viện đa khoa tỉnh Thanh Hóa
- Tìm hiểu bài toán phân lớp trong khai phá dữ liệu, lựa chọn thuật toán phù hợp (Cây quyết định và thuật toán C4.5)
- Xây dựng mô hình hỗ trợ chuẩn đoán bệnh và khả năng mắc bệnh cho các bệnh nhân thông qua dữ liệu bệnh án
5 Ý nghĩa của đề tài:
- Xây dựng các mô hình hỗ trợ chẩn đoán một số bệnh thường gặp tại Bệnh viện Đa khoa tỉnh Thanh Hóa
- Ứng dụng các mô hình vào công việc hỗ trợ chẩn đoán bệnh tại Bệnh viện Đa khoa tỉnh Thanh Hóa
6 Cấu trúc luận văn:
Nội dung chính trong luận văn gồm:
Chương 1: Tổng quan về công tác hỗ trợ khám chữa bệnh tại Bệnh viện
Đa khoa tỉnh Thanh Hóa
Chương 2: Các kỹ thuật khai phá dữ liệu trong Y tế
Chương 3: Mô hình chẩn đoán bệnh suy tim
Trang 16CHƯƠNG 1: TỔNG QUAN VỀ BỆNH VIỆN ĐA KHOA TỈNH
THANH HOÁ 1.1 Tổng quan về Bệnh viện Đa khoa Tỉnh Thanh Hoá
Bệnh viện Đa khoa tỉnh Thanh Hóa được thành lập từ năm 1899, đến nay đã là Bệnh viện hạng I, có quy mô 1.200 giường bệnh, với 1.226 cán bộ viên chức, người lao động Trong đó có 263 Bác sĩ có trình độ đại học và trên đại học (Tiến sĩ 04; BSCKII 29; CKI 55; Thạc sĩ 62; Bác sĩ đa khoa 113) được phân bố ở 44 Khoa, Phòng, bộ phận và 02 Trung tâm Bệnh viện có cơ
sở hạ tầng khá khang trang, nhiều trang thiết bị y tế hiện đại và một khối lượng lớn các dịch vụ kỹ thuật y tế có chất lượng cao; nhiều thế hệ các thầy thuốc, cán bộ khoa học có uy tín trải qua hoạt động thực tiễn, không ngừng học tập, nghiên cứu khoa học, đã từng bước trưởng thành, đạt được trình độ học vấn cao và đã được nhà nước phong tặng các danh hiệu cao quý khi công tác tại Bệnh viện
Hình 1.1 Sơ đồ tổ chức bộ máy hoạt động của Bệnh viên Đa khoa Tỉnh
Trong những năm qua, Bệnh viện luôn hoàn thành xuất sắc nhiệm vụ chính trị được giao, với nhiều thành côngtrong công tác ứng dụng những thành tựu khoa học kỹ thuật y học trong khám bệnh, chữa bệnh cho nhân dân,
Trang 17từng bước khẳng định chất lượng, uy tín, thương hiệu và vị thế của Bệnh viện hạng I lớn nhất tỉnh Về lĩnh vực ngoại khoa, đã có nhiều kỹ thuật được thực hiện thường quy tương đương với tuyến trung ương như: Ghép thận từ người cho sống và người cho chết não, phẫu thuật nội soi ổ bụng; Phẫu thuật nội soi cắt u xơ tiền liệt tuyến, u bàng quang, cắt nang thận, nội soi sau phúc mạc lấy sỏi niệu quản và gần đây hàng chục bệnh nhân đã được phẫu thuật cắt thận, cắt thận bán phần nội soi, tạo hình bàng quang bằng quai ruột thành công; rất nhiều ca bệnh sỏi thận, niệu quản được điều trị với kết quả tốt bằng tán sỏi ngoài cơ thể định vị siêu âm và X-quang; tán sỏi niệu quản nội soi ngược dòng bằng laser, tán sỏi thận nội soi qua da bằng đường hầm nhỏ (Mini - PCNL) sử dụng Laser cường độ cao 100W; Phẫu thuật nội soi lồng ngực; Phẫu thuật sọ não, hộp sọ; phẫu thuật cột sống; hàng nghìn bệnh nhân phẫu thuật kết xương phức tạp và hàng nghìn bệnh nhân đã được thay chỏm xương đùi, thay khớp háng toàn phần/bán phần, thay khớp gối đạt kết quả tốt và an toàn; gần đây phẫu thuật nội soi khớp gối, tái tạo dây chằng tổn thương do chấn thương cũng đã thực hiện thành công Những kỹ thuật phức tạp như phẫu thuật cắt khối tá tụy, cắt dạ dày toàn bộ, cắt u dạ dày nội soi, cắt u thực quản 1/3 dưới, phẫu thuật cắt đại tràng nội soi, cắt tuyến giáp nội soi, phẫu thuật trĩ Longo, phẫu thuật Phaco mắt, phẫu thuật nội soi Tai mũi họng, cấy ghép Implant là những kỹ thuật đã được hoàn thiện Giữa năm 2014, những ca phẫu thuật đầu tiên cho bệnh nhân có khối u trung thất, u phổi, u màng ngoài tim đã được thực hiện thành công, an toàn, có lợi ích lớn trong cải thiện chất lượng cuộc sống, mang đến niềm vui, hạnh phúc cho người bệnh, gia đình và
xã hội; thực hiện thường quy phẫu thuật thay van tim nhân tạo, phẫu thuật nội soi một số bệnh tim bẩm sinh, phẫu thuật thay đoạn động mạch chủ
Về lĩnh vực nội khoa và can thiệp cũng không ngừng phát triển, các kỹ thuật và tiến bộ mới trong điều trị và can thiệp đã làm cho khoảng cách giữa nội khoa và ngoại khoa ngày càng xích lại gần hơn, nhiều bệnh lý nếu như trước đây chỉ có thể điều trị bằng ngoại khoa thì nay phần lớn có thể chỉ cần điều trị nội khoa và can thiệp như các bệnh lý viêm loét ống tiêu hóa; khối u
Trang 18nhồi máu não…, có thể điều trị bằng can thiệp nút mạch, thắt tĩnh mạch thực quản qua nội soi, bít dù các lỗ thông tim bằng can thiệp tim mạch, tiêu sợi huyết, can thiệp mạch não lấy huyết khối bằng dụng cụ cơ học Solitaire, điều trị túi phình mạch não bằng phương pháp đặt coil nội mạch; đơn vị tim mạch can thiệp đã thực hiện hàng trăm ca chụp và can thiệp đặt stent động mạch vành mỗi năm, triển khai thành công kỹ thuật thăm dò điện sinh lý tim và điều trị rối loạn nhịp tim bằng sóng cao tần RF, nhờ đó, nhiều ca bệnh đã được cứu sống một cách kỳ diệu, không cần phải chuyển tuyến trên Gần đây Bệnh viện
đã đưa vào hoạt động thiết bị điều trị khối u bằng sóng siêu âm cao tần (HIFU), điều trị khối u phổi bằng đốt sóng cao tần RFA, bước đầu đạt hiệu quả, mở ra triển vọng mới trong điều trị cho một số bệnh nhân mắc ung thư gan, tụy, tiền liệt tuyến và tuyến vú…; các kỹ thuật khác như sinh thiết mù màng phổi; sử dụng huyết tương giầu tiểu cầu điều trị bệnh thoái hóa khớp gối; điện quang can thiệp điều trị u gan bằng RF, điều trị ho máu… Bên cạnh
đó là những kỹ thuật chuyên khoa sâu như thận nhân tạo chu kỳ, lọc máu liên tục, siêu thẩm tách HDF-online, lọc máu phụ, xạ trị gia tốc điều trị ung thư, đặt máy tạo nhịp tạm thời, vĩnh viễn, sốc điện cấp cứu ngừng tuần hoàn, bơm xi măng cột sống điều trị bệnh lý cột sống, hồi sức tích cực, hồi sức và cấp cứu tim mạch, chăm sóc tăng cường, thở máy và thở máy dài ngày, các
kỹ năng về cấp cứu và điều trị nội ngoại khoa, kỹ thuật gây mê, các thủ thuật lâm sàng, triển khai các dịch vụ giảm đau theo mô hình Nhật Bản cũng đã trở nên thuần thục và thường quy, góp phần nâng cao chất lượng chuyên môn, hạn chế bệnh nhân phải chuyển tuyến trên, giảm tải cho các bệnh viện Trung ương
Về lĩnh vực Cận lâm sàng với việc đầu tư nhiều trang thiết bị y tế tân tiến, hiện đại đã nối dài bàn tay của Thầy thuốc điều trị, các kỹ thuật cận lâm sàng phát triển đáp ứng nhu cầu cho chẩn đoán và điều trị chất lượng cao như:
Hệ thống máy đông máu tự động, máy phân tích huyết học tự động, hệ thống máy xét nghiệm miễn dịch điện hóa phát quang tự động, hệ thống labo trung tâm hóa sinh cao cấp Cobas 8000, xét nghiệm các marker ung thư, máy cấy máu tự động, hệ thống máy định danh vi khuẩn nhanh và kháng sinh đồ tự
Trang 19động, hệ thống nột soi ống mềm chẩn đoán và can thiệp điều trị, hệ thống máy siêu âm Doppler màu, siêu âm tim qua thực quản, máy chụp vú Mammography, máy chụp cắt lớp vi tính CT- Scanner và máy chụp cắt lớp đa dãy đầu dò MSCT-128 lát cắt, 02 hệ thống chụp mạch kỹ thuật số DSA, máy chụp cộng hưởng từ MRI, thiết bị chẩn đoán tế bào và tổ chức học, phát hiện sớm ung thư, máy xét nghiệm hóa mô miễn dịch, máy chụp đáy mắt võng mạc Các khoa Hóa sinh, Vi sinh và Trung tâm Huyết học và Truyền máu được công nhận đạt tiêu chuẩn Quốc tế ISO 15189:2012
Bên cạnh đó, để không ngừng nâng cao chất lượng chuyên môn, Bệnh viện đã chú trọng đẩy mạnh công tác đào tạo và đào tạo lại, cập nhật các kiến thức mới, khuyến khích, hỗ trợ học tập nâng cao trình độ, đào tạo cán bộ chuyên ngành sâu theo quy hoạch, theo nhu cầu phát triển chuyên môn, đa dạng hoá các hình thức đào tạo, chuyển giao kỹ thuật; kết hợp các hình thức đào tạo tập trung tại tuyến trung uơng, đào tạo tại chỗ theo chương trình bệnh viện vệ tinh, 1816 của Bộ Y tế và mời các Giáo sư, chuyên gia đầu ngành vào giảng dạy, phẫu thuật, chuyển giao kỹ thuật theo những chương trình riêng của Bệnh viện nhằm không ngừng nâng cao trình độ chuyên môn, nâng cao chất lượng đội ngũ bác sĩ, kỹ thuật viên, điều dưỡng để có thể làm chủ về kỹ thuật và các trang thiết bị hiện đại
Phong trào nghiên cứu khoa học, sáng kiến cải tiến được chú trọng đẩy mạnh, những năm gần đây đã có hàng trăm công trình nghiên cứu khoa học, sáng kiến cải tiến kỹ thuật có giá trị thực tiễn được cán bộ, viên chức, người lao động Bệnh viện thực hiện Trong số đó, có 03 đề tài nghiên cứu khoa học
đa quốc gia, 02 đề tài nghiên cứu khoa học cấp quốc gia, 02 đề tài nghiên cứu khoa học cấp bộ, 08 đề tài nghiên cứu khoa học cấp tỉnh được cán bộ, viên chức Bệnh viện làm chủ đề tài hoặc cùng tam gia nghiên cứu với kết quả đánh giá, xếp loại xuất sắc và khá Hàng năm, Bệnh viện tổ chức Hội nghị tổng kết công tác nghiên cứu khoa học và ra mắt bạn đọc cuốn kỷ yếu các đề tài nghiên cứu khoa học của Bệnh viện với hàng trăm công trình khoa học, các
đề tài nghiên cứu có giá trị khoa học và thực tiễn, ghi nhận kết quả lao động
Trang 20khoa học và sáng tạo của cán bộ Bệnh viện trong thời kỳ đổi mới Hàng tháng bệnh viện đã tổ chức đều đặn các buổi sinh hoạt khoa học với chất lượng ngày càng cao, giúp cho cán bộ cập nhật được kiến thức mới Tăng cường giao lưu quốc tế về khoa học và nghiên cứu khoa học, chuyển giao kỹ thuật để không ngừng nâng cao chất lượng chuyên môn
1.2 Quy trình khám chữa bệnh tại bệnh viện Đa khoa Tỉnh Thanh Hoá
Bệnh viện Đa khoa tỉnh Thanh hóa là bệnh viện hạng I với quy mô
1200 giường bệnh Mỗi ngày Bệnh viện khám gần 1000 lượt bệnh nhân đến khám
Quy trình khám chữa bệnh cho bệnh nhân được thực hiện tuỳ thuộc vào đối tượng người bệnh
+ Đối với bệnh nhân có Bảo hiểm y tế (BHYT):
Bệnh nhân đến khám, sẽ lấy số thứ tự ở case phát số tự động dành cho bệnh nhân BHYT Sau đó đăng ký khám và nộp thẻ BHYT tại quầy đón tiếp bệnh nhân BHYT Bệnh nhân sẽ được phân về các phòng khám chuyên khoa (sau khi bệnh nhân khai báo yêu cầu khám) Tại các phòng khám chuyên khoa, bác sĩ sẽ thăm khám về mặt lâm sàng và chỉ định các dịch vụ kỹ thuật (DVKT) phù hợp sau khi thăm khám Sau khi được bác sĩ chỉ định các dịch
vụ kỹ thuật chuyên khoa, Bệnh nhân sẽ tạm ứng quỹ thanh toán chi phí cùng chi trả không thuộc phạm vi thanh toán BHYT Bệnh nhân sẽ thực hiện các DVKT (siêu âm, điện tim, chụp X-Q, xét nghiệm máu…) và chờ kết quả theo hướng dẫn Sau khi lấy kết quả, bệnh nhân sẽ quay trở lại phòng khám ban đầu để bác sĩ kết luận và tư vấn Lúc này nếu bệnh nhân cần nhập viện điều trị nội trú thì bác sĩ sẽ cho làm bệnh án và nhập viện Nếu không, bệnh nhân sẽ nhận đơn thuốc, thanh toán chi phí cùng chi trả, nhận thẻ BHYT và lấy thuốc theo đơn tại quầy phát thuốc BHYT
+ Đối với bệnh nhân không có BHYT (bệnh nhân tự chi trả):
Bệnh nhân đến khám, sẽ lấy số thứ tự ở case phát số tự động dành cho bệnh nhân Viện phí Sau đó đăng ký mua phiếu khám tại quầy đón tiếp bệnh
Trang 21nhân Viện phí Bệnh nhân sẽ được phân về các phòng khám chuyên khoa (sau khi bệnh nhân khai báo yêu cầu khám) Tại các phòng khám chuyên khoa, bác
sĩ sẽ thăm khám về mặt lâm sàng và chỉ định các dịch vụ kỹ thuật (DVKT) phù hợp sau khi thăm khám Sau khi được bác sĩ chỉ định các dịch vụ kỹ thuật chuyên khoa, Bệnh nhân sẽ nộp tiền tại quầy tài chính dành riêng cho bệnh nhân viện phí Bệnh nhân sẽ thực hiện các DVKT (siêu âm, điện tim, chụp X-Q, xét nghiệm máu…) và chờ kết quả theo hướng dẫn Sau khi lấy kết quả, bệnh nhân sẽ quay trở lại phòng khám ban đầu để bác sĩ kết luận và tư vấn Lúc này nếu bệnh nhân cần nhập viện điều trị nội trú thì bác sĩ sẽ cho làm bệnh án và nhập viện Nếu không, bệnh nhân sẽ được cấp toa cho về và
có thể mua thuốc tại quầy thuốc của Bệnh viện
Hiện nay, để tăng cường ứng dụng công nghệ thông tin vào công tác quản lý hành chính và hỗ trợ công tác khám chữa bệnh, bệnh viện đang triển khai phần mềm quản lý hồ sơ khám chữa bệnh Phần mềm quản lý hồ sơ khám chữa bệnh giúp bệnh viện có thể dễ dàng quản lý hồ sơ khám chữa bệnh của bệnh nhân Hệ thống bao gồm các nghiệp vụ chính như:
+ Quản lý thông tin khám chữa bệnh của bệnh nhân: Nhập thông tin hành chính (Họ tên, địa chỉ, thông tin thẻ BHYT,…) và thông tin khám chữa bệnh (Công khám, dịch vụ cận lâm sàng, thuốc, giường bệnh, …) để in ra các phiếu 01, 02, 03
+ Tra cứu, kiểm tra lịch sử thông tin khám chữa bệnh của bệnh nhân tại viện
+ Thống kê báo cáo C79a, C80a, 19/BHYT, 20/BHYT/, 21/BHYT, kết xuất XML chuẩn dữ liệu đầu ra theo quyết định 4210/BYT ban hành
Trang 22Hình 1.2 Sơ đồ quy trình khám chữa bệnh tại bệnh viên Đa khoa Tỉnh Thanh Hoá
Ưu điểm của việc sử dụng phần mềm là xử lý dữ liệu, thông tin nhanh,
hỗ trợ nhiều công cụ tiện ích, thao tác dễ dàng; có khả năng kết xuất, thống kê
dữ liệu linh hoạt, chính xác theo chuẩn 4210; đảm bảo được tính an toàn và
Trang 23bảo mật thông tin; tiết kiệm thời gian xử lý hành chính để tập trung vào công tác chuyên môn; thông tin linh hoạt: trên hệ thống, một số thông tin chỉ cần nhập duy nhất một lần và được sử dụng nhiều lần tại nhiều bộ phận khác nhau; giảm thiểu rủi ro, nhầm lẫn trong quá trình khám chữa bệnh; nâng cao nghiệp vụ chuyên môn y học; giảm thiểu thời gian chờ đợi, quá tải của bệnh nhân; công tác thống kê, báo cáo không mất nhiều thời gian, sức lực như trước; tuân thủ quy trình báo cáo thống kê theo Bộ y tế, Bảo hiểm xã hội
1.3 Nhu cầu về việc ứng dụng công nghệ thông tin trong hỗ trợ khám chữa bệnh
Thời gian qua, ứng dụng CNTT trong lĩnh vực y tế đã mang lại nhiều thành tựu trong việc khám chữa bệnh, có bước chuyển biến mạnh mẽ Theo kết quả thống kê của Cục Ứng dụng CNTT, Bộ Y tế, đến nay 100% các bệnh viện đã triển khai ứng dụng CNTT ở các mức độ khác nhau, một số bệnh viện
đã bước đầu triển khai hồ sơ bệnh án điện tử
Cụ thể, hệ thống tư vấn khám, chữa bệnh từ xa được nhiều bệnh viện triển khai tốt: Tại Bệnh viện Bạch Mai đã triển khai với 11 bệnh viện
vệ tinh tuyến tỉnh, thành phố; Bệnh viện Việt Đức triển khai với 7 bệnh viện vệ tinh Trong thời gian tới, Bộ Y tế sẽ xây dựng kế hoạch triển khai
Dự án Telemedicine đến các bệnh viện hạt nhân còn lại thuộc Đề án Bệnh viện vệ tinh
Việc triển khai ứng dụng robot cũng đã được thực hiện tại một số bệnh viện hạt nhân Hiện nay có 4 hệ thống nổi bật đang được ứng dụng trong y học hiện đại là robot phẫu thuật nội soi Da Vinci, robot phẫu thuật cột sống Renaissance, robot phẫu thuật khớp gối và khớp háng Makoplasty và robot phẫu thuật thần kinh Rosa Một số bệnh viện đã trang bị robot như: Bệnh viện Việt Đức; Bệnh viện Nhi Trung ương; Bệnh viện Bình Dân; Bệnh viện Bạch Mai; Bệnh viện Chợ Rẫy…
Lần đầu tiên, một số bệnh viện đã thí điểm đưa ứng dụng “điện toán biết nhận thức” hỗ trợ điều trị ung thư tại Bệnh viện Đa khoa tỉnh Phú Thọ
Trang 24(năm 2018); ứng dụng ra quyết định lâm sàng trong các hệ thống thông tin bệnh viện; cảnh báo tương tác thuốc bệnh viện; trong hỗ trợ tư vấn – chatbot; nhận dạng tiếng nói để nhập dữ liệu và hệ thống thông tin bệnh viện đang được các doanh nghiệp nghiên cứu thực nghiệm …
Một số bệnh viện đã sử dụng mạng xã hội trong tương tác bệnh nhân như Hà Nội, Đà Nẵng, TP HCM…phát triển ứng dụng hồ sơ sức khỏe cho bệnh nhân; ứng dụng điện toán đám mây cho quản lý hệ thống thông tin bệnh viện quy mô vừa và nhỏ ở Nghệ An, Tiền Giang, Kon Tum…
Đặc biệt, kết quả ứng dụng CNTT trong khám, chữa bệnh Bảo hiểm Y
tế cũng đạt được nhiều hiệu quả tích cực Thành công trong việc kết nối liên thông giữa cơ sở khám chữa bệnh của 63 tỉnh, thành phố với cơ quan Bảo hiểm xã hội Cụ thể, đã kết nối liên thông giữa 63 Sở Y tế, 63 cơ quan Bảo hiểm xã hội, 1.356 bệnh viện các tuyến, 704 cơ quan Bảo hiểm xã hội quận, huyện; 704 trung tâm y tế huyện; 710 trung tâm y tế cơ quan, xí nghiệp và 11.105 trạm y tế xã, phường trên cả nước với nhau…
Ngày nay, cùng với sự phát triển mạnh mẽ của cuộc cách mạng 4.0, thời đại của y tế thông minh Giờ đây, việc ứng dụng trí tuệ nhân tạo (AI) vào các hệ thống thông tin y tế để các hệ thống này thông minh hơn và thậm chí
có thể “suy nghĩ” theo phương thức nào đó là hoàn toàn có thể thực hiện được Y tế thông minh chính là việc áp dụng các công nghệ thông tin trong việc chăm sóc sức khỏe con người như và kết hợp với các công nghệ thông tinh nhằm tạo ra các bước đột phá trong việc chăm sóc sức khỏe người dân
Việc ứng dụng và phát triển công nghệ thông minh trong y tế góp phần xây dựng hệ thống y tế Việt Nam hiện đại, chất lượng, công bằng, hiệu quả và hội nhập quốc tế Đồng thời, giúp người dân dễ dàng tiếp cận, sử dụng các dịch vụ y tế có hiệu quả cao nhất ở mọi lúc, mọi nơi và được bảo vệ, chăm sóc, nâng cao sức khỏe liên tục, toàn diện, suốt đời
Nhu cầu ứng dụng công nghệ thông tin vào khám chữa bệnh là rất lớn đối với các bệnh viện tuyến tỉnh, khi số lượng bệnh nhân cần được khám, chăm sóc và chữa bệnh là rất lớn Tuy nhiên, cần xác định rõ những lĩnh vực
Trang 25cần thiết phải áp dụng các công nghệ mới nhất của lĩnh vực công nghệ thông tin Việc áp dụng các công nghệ khai phá dữ liệu trong lĩnh vực y tế cũng là một cách tiếp cận tốt nhằm nâng cao chất lượng quản lý và hỗ trợ công tác khám, chữa bệnh và theo dõi quá trình khám chữa bệnh tại các bệnh viện, đặc biệt là bệnh viên đa khoa tuyến tỉnh Việc ứng dụng CNTT có thể được thực hiện thông qua xây dựng một mô hình cho phép hỗ trợ việc chẩn đoán bệnh suy tim cần được xây dựng dựa trên những thông tin về triệu chứng lâm sàng
có thể thu nhận được từ những đánh giá của các bác sĩ chuyên ngành mà không cần phải sử dụng những thông tin về cận lâm sàng Mô hình hỗ trợ chẩn đoán bệnh cung cấp thông tin tham khảo cho cả bệnh nhân và nhân viên
y tế nhằm xác định được mức độ nguy hiểm của bệnh từ đó đưa ra các khuyến cáo phù hợp với tình trạng của người bệnh, giảm được thời gian và công sức trong việc thực hiện các dịch vụ y tế không cần thiết
1.4 Kết luận chương 1
Trong chương này, tác giả đã trình bày tổng quan về bệnh viên Đa khoa tỉnh Thanh hóa như năng lực khám chữa bệnh, quy trình khám chữa bệnh, khả năng ứng dụng công nghệ thông tin vào khám chữa bệnh tại bệnh viện Qua
đó thấy rằng, nhu cầu ứng dụng công nghệ thông tin, đặc biệt là các kỹ thuật khai phá dữ liệu vào việc hỗ trợ quản lý công tác khám, chữa bệnh tại bệnh viên là rất cao, rất cấp thiết Trong chương tiếp theo, tác giả sẽ trình bày về các kỹ thuật khai phá dữ liệu thường được áp dụng trong khai phá dữ liệu y tế
Trang 26CHƯƠNG 2: CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG Y TẾ 2.1 Tổng quan về khai phá dữ liệu
Khai phá dữ liệu (Data mining) là quá trình phân loại, sắp xếp các tập hợp dữ liệu lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các vấn đề nhờ phân tích dữ liệu Các thuật toán khai phá dữ liệu cho phép các doanh nghiệp có thể dự đoán được xu hướng tương lai
Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên sâu cũng như các công nghệ tính toán Hơn nữa, Data mining không chỉ giới hạn trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích hợp dữ liệu và phân tích mẫu.[22]
Có nhiều tham số quan trọng trong Data mining, chẳng hạn như quy tắc kết hợp, phân loại, phân cụm và dự báo Một số tính năng chính của Data mining:
+ Dự đoán các mẫu dựa trên xu hướng trong dữ liệu
+ Tính toán dự đoán kết quả
+ Tạo thông tin phản hồi để phân tích
+ Tập trung vào cơ sở dữ liệu lớn hơn
+ Phân cụm dữ liệu trực quan
Các bước trong cần thực hiện trong khai phá dữ liệu [22]
Bước 1: Làm sạch dữ liệu – Trong bước này, dữ liệu được làm sạch sao cho không có những dữ liệu không liên quan hay bất thường trong dữ liệu
Bước 2: Tích hợp dữ liệu – Trong quá trình tich hợp dữ liệu, nhiều nguồn dữ liệu sẽ kết hợp lại thành một
Bước 3: Lựa chọn dữ liệu – Trong bước này, dữ liệu được trích xuất từ
cơ sở dữ liệu
Bước 4: Chuyển đổi dữ liệu – Trong bước này, dữ liệu sẽ được chuyển đổi để thực hiện phân tích tóm tắt cũng như các hoạt động được tổng hợp
Trang 27Bước 5: Khai phá dữ liệu- Trong bước này, chúng ta trích xuất dữ liệu hữu ích từ nhóm dữ liệu hiện có
Bước 6: Đánh giá mẫu – chúng ta phân tích một số mẫu có trong dữ liệu Bước 7: Trình bày thông tin- Trong bước cuối cùng, thông tin sẽ được thể hiện dưới dạng cây, bảng, biểu đồ và ma trận
Hinh 2 1 Các bước trong Datamining[22]
2.2 Các kỹ thuật khai phá dữ liệu điển hình
Về cơ bản, khai phá dữ liệu là về xử lý dữ liệu và nhận biết các mẫu và các xu hướng trong thông tin đó để bạn có thể quyết định hoặc đánh giá Các nguyên tắc khai phá dữ liệu đã được dùng nhiều năm rồi, nhưng với sự ra đời của big data (dữ liệu lớn), nó lại càng phổ biến hơn
Big data gây ra một sự bùng nổ về sử dụng nhiều kỹ thuật khai phá dữ liệu hơn, một phần vì kích thước thông tin lớn hơn rất nhiều và vì thông tin có
xu hướng đa dạng và mở rộng hơn về chính bản chất và nội dung của nó Với
Trang 28các tập hợp dữ liệu lớn, để nhận được số liệu thống kê tương đối đơn giản và
dễ dàng trong hệ thống vẫn chưa đủ Với 30 hoặc 40 triệu bản ghi thông tin khách hàng chi tiết, việc biết rằng 2 triệu khách hàng trong số đó sống tại một địa điểm vẫn chưa đủ Bạn muốn biết liệu 2 triệu khách hàng đó có thuộc về một nhóm tuổi cụ thể không và bạn cũng muốn biết thu nhập trung bình của
họ để bạn có thể tập trung vào các nhu cầu của khách hàng của mình tốt hơn
Những nhu cầu hướng kinh doanh này đã thay đổi cách lấy ra và thống
kê dữ liệu đơn giản sang việc khai phá dữ liệu phức tạp hơn Vấn đề kinh doanh hướng tới việc xem xét dữ liệu để giúp xây dựng một mô hình để mô tả các thông tin mà cuối cuộc sẽ dẫn đến việc tạo ra báo cáo kết quả
Quá trình phân tích dữ liệu, khám phá dữ liệu và xây dựng mô hình dữ liệu thường lặp lại khi chúng ta tập trung vào và nhận ra các thông tin khác nhau có thể trích ra Chúng ta cũng phải hiểu cách thiết lập quan hệ, ánh xạ, kết hợp và phân cụm thông tin đó với dữ liệu khác để tạo ra kết quả Quá trình nhận ra dữ liệu nguồn và các định dạng nguồn, rồi ánh xạ thông tin đó tới kết quả đã cho có thể thay đổi sau khi các yếu tố và các khía cạnh khác nhau của
dữ liệu được phát hiện
2.2.1 Các công cụ khai phá dữ liệu
Khai phá dữ liệu không phải là tất cả về các công cụ hay phần mềm cơ
sở dữ liệu mà bạn đang sử dụng Bạn có thể thực hiện khai phá dữ liệu bằng các hệ thống cơ sở dữ liệu bình thường và các công cụ đơn giản, bao gồm việc tạo và viết phần mềm riêng của bạn hoặc sử dụng các gói phần mềm bán ngoài cửa hàng Khai phá dữ liệu phức tạp được hưởng lợi từ kinh nghiệm trong quá khứ và các thuật toán đã định nghĩa với phần mềm và các gói phần mềm hiện có, với các công cụ nhất định để thu được một mối quan hệ hoặc uy tín lớn hơn bằng các kỹ thuật khác nhau.[23]
Ví dụ, IBM SPSS®, có nguồn gốc từ việc phân tích thống kê và khảo sát, có thể xây dựng các mô hình dự báo hiệu quả bằng cách xem xét các xu hướng trong quá khứ và xây dựng các dự báo chính xác IBM InfoSphere® Warehouse cung cấp thông tin tìm nguồn cấp dữ liệu, thông tin xử lý trước,
Trang 29thông tin khai phá và thông tin phân tích trong một gói duy nhất, để cho phép bạn lấy thông tin thẳng từ cơ sở dữ liệu nguồn đến đầu ra báo cáo cuối cùng.[23]
Gần đây các tập hợp dữ liệu rất lớn và việc xử lý dữ liệu theo cụm và quy mô lớn có thể cho phép khai phá dữ liệu để sắp xếp và lập báo cáo về các nhóm và các mối tương quan của dữ liệu phức tạp hơn Bây giờ đã có sẵn rất nhiều công cụ và hệ thống hoàn toàn mới, gồm các hệ thống lưu trữ
và xử lý dữ liệu kết hợp Bạn có thể khai phá dữ liệu với nhiều tập hợp dữ liệu khác nhau, gồm các cơ sở dữ liệu SQL truyền thống, dữ liệu văn bản thô, các kho khóa/giá trị và các cơ sở dữ liệu tài liệu Các cơ sở dữ liệu có phân cụm, như Hadoop, Cassandra, CouchDB và Couchbase Server, lưu trữ
và cung cấp quyền truy cập vào dữ liệu theo cách không phù hợp với cấu trúc bảng truyền thống
Đặc biệt, định dạng lưu trữ cơ sở dữ liệu tài liệu linh hoạt hơn lại gây ra một trọng tâm và sự phức tạp khác về xử lý thông tin Các cơ sở dữ liệu SQL
áp đặt các cấu trúc chặt chẽ và cứng nhắc vào lược đồ, làm cho việc truy vấn chúng và phân tích dữ liệu trở nên đơn giản theo quan điểm hiểu rõ định dạng
và cấu trúc thông tin
Các cơ sở dữ liệu tài liệu, có một tiêu chuẩn chẳng hạn như cấu trúc thực thi JSON hoặc các tệp có cấu trúc đọc được bằng máy tính nào đó, cũng
dễ xử lý hơn, mặc dù chúng có thể làm tăng thêm sự phức tạp do cấu trúc khác nhau và hay thay đổi Ví dụ, với việc xử lý dữ liệu hoàn toàn thô của Hadoop, có thể phức tạp để nhận biết và trích ra nội dung trước khi bạn bắt đầu xử lý và tương quan với nó
2.2.2 Các kỹ thuật khai phá dữ liệu chính
Một số kỹ thuật cốt lõi được sử dụng trong khai phá dữ liệu, mô tả kiểu hoạt động khai phá và hoạt động phục hồi dữ liệu Tuy nhiên, trong khai phá
dữ liệu, tồn tại một số các kỹ thuật khai phá dữ liệu sau:
Trang 30a Sử dụng luật kết hợp
Sự kết hợp (hay mối quan hệ) có lẽ là kỹ thuật khai phá dữ liệu được biết đến nhiều hơn, hầu như quen thuộc và đơn giản Ở đây, bạn thực hiện một sự tương quan đơn giản giữa hai hoặc nhiều mục, thường cùng kiểu để nhận biết các mẫu Ví dụ, khi theo dõi thói quen mua hàng của người dân, bạn có thể nhận biết rằng một khách hàng luôn mua kem khi họ mua dâu tây, nên bạn có thể đề xuất rằng lần tới khi họ mua dâu tây, họ cũng có thể muốn mua kem
Việc xây dựng các công cụ khai phá dữ liệu dựa trên sự kết hợp hay mối quan hệ có thể thực hiện đơn giản bằng các công cụ khác nhau Ví dụ, trong InfoSphere Warehouse một trình hướng dẫn đưa ra các cấu hình của một luồng thông tin được sử dụng kết hợp bằng cách xem xét thông tin nguồn đầu vào của cơ sở dữ liệu, thông tin về cơ sở ra quyết định và thông tin đầu ra của hệ thống
b Phân loại
Bạn có thể sử dụng sự phân loại để xây dựng một ý tưởng về kiểu khách hàng, kiểu mặt hàng hoặc kiểu đối tượng bằng cách mô tả nhiều thuộc tính để nhận biết một lớp cụ thể Ví dụ, bạn có thể dễ dàng phân loại các xe ô
tô thành các kiểu xe khác nhau (xe mui kín, 4x4, xe có thể bỏ mui) bằng cách xác định các thuộc tính khác nhau (số chỗ ngồi, hình dạng xe, các bánh xe điều khiển) Với một chiếc xe mới, bạn có thể đặt nó vào một lớp cụ thể bằng cách so sánh các thuộc tính với định nghĩa đã biết của chúng tôi Bạn có thể
áp dụng các nguyên tắc tương tự ấy cho các khách hàng, ví dụ bằng cách phân loại khách hàng theo độ tuổi và nhóm xã hội
Hơn nữa, bạn có thể sử dụng việc phân loại như một nguồn cấp, hoặc như là kết quả của các kỹ thuật khác Ví dụ, bạn có thể sử dụng các cây quyết định để xác định một cách phân loại Việc phân cụm sẽ cho phép bạn sử dụng các thuộc tính chung theo các cách phân loại khác nhau để nhận biết các cụm
Trang 31c Phân cụm dữ liệu
Bằng cách xem xét một hay nhiều thuộc tính hoặc các lớp, bạn có thể nhóm các phần dữ liệu riêng lẻ với nhau để tạo thành một quan điểm cấu trúc
Ở mức đơn giản, việc phân cụm đang sử dụng một hoặc nhiều thuộc tính làm
cơ sở cho bạn để nhận ra một nhóm các kết quả tương quan Việc phân cụm giúp để nhận biết các thông tin khác nhau vì nó tương quan với các ví dụ khác, nên bạn có thể thấy ở đâu có những điểm tương đồng và các phạm vi phù hợp
Việc phân cụm có thể làm theo hai cách Bạn có thể giả sử rằng có một cụm ở một điểm nhất định và sau đó sử dụng các tiêu chí nhận dạng của chúng tôi để xem liệu bạn có đúng không Trong ví dụ của , một ví dụ mẫu về
dữ liệu kinh doanh so sánh tuổi của khách hàng với quy mô bán hàng Thật hợp lý khi thấy rằng những người ở độ tuổi hai mươi (trước khi kết hôn và còn nhỏ), ở độ tuổi năm mươi và sáu mươi (khi không còn con cái ở nhà), có nhiều tiền tiêu hơn
Hinh 2 2 Ví dụ về phân cụm dữ liệu
Trong ví dụ này, chúng ta có thể nhận ra hai cụm, một cụm xung quanh nhóm 2.000 Đô la Mỹ/ 20-30 tuổi và một cụm ở nhóm 7.000-8.000 Đô la Mỹ/ 50-65 tuổi Trong trường hợp này, chúng tôi đã giả thuyết hai cụm và đã chứng minh giả thuyết của chúng tôi bằng một đồ thị đơn giản mà chúng tôi
có thể tạo ra bằng cách sử dụng bất kỳ phần mềm đồ họa thích hợp nào để có được cái nhìn nhanh chóng Các quyết định phức tạp hơn cần phải có một gói
Trang 32phần mềm phân tích đầy đủ, đặc biệt là nếu bạn muốn các quyết định tự động dựa vào thông tin lân cận gần nhất.[23]
Việc vẽ đồ thị phân cụm theo cách này là một ví dụ đơn giản về cái gọi
là nhận ra sự lân cận gần nhất Bạn có thể nhận ra các khách hàng riêng lẻ bằng sự gần gũi theo nghĩa đen của họ với nhau trên đồ thị Có nhiều khả năng là các khách hàng trong cùng một cụm cũng dùng chung các thuộc tính khác và bạn có thể sử dụng sự mong đợi đó để giúp hướng dẫn, phân loại và nếu không thì phân tích những người khác trong tập hợp dữ liệu của bạn
Bạn cũng có thể áp dụng việc phân cụm theo quan điểm ngược lại; dựa vào một số thuộc tính đầu vào, bạn có thể nhận ra các tạo phẩm khác nhau Ví
dụ, một nghiên cứu gần đây về các số PIN 4-chữ số đã tìm ra các cụm giữa các chữ số trong phạm vi 1-12 và 1-31 cho các cặp đầu tiên và thứ hai Bằng cách vẽ các cặp này, bạn có thể nhận ra và xác định các cụm liên quan đến ngày tháng (các ngày sinh nhật, các ngày kỷ niệm)
d Dự báo
Dự báo là một chủ đề rộng và đi từ dự báo về lỗi của các thành phần hay máy móc đến việc nhận ra sự gian lận và thậm chí là cả dự báo về lợi nhuận của công ty nữa Được sử dụng kết hợp với các kỹ thuật khai phá dữ liệu khác, dự báo gồm có việc phân tích các xu hướng, phân loại, so khớp mẫu và mối quan hệ Bằng cách phân tích các sự kiện hoặc các cá thể trong quá khứ, bạn có thể đưa ra một dự báo về một sự kiện
Khi sử dụng quyền hạn thẻ tín dụng, chẳng hạn, bạn có thể kết hợp phân tích cây quyết định của các giao dịch riêng lẻ trong quá khứ với việc phân loại và các sự so khớp mẫu lịch sử để nhận biết liệu một giao dịch có gian lận hay không Rất có thể là việc thực hiện một sự so khớp giữa việc mua vé các chuyến bay đến Mỹ và các giao dịch tại Mỹ cho thấy giao dịch này hợp lệ
Trang 33e Các mẫu tuần tự
Thường được sử dụng trên các dữ liệu dài hạn, các mẫu tuần tự là một phương pháp có ích để nhận biết các xu hướng hay các sự xuất hiện thường xuyên của các sự kiện tương tự Ví dụ, với dữ liệu khách hàng, bạn có thể nhận ra rằng các khách hàng cùng nhau mua một bộ sưu tập riêng lẻ về các sản phẩm tại nhiều thời điểm khác nhau trong năm Trong một ứng dụng giỏ hàng, bạn có thể sử dụng thông tin này để tự động đề xuất rằng một số mặt hàng nào đó được thêm vào một giỏ hàng dựa trên tần suất và lịch sử mua hàng trong quá khứ của các khách hàng
f Cây quyết định
Liên quan đến hầu hết các kỹ thuật khác (chủ yếu là phân loại và dự báo), cây quyết định có thể được sử dụng hoặc như là một phần trong các tiêu chí lựa chọn hoặc để hỗ trợ việc sử dụng và lựa chọn dữ liệu cụ thể bên trong cấu trúc tổng thể Trong cây quyết định, bạn bắt đầu bằng một câu hỏi đơn giản có hai câu trả lời (hoặc đôi khi có nhiều câu trả lời hơn) Mỗi câu trả lời lại dẫn đến thêm một câu hỏi nữa để giúp phân loại hay nhận biết dữ liệu sao cho có thể phân loại dữ liệu hoặc sao cho có thể thực hiện dự báo trên cơ sở mỗi câu trả lời
Các cây quyết định thường được sử dụng cùng với các hệ thống phân loại liên quan đến thông tin có kiểu thuộc tính và với các hệ thống dự báo, nơi các dự báo khác nhau có thể dựa trên kinh nghiệm lịch sử trong quá khứ để giúp hướng dẫn cấu trúc của cây quyết định và kết quả đầu ra
2.3 Khai phá dữ liệu y khoa
Triệu chứng lâm sàng và xét nghiệm là đa dạng Do đó việc chọn thuộc tính khai phá không đúng hoặc thiếu hoặc dư thừa dẫn đến các luật dư thừa vô nghĩa, sinh ra các mô hình chẩn đoán sai Do đó để chọn thuộc tính khai phá chính xác có liên quan, việc sử dụng tri thức chuyên gia bác sĩ, điều dưỡng là mục tiêu chính của canh tác dữ liệu y khoa Tri thức sử dụng của bác sĩ là:
Trang 34Kiến thức chuyên môn: Các Bác sĩ đã được đào tạo chuyên sâu về
lĩnh vực chuyên môn chẩn đoán và điều trị bệnh cho bệnh nhân, do đó những triệu chứng lâm sàng và xét nghiệm đã theo tiêu chẩn nhất định nào đó Trong
y khoa gọi là xét nghiệm thường quy, triệu chứng lâm sàng điển hình, phát đồ điều trị cơ bản[11]
Kinh nghiệm lâm sàng: Ngoài kiến thức chuyên môn đã được đào
tạo Với thời gian lâu năm điều trị bệnh, giúp cho các bác sĩ, điều dưỡng có kinh nghiệm Do đó các xét nghiệm, các triệu chứng lâm sàng sẽ được thu hẹp lại [11]
Y học chứng cứ và y học thực chứng: Nghiên cứu chẩn đoán bệnh là
một trong những đề tài khoa học đã được các y bác sĩ chứng minh qua thực tế lâm sàng chữa bệnh Tất cả triệu chứng lâm sàng và xét nghiệm có giá trị chẩn đoán điều được chứng minh qua những điều trị cho bệnh nhân cụ thể, những bệnh lý cụ thể[11]
Các tri thức trên giúp cho chuyên viên khai phá dữ liệu chọn lựa thuộc tính đúng, chính xác,(giảm thuộc tính khai phá cây quyết định đơn giản) giúp cho các thuật toán thực thi nhanh và hiệu quả Giúp cho việc xây dựng hệ thống đáp ứng được mục tiêu đề ra (chẩn đoán bệnh có độ chính xác cao) [2]
Tập dữ liệu y khoa
Cho một tập dữ liệu y khoa gồm A ={ T1,T2,T3…,Tn} là một tập thuộc tính điều kiện (conditional) , và một thuộc tính chẩn đoán D (diagnosis) Trong đó các thuộc tính có thể chuyển đổi, số hóa D có các giá trị chẩn đoán
Từ tập dữ liệu trên, cần tri thức trong tập dữ liệu này để chẩn đoán cho bệnh nhân mới Nếu dùng phương pháp khai phá dữ liệu (KPDL) cổ điển thì tập dữ liệu này sẽ cho ra các luật Theo thời gian, dữ liệu có thay đổi, khai phá cũng cho ra các luật Luật này không tận dụng được tri thức kinh nghiệm của chuyên gia và sau một thời gian ứng dụng, luật đó sẽ không giúp cho chẩn đoán chính xác hơn[11]
Trang 35Do đó, một phương pháp mới là kết hợp CTDL với KPDL nhằm cải thiện những khuyết điểm đó “dữ liệu“ trong khai phá tập dữ liệu y khoa, cần giải quyết các bài toán sau:
Bài toán 1: Phân loại bệnh nhân dựa trên chuẩn đoán lâm sàng của
chuyên gia lâm sàng Mỗi chuyên bác sĩ có thể có những tệp đặc tính khác nhau Vì vậy để không bỏ sót chẩn đoán bệnh nên kết hợp kinh nghiệm của nhiều chuyên gia càng tốt
Bài toán 2: Kết hợp với bài toán 1 cùng với việc dựa vào các kết quả
cận lâm sàng tiến hành thực nghiệm chẩn đoán bệnh nhân mới nhằm chuẩn hóa các tập thuộc tính có chẩn đoán chính xác cao để các chuyên gia bác sĩ đưa ra kết luận về trạng thái bệnh lý
Bài toán 3: Sử dụng các kỹ thuật khai phá dữ liệu tạo ra các mô hình
để chẩn đoán bệnh Xây dựng công cụ chuẩn đoán cận lâm sàng tự động gồm
2 bước cơ bản:
Bước 1: Huấn luyện (tập dữ liệu sẽ được dùng để huấn luyện mô hình
học máy như mô hình Markov ẩn, mô hình mạng Baysian, mô hình cây quyết định (trong luận văn này tác giả đã sử dụng kỹ thuật khai phai dữ liệu bằng cây quyết định)
Bước 2: Sau khi được huấn luyện, thì mô hình học máy này sẽ được sử
dụng để chẩn đoán bệnh nhân mới Kết quả chẩn đoán bệnh nhân mới này được dùng để kiểm chứng mô hình cũng như tập con thuộc tính đã được lựa chọn trong bài toán 1[11]
Luận văn tập trung xây dựng lời giải cho bài toán 3, sử dụng kỹ thuật khai phá dữ liệu bằng cây quyết định với thuật toán C4.5 để tạo ra các luật và tiến hành chẩn đoán bệnh nhân mới
2.4 Các nghiên cứu liên quan về các hệ hỗ trợ chẩn đoán bệnh
Ngày nay với sự phát triển mạnh mẽ của trí tuệ nhân tạo trong thời đại công nghệ 4.0, ngành y tế đã và đang đẩy mạnh ứng dụng của công nghệ
Trang 36thông tin vào các hoạt động khám chữa bệnh Điều này cho thấy hệ thống phần mềm hỗ trợ bác sĩ trong chẩn đoán bệnh là xu hướng tất yếu trong sự phát triển của xã hội không chỉ ở Việt Nam mà trên toàn thế giới Ở Việt Nam, hệ thống phần mềm hỗ trợ chẩn đoán bệnh không chỉ giúp giảm tải cho bác sĩ ở các bệnh viện tuyến trung ương mà còn hỗ trợ các bác sĩ ở tuyến tỉnh, các bác sĩ ở vùng sâu vùng xa trong việc chẩn đoán bệnh chính xác hơn và hiệu quả hơn Ứng dụng trí tuệ nhân tạo trong lĩnh vực chăm sóc sức khoẻ được nhiều các viện nghiên cứu, các tổ chức và các công ty đầu tư nghiên cứu Đã có nhiều sản phẩm ứng dụng trí tuệ nhân tạo được giới thiệu trên thị trường, từ các ứng dụng giữ gìn sức khỏe đến các ứng dụng được sử dụng tại các cơ sở y tế trong chẩn đoán, ra quyết định Tuy nhiên, các sản phẩm này về
cơ bản hoặc chưa được hoàn thiện hoặc có yêu cầu phức tạp về hạ tầng thiết
bị công nghệ thông tin mà không phải bệnh viên tuyến tỉnh và đặc biệt là tuyến huyện (và tương đương) nào cũng có thể đáp ứng được
Hệ thống Y tế Vinmec, Bệnh viện Phổi TƯ và VinBrain đã hợp tác và triển khai ứng dụng “AI Trợ lý bác sĩ trong chẩn đoán hình ảnh” Đây là một trong những phần mềm ứng dụng trí tuệ nhân tạo, kết hợp với công nghệ thị giác máy tính và công nghệ xử lý ngôn ngữ tự nhiên nhằm hỗ trợ nâng cao khả năng chẩn đoán bệnh Ứng dụng “AI Trợ lý bác sĩ” được VinBrain nghiên cứu phát triển nhằm hỗ trợ nâng cao khả năng chẩn đoán hình ảnh chính xác trong X-quang; chụp cắt lớp vi tính (CT); chụp cộng hưởng từ (MRI) Giai đoạn I của ứng dụng sẽ tập trung hỗ trợ bác sĩ chẩn đoán hình ảnh X-quang tim phổi - một trong những phương pháp chẩn đoán hình ảnh phổ biến nhất tại Việt Nam Điểm mạnh của phần mềm là khả năng gán nhãn
và lưu trữ ảnh với số lượng lớn Hiện nay, các chức năng liên quan đến phân tích phim chụp và hỗ trợ chẩn đoán đang trong giai đoạn phát triển
IBM Watson for Oncology là hệ thống ứng dụng trí tuệ nhân tạo hỗ trợ trong điều trị ung thư được phát triển bởi tập đoàn IBM với nền tảng bao gồm hơn 300 tạp chí y khoa, hơn 200 đầu sách y khoa trên thế giới được cập nhật liên tục Cùng với đó, hàng chục triệu hồ sơ bệnh án cùng hệ thống hướng dẫn
Trang 37điều trị hàng đầu của Hoa Kỳ đã được triển khai rộng rãi Sử dụng cơng nghệ trí tuệ nhân tạo trong điều trị ung thư cĩ thể tĩm tắt được đặc điểm y tế chính của bệnh nhân, cung cấp thơng tin cho bác sĩ, sắp xếp lựa chọn phác đồ điều trị, từ đĩ các bác sĩ cĩ thể lựa chọn phác đồ điều trị mới nhất, phù hợp nhất cho từng người bệnh Hiện tại IBM Watson for Oncology chưa hỗ trợ chẩn đốn ung thư mà mới chỉ hỗ trợ bác sĩ điều trị đưa ra phác đồ điều trị tối ưu nhất cho từng trường hợp bệnh nhân cụ thể Việc sử dụng trí tuệ nhân tạo trong chẩn đốn ung thư phổi cũng được nhĩm nghiên cứu của TS Trần Giang Sơn nghiên cứu, phát triển Tuy nhiên, các hệ thống yêu cầu sự đồng
bộ về các thiết bị y tế và cơng nghệ thơng tin Sự kết nối giữa các thiết bị phải được chuẩn hố Bên cạnh đĩ, các nghiên cứu địi hỏi nguồn đầu tư lớn cả về tài chính và nguồn nhân lực, điều này khĩ thực hiện đối với các bệnh viện tuyến tỉnh, tuyến huyện và tương đương
Một mơ hình dự đốn bệnh tim thơng minh được xây dựng với sự hỗ trợ của khai thác dữ liệu các kỹ thuật như Cây quyết định, Nạve Bayes và Mạng Nơ ron được đề xuất bởi Palaniappan và Awang, họ đã sử dụng phương pháp CRISP-DM1 để xây dựng các mơ hình khai thác trên tập dữ liệu thu được từ cơ sở dữ liệu Bệnh tim Cleveland Các kết quả cho thấy sức mạnh kỳ
lạ của mỗi của các phương pháp luận trong việc thực hiện các mục tiêu của các mục tiêu khai thác cụ thể Hệ thống dự báo bệnh tim thơng minh cĩ khả năng trả lời các truy vấn mà quyết định thơng thường hệ thống hỗ trợ đã khơng thể Nĩ tạo điều kiện cho thiết lập kiến thức quan trọng, ví dụ mẫu, các mối quan hệ giữa các yếu tố y tế được kết nối với bệnh tim
Một nghiên cứu khác đã thử nghiệm trên một mẫu cơ sở dữ liệu hồ sơ bệnh nhân Mạng nơ ron được kiểm tra và huấn luyện với 13 biến đầu vào như như tuổi, huyết áp, báo cáo chụp mạch và những thứ tương tự Mạng học giám sát đã được được đề nghị để chẩn đốn các bệnh tim Việc huấn luyện được thực hiện với sự hỗ trợ của thuật tốn lan truyền Bất cứ khi nào dữ liệu
1
Trang 38
https://towardsdatascience.com/crisp-dm-methodology-leader-in-data-mining-and-big-data-không xác định đã được đưa vào bởi bác sĩ, hệ thống xác định dữ liệu https://towardsdatascience.com/crisp-dm-methodology-leader-in-data-mining-and-big-data-không xác định bằng việc so sánh với các dữ liệu đã có và tạo ra một danh sách các bệnh có thể xảy ra đối với bệnh nhân Tỷ lệ thành công cho đầu vào không chính xác để truy xuất đầu ra mong muốn là gần nhất với 100%
Trong một nghiên cứu khác, vấn đề xác định các quy tắc liên kết ràng buộc đối với bệnh tim được sử dụng để dự đoán đã được nghiên cứu Tập dữ liệu cơ bản hồ sơ y tế bao gồm những người có bệnh tim với các thuộc tính cho các yếu tố nguy cơ, đo lưu lượng tim và độ hẹp động mạch Ba hạn chế được đưa ra để giảm số lượng mẫu Điều đầu tiên cần các thuộc tính chỉ xuất hiện ở một phía của quy tắc Thứ hai tách biệt các thuộc tính thành các nhóm không quan tâm Ràng buộc cuối cùng hạn chế số lượng thuộc tính trong một quy tắc Thử nghiệm minh họa rằng những ràng buộc làm giảm số lượng được phát hiện quy tắc đáng kể bên cạnh việc giảm thời gian thực thi Hai nhóm quy tắc dự kiến sự có hoặc không có bệnh tim ở bốn động mạch tim cụ thể
Vào năm 2010, một nghiên cứu đã được thực hiện nhằm xây dựng mô hình dự báo cho bệnh tim thiếu máu cục bộ (IHD); họ đã áp dụng mạng nơ-ron lan truyền ngược (BPNN), mạng nơ-ron Bayes (BNN), mạng nơ-ron xác suất (PNN) và máy vector hỗ trợ (SVM) để phát triển mô hình phân loại để xác định bệnh nhân IHD dựa trên dữ liệu thu được từ các phép đo từ trường tim tại 36 vị trí (ma trận 6 × 6) phía trên thân Kết quả cho thấy BPNN và BNN cho độ chính xác phân loại cao nhất là 78,43%, trong khi SVM với nhân RBF cho mức thấp nhất độ chính xác phân loại 60,78% BNN thể hiện
độ nhạy tốt nhất 96,55% và nhân RBF SVM hiển thị độ nhạy thấp nhất là 41,38% Cả nhân đa thức SVM và nhân RBF SVM trình bày độ đặc hiệu tối thiểu và tối đa tương ứng là 45,45% và 86,36%
Tại Việt Nam, ứng dụng công nghệ thông tin trong y tế là nhu cầu cấp thiết và được Bộ Y tế quan tâm để phát triển Tuy nhiên đến thời điểm này, hệ thống hỗ trợ y khoa không nhiều và chưa phát huy được hiệu quả Nguyên nhân không phải do các y, bác sĩ thiếu trình độ về ứng dụng hay máy móc kém mà do chưa có một hệ thống phù hợp Bên cạnh đó việc ứng dụng khai