Slide báo cáo đề tài môn học Khai phá dữ liệu. Xây dựng mô hình chuẩn đoán bệnh tim. Dưa trên tập Data có sẵn để xây dựng mô hình dựa đoán bệnh tim trên từng giai đoạn của bệnh nhân. Chẩn đoán y khoa được coi là một lĩnh vực quan trọng nhưng rất phức tạp, cần được thực hiện một cách chính xác và hiệu quả. Do đó, cần một hệ thống chẩn đoán y tế tự động có tính chính xác cao, giúp phát hiện ra các bệnh lý nghiêm trọng thông qua các xét nghiệm và triệu chứng lâm sàng sẽ giúp ích rất nhiều cho bệnh nhân và cả bác sĩ.
Trang 1Mô hình dự đoán bệnh tim
Giảng viên hướng dẫn: Nguyễn Đức Thịnh
Trang 3Giới thiệu
Giới thiệu về bài toán
dự đoán bệnh tim
01
Trang 4Khai thác dữ liệu trong lĩnh vực y tế có tiềm năng
lớn để phát hiện ra những mẫu ẩn trong bộ dữ liệu.
Những mẫu này có thể được sử dụng để chẩn đoán
lâm sàng, tuy nhiên nguồn dữ liệu y tế sẵn có được
phân phối rộng rãi, không đồng nhất về bản chất và
rất lớn Những dữ liệu này cần được thu thập dưới
dạng có tổ chức.
Chẩn đoán y khoa được coi là một lĩnh vực quan
trọng nhưng rất phức tạp, cần được thực hiện một
cách chính xác và hiệu quả.
Do đó, cần một hệ thống chẩn đoán y tế tự động có
tính chính xác cao, giúp phát hiện ra các bệnh lý
nghiêm trọng thông qua các xét nghiệm và triệu
chứng lâm sàng sẽ giúp ích rất nhiều cho bệnh nhân
và cả bác sĩ.
Bài toán
Trang 5Mục đích nghiên cứu
và ứng dụng
Trong báo cáo này, nhóm sẽ xây dựng mô hình dự đoán phát hiện các bệnh lý liên quan đến bệnh tim thông qua các xét nghiệm và triệu chứng lâm sàn giúp cho quá trình phát hiện ra bệnh từ những giai đoạn đầu sớm.
Trang 6Bộ dữ liệu
Trang 7Cơ sở lý thuyết
02
Trang 8Kiến trúc truyền thống của một mạng CNN
– Mạng neural tích chập (Convolutional
neural networks), còn được biết đến với tên
là CNNs
Mô hình CNN
Trang 9Tầng tích chập
(CONV)
Tầng tích chập (CONV) sử dụng các bộ lọc để thực hiện phép tích chập khi đưa chúng đi qua đầu vào I theo các chiều của nó Các siêu tham số của các bộ lọc này bao gồm kích thước bộ lọc F và độ trượt (stride)
Kết quả đầu ra O được gọi là feature map hay activation map
Trang 11Fully Connected
(FC)
Tầng kết nối đầy đủ (FC) nhận đầu vào là các
dữ liệu đã được làm phẳng, mà mỗi đầu vào
đó được kết nối đến tất cả neuron
Trang 12Các chiều của một bộ lọc
Zero-padding là tên gọi của quá trình thêm P số không
vào các biên của đầu vào
Stride
Zero-padding
Các siêu tham số
của bộ lọc
Trang 13Điều chỉnh siêu tham số
Tính tương thích của tham số trong tầng tích chập:
Hiểu về độ phức tạp của mô hình:
Trang 14Các hàm kích hoạt thường gặp
Hàm RELU: g(z)=max(0,z) Hàm Softmax
Trang 15K-nearest neighbor (KNN) là một trong những thuật toán
học có giám sát đơn giản nhất trong Machine Learning Ý
tưởng của KNN là tìm ra nhãn của dữ liệu dựa vào thông tin
của những điểm dữ liệu huấn luyện gần nó nhất
Thuật toán KNN cho rằng những dữ liệu tương tự nhau sẽ
tồn tại gần nhau trong một không gian
- Euclidean:
- Manhattan:
Mô hình KNN
Trang 16Xác định tham số K= số láng giềng
gần nhất
Tính khoảng cách đối tượng cần phân lớp
với tất cả các đối tượng trong data training
sắp xếp khoảng cách theo thứ tự tăng dần
và xác định K láng giềng gần nhất với đối
dựa vào phần lớn lớp của K để xác định
lớp cho đối tượng cần phân lớp
Trang 17KNN nhiễu
Trang 18Khi xây dựng 1 mô hình học máy, chúng ta cần một phép
đánh giá để xem mô hình sử dụng có hiệu quả không và để
so sánh khả năng của các mô hình
Một số độ đo
Trang 19Là một trong những chỉ số đơn giản nhất để triển khai và nó có thể được xác định là số lượng dự đoán đúng trên tổng số lượng dự đoán
Trang 20Confusion Matrix
• TP(True Positive): Số lượng dự đoán chính xác
• TN (True Negative): Số lương dự đoán chính xác một cách gián tiếp
• FP(False Positive): Số lượng các dự đoán sai lệch
• FN(False Negative): Số lượng các dự đoán sai lệch một cách gián tiếp
Từ 4 chỉ số, có thể sử dụng 2 tham số sau đây để đánh giá mức độ tin cậy của mô hình:
• Precision: Trong tất cả các dự đoán Positive được đưa
ra, bao nhiêu dự đoán là chính xác:
• Recall: Trong tất cả các trường hợp Positive, bao nhiêu
trường hợp đã được dự đoán chính xác
Trang 21ROC curve
Đường cong ROC (receiver operating characteristic curve) là 1 biểu đồ cho thấy hiệu suất của mô hình phân loại
ở tất cả các ngưỡng phân loại
Đường cong này hiển thị hai tham số:
• Tỷ lệ dương tính thực:
• Tỷ lệ dương tính giả:
Trang 22AUC là viết tắt của "Area under ROC Curve." Điều này có
nghĩa là AUC đo toàn bộ khu vực hai chiều bên dưới toàn bộ đường cong ROC.
AUC cung cấp một phép đo tổng hợp về hiệu suất trên tất cả các ngưỡng phân loại có thể có Một cách diễn giải AUC là xác suất mô hình xếp hạng một ví dụ dương tính ngẫu nhiên cao hơn ví dụ phủ định ngẫu nhiên.
Trang 23Để cân bằng giữa 2 tham số Precision và Recall,
ta có F1 – score:
Chúng ta căn vào F1 để chọn model, F1 càng cao thì càng
tốt Khi lý tưởng nhất thì F1 = 1 (khi Recall = Precision=1)
F1 - score
Trang 24Thực nghiệm &
Đánh giá
03
Trang 25Thực nghiệm
Đọc dữ liệu
Trang 26Mô tả dữ liệu
Thực nghiệm
Trang 27Thực nghiệm
Kiêm tra độ cân bằng của nhãn
Trang 28Thực nghiệm
Kiêm tra độ tinh khiết của dữ liệu
Trang 29Thực nghiệm
Giá trị của các trường
Trang 30Thực nghiệm
Ảnh hưởng của các trường dữ liệu đối với target
Trang 31Trực quan hoá ảnh hưởng của nhịp tim cao nhất và tuổi với target
Thực nghiệm
Trang 32Thực nghiệm
Tương quan giữa các trường dữ liệu
Trang 33Thực nghiệm
Mô hình CNN
Trang 34Thực nghiệm
Biểu đồ lỗi và độ chính xác theo epoch
Trang 35Thực nghiệm
Mô hình KNN
Trang 36Đánh giá
So sánh hai mô hình theo accuracy