1. Trang chủ
  2. » Tất cả

Khai phá dữ liệu Chuẩn đoán bệnh tim

36 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai phá dữ liệu Chuẩn đoán bệnh tim
Người hướng dẫn Nguyễn Đức Thịnh
Chuyên ngành Khai phá dữ liệu
Thể loại Báo cáo hoặc bài viết nội bộ
Định dạng
Số trang 36
Dung lượng 2,09 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Slide báo cáo đề tài môn học Khai phá dữ liệu. Xây dựng mô hình chuẩn đoán bệnh tim. Dưa trên tập Data có sẵn để xây dựng mô hình dựa đoán bệnh tim trên từng giai đoạn của bệnh nhân. Chẩn đoán y khoa được coi là một lĩnh vực quan trọng nhưng rất phức tạp, cần được thực hiện một cách chính xác và hiệu quả. Do đó, cần một hệ thống chẩn đoán y tế tự động có tính chính xác cao, giúp phát hiện ra các bệnh lý nghiêm trọng thông qua các xét nghiệm và triệu chứng lâm sàng sẽ giúp ích rất nhiều cho bệnh nhân và cả bác sĩ.

Trang 1

Mô hình dự đoán bệnh tim

Giảng viên hướng dẫn: Nguyễn Đức Thịnh

Trang 3

Giới thiệu

Giới thiệu về bài toán

dự đoán bệnh tim

01

Trang 4

Khai thác dữ liệu trong lĩnh vực y tế có tiềm năng

lớn để phát hiện ra những mẫu ẩn trong bộ dữ liệu.

Những mẫu này có thể được sử dụng để chẩn đoán

lâm sàng, tuy nhiên nguồn dữ liệu y tế sẵn có được

phân phối rộng rãi, không đồng nhất về bản chất và

rất lớn Những dữ liệu này cần được thu thập dưới

dạng có tổ chức.

Chẩn đoán y khoa được coi là một lĩnh vực quan

trọng nhưng rất phức tạp, cần được thực hiện một

cách chính xác và hiệu quả.

Do đó, cần một hệ thống chẩn đoán y tế tự động có

tính chính xác cao, giúp phát hiện ra các bệnh lý

nghiêm trọng thông qua các xét nghiệm và triệu

chứng lâm sàng sẽ giúp ích rất nhiều cho bệnh nhân

và cả bác sĩ.

Bài toán

Trang 5

Mục đích nghiên cứu

và ứng dụng

Trong báo cáo này, nhóm sẽ xây dựng mô hình dự đoán phát hiện các bệnh lý liên quan đến bệnh tim thông qua các xét nghiệm và triệu chứng lâm sàn giúp cho quá trình phát hiện ra bệnh từ những giai đoạn đầu sớm.

Trang 6

Bộ dữ liệu

Trang 7

Cơ sở lý thuyết

02

Trang 8

Kiến trúc truyền thống của một mạng CNN

– Mạng neural tích chập (Convolutional

neural networks), còn được biết đến với tên

là CNNs

Mô hình CNN

Trang 9

Tầng tích chập

(CONV)

Tầng tích chập (CONV) sử dụng các bộ lọc để thực hiện phép tích chập khi đưa chúng đi qua đầu vào I theo các chiều của nó Các siêu tham số của các bộ lọc này bao gồm kích thước bộ lọc F và độ trượt (stride)

Kết quả đầu ra O được gọi là feature map hay activation map

Trang 11

Fully Connected

(FC)

Tầng kết nối đầy đủ (FC) nhận đầu vào là các

dữ liệu đã được làm phẳng, mà mỗi đầu vào

đó được kết nối đến tất cả neuron

Trang 12

Các chiều của một bộ lọc

Zero-padding là tên gọi của quá trình thêm P số không

vào các biên của đầu vào

Stride

Zero-padding

Các siêu tham số

của bộ lọc

Trang 13

Điều chỉnh siêu tham số

Tính tương thích của tham số trong tầng tích chập:

Hiểu về độ phức tạp của mô hình:

Trang 14

Các hàm kích hoạt thường gặp

Hàm RELU: g(z)=max(0,z) Hàm Softmax

Trang 15

K-nearest neighbor (KNN) là một trong những thuật toán

học có giám sát đơn giản nhất trong Machine Learning Ý

tưởng của KNN là tìm ra nhãn của dữ liệu dựa vào thông tin

của những điểm dữ liệu huấn luyện gần nó nhất

Thuật toán KNN cho rằng những dữ liệu tương tự nhau sẽ

tồn tại gần nhau trong một không gian

- Euclidean:

- Manhattan:

Mô hình KNN

Trang 16

Xác định tham số K= số láng giềng

gần nhất

Tính khoảng cách đối tượng cần phân lớp

với tất cả các đối tượng trong data training

sắp xếp khoảng cách theo thứ tự tăng dần

và xác định K láng giềng gần nhất với đối

dựa vào phần lớn lớp của K để xác định

lớp cho đối tượng cần phân lớp

Trang 17

KNN nhiễu

Trang 18

Khi xây dựng 1 mô hình học máy, chúng ta cần một phép

đánh giá để xem mô hình sử dụng có hiệu quả không và để

so sánh khả năng của các mô hình

Một số độ đo

Trang 19

Là một trong những chỉ số đơn giản nhất để triển khai và nó có thể được xác định là số lượng dự đoán đúng trên tổng số lượng dự đoán

Trang 20

Confusion Matrix

• TP(True Positive): Số lượng dự đoán chính xác

• TN (True Negative): Số lương dự đoán chính xác một cách gián tiếp

• FP(False Positive): Số lượng các dự đoán sai lệch

• FN(False Negative): Số lượng các dự đoán sai lệch một cách gián tiếp

Từ 4 chỉ số, có thể sử dụng 2 tham số sau đây để đánh giá mức độ tin cậy của mô hình:

Precision: Trong tất cả các dự đoán Positive được đưa

ra, bao nhiêu dự đoán là chính xác:

Recall: Trong tất cả các trường hợp Positive, bao nhiêu

trường hợp đã được dự đoán chính xác

Trang 21

ROC curve

Đường cong ROC (receiver operating characteristic curve) là 1 biểu đồ cho thấy hiệu suất của mô hình phân loại

ở tất cả các ngưỡng phân loại

Đường cong này hiển thị hai tham số:

• Tỷ lệ dương tính thực:

• Tỷ lệ dương tính giả:

Trang 22

AUC là viết tắt của "Area under ROC Curve." Điều này có

nghĩa là AUC đo toàn bộ khu vực hai chiều bên dưới toàn bộ đường cong ROC.

AUC cung cấp một phép đo tổng hợp về hiệu suất trên tất cả các ngưỡng phân loại có thể có Một cách diễn giải AUC là xác suất mô hình xếp hạng một ví dụ dương tính ngẫu nhiên cao hơn ví dụ phủ định ngẫu nhiên.

Trang 23

Để cân bằng giữa 2 tham số Precision và Recall,

ta có F1 – score:

Chúng ta căn vào F1 để chọn model, F1 càng cao thì càng

tốt Khi lý tưởng nhất thì F1 = 1 (khi Recall = Precision=1)

F1 - score

Trang 24

Thực nghiệm &

Đánh giá

03

Trang 25

Thực nghiệm

Đọc dữ liệu

Trang 26

Mô tả dữ liệu

Thực nghiệm

Trang 27

Thực nghiệm

Kiêm tra độ cân bằng của nhãn

Trang 28

Thực nghiệm

Kiêm tra độ tinh khiết của dữ liệu

Trang 29

Thực nghiệm

Giá trị của các trường

Trang 30

Thực nghiệm

Ảnh hưởng của các trường dữ liệu đối với target

Trang 31

Trực quan hoá ảnh hưởng của nhịp tim cao nhất và tuổi với target

Thực nghiệm

Trang 32

Thực nghiệm

Tương quan giữa các trường dữ liệu

Trang 33

Thực nghiệm

Mô hình CNN

Trang 34

Thực nghiệm

Biểu đồ lỗi và độ chính xác theo epoch

Trang 35

Thực nghiệm

Mô hình KNN

Trang 36

Đánh giá

So sánh hai mô hình theo accuracy

Ngày đăng: 24/02/2023, 23:39

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w