1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG

82 21 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Bộ Phân Loại Bệnh Tim Từ Cơ Sở Dữ Liệu Tín Hiệu Điện Tim ECG
Tác giả ThS. Nguyễn Thanh Nghĩa, PGS. TS. Nguyễn Thanh Hải
Trường học Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành Khoa Điện – Điện Tử
Thể loại báo cáo tổng kết
Năm xuất bản 2021
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 82
Dung lượng 6,03 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu: Mục tiêu của đề tài là khảo sát các phương pháp phân loại bệnh tim từ tín hiệu điện tâm đồ ECG để xây dựng một phương pháp phân loại bệnh tối ưu nhất.. Hơn nữa, các phương phá

Trang 1

THÀNH PHỐ HỒ CHÍ MINH

S 0 9

XÂY DỰNG BỘ PHÂN LOẠI BỆNH TIM TỪ CƠ

SỞ DỮ LIỆU TÍN HIỆU ĐIỆN TIM ECG

CÔNG TRÌNH NCKH DÀNH CHO NGHIÊN CỨU SINH

MÃ SỐ: T2020-03NCS

S KC 0 0 7 3 1 2

Trang 2

THÀNH PHỐ HỒ CHÍ MINH

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN NGHIÊN CỨU SINH

Chủ nhiệm đề tài: ThS Nguyễn Thanh Nghĩa

TP HCM, 04/2021

XÂY DỰNG BỘ PHÂN LOẠI BỆNH TIM TỪ CƠ

SỞ DỮ LIỆU TÍN HIỆU ĐIỆN TIM ECG

Mã số: T2020-03NCS

Trang 3

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

KHOA ĐIỆN – ĐIỆN TỬ

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KH&CN NGHIÊN CỨU SINH

XÂY DỰNG BỘ PHÂN LOẠI BỆNH TIM TỪ CƠ

SỞ DỮ LIỆU TÍN HIỆU ĐIỆN TIM ECG

TP HCM, 04/2021

Trang 4

DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA NGHIÊN

CỨU ĐỀ TÀI VÀ ĐƠN VỊ PHỐI HỢP CHÍNH

NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI

TT Họ và tên lĩnh vực chuyên môn Đơn vị công tác và Nội dung nghiên cứu cụ

thể được giao

1 PGS TS Nguyễn

Thanh Hải

Khoa Điện-Điện tử, Chuyên ngành Điện Tử

Y Sinh

Xây dựng phương pháp, tính toán, xây dựng sơ đồ phân loại bệnh tim

Viết bài báo

ĐƠN VỊ PHỐI HỢP CHÍNH

Không có

Trang 5

MỤC LỤC

MỤC LỤC iv

DANH MỤC BẢNG VÀ HÌNH vi

DANH MỤC CHỮ VIẾT TẮT 1

PHẦN 1 6

MỞ ĐẦU 6

TÍNH CẤP THIẾT CỦA VẤN ĐỀ NGHIÊN CỨU 7

TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 8

MỤC TIÊU NGHIÊN CỨU 9

ĐỐI TƯỢNG NGHIÊN CỨU 10

PHẠM VI NGHIÊN CỨU 10

CÁCH TIẾP CẬN 10

PHƯƠNG PHÁP NGHIÊN CỨU 10

NỘI DUNG NGHIÊN CỨU 11

PHẦN 2 12

NỘI DUNG NGHIÊN CỨU 12

Chương 1 13

NGHIÊN CỨU TỔNG QUAN 13

1.1 Tổng quan về tín hiệu điện tâm đồ 13

1.1.1 Giới thiệu về tín hiệu điện tâm đồ 13

1.1.2 Các chuyển đạo tim 13

1.1.3 Ý nghĩa cơ bản của các thành phần trên điện tâm đồ 16

1.1.4 Áp dụng trong y học 18

1.2 Phép biến đổi Fourier thời gian ngắn (Short-time Fourier transform) 19

1.2.1 Biến đổi Fourier 19

1.2.2 Phép biến đổi Fourier trong thời gian ngắn 20

1.3 Tổng quan về máy vector hỗ trợ (Support Vector Machines - SVM) 25

1.3.1 Khái niệm SVM 25

1.3.2 Phân loại giữa nhiều lớp 28

1.4 Phương pháp đánh giá mô hình phân loại 29

Chương 2 32

THIẾT KẾ HỆ THỐNG PHÂN LOẠI BỆNH TIM DỰA VÀO TÍN HIỆU ĐIỆN TIM 32

2.1 Chuẩn bị dữ liệu ECG 32

2.2 Đề xuất thuật toán phân loại bệnh tim từ tín hiệu ECG 34

2.2.1 Đề xuất hệ thống phân loại 34

2.2.2 Tiền xử lý tín hiệu điện tim và cắt từng nhịp tim 36

2.2.3 Trích xuất đặc trưng của nhịp tim 37

2.2.4 Thiết kế bộ phân loại 38

Trang 6

2.2.5 Lưu đồ giải thuật chương trình huấn luyện mô hình SVM 40

Chương 3 45

KẾT QUẢ PHÂN LOẠI BỆNH TIM DỰA VÀO TÍN HIỆU ĐIỆN TIM 45

3.1 Phương pháp đánh giá hiệu suất bộ phân loại 45

3.2 Kết quả phân loại bệnh tim 46

PHẦN 3 50

KẾT LUẬN VÀ KIẾN NGHỊ 50

KẾT LUẬN 51

KIẾN NGHỊ 51

TÀI LIỆU THAM KHẢO 52

PHỤ LỤC: CÔNG TRÌNH ĐÃ CÔNG BỐ 56

PHỤ LỤC: HỢP ĐỒNG VÀ THUYẾT MINH 61

Trang 7

DANH MỤC BẢNG VÀ HÌNH

Bảng 1.1 Ma trận nhầm lẫn 30

Bảng 2.1 Kí hiệu ghi chú theo chuẩn MIT-BIH 33

Bảng 2.2 Bảng chuyển đổi kí hiệu bên MIT-BIH sang AAMI 34

Bảng 2.3 Bảng thống kê số nhịp tim của từng lớp 34

Bảng 2.4 Độ chính xác của mô hình SVM đối với từng kích thước cửa sổ 38

Bảng 3.1 Ma trận nhầm lẫn cho trường hợp nhiều loại bệnh 45

Bảng 3.2 Tập dữ liệu nhịp tim được thiết kế để đánh giá hiệu suất của bộ phân loại được đề xuất 47

Bảng 3.4 Kết quả phân loại bệnh tim sử dụng thuật toán SVM kết hợp với thuật toán STFT 49

Hình Trang Hình 2.1 Dạng sóng tín hiệu ECG của bệnh nhân được đánh số 234 thu thập từ tập dữ liệu MIT-BIH 32

Hình 2.2 Sơ đồ khối của mô hình phân loại nhịp tim 35

Hình 2.3 Tín hiệu ECG trước (a) và sau khi qua hai bộ lọc trung vị (b) 36

Hình 2.4 Nhịp tim sau khi được phân đoạn 37

Hình 2.5 Lưu đồ của chương trình huấn luyện SVM 41

Hình 2.6 Lưu đồ giải thuật chương trình load đặc trưng 42

Hình 2.7 Lưu đồ giải chương trình phân đoạn nhịp tim 44

Hình 3.1 Trình bày tín hiệu ECG gốc và tín hiệu ECG sau khi lọc 47

Hình 3.2 Trình bày dạng sóng tín hiệu của một nhịp tim và dạng sóng các đặc trưng của nhịp tim sau khi áp dụng thuật toán STFT 48

Trang 8

DANH MỤC CHỮ VIẾT TẮT

AAMI Association for the Advancement of Medical

Instrumentation ECG ElectroCardioGram

ICA Independent Component Analysis

MIT-BIH Massachusetts Institute of Technology-Beth Israel Hospital

NN Neural Network

PCA Principal Component Analysis

SNR Signal to Noise Ratio

STFT Short-time Fourier transform

SVM Support Vector Machine

WHO World Health Organization

WT Wavelet Transform

Trang 9

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

KHOA ĐIỆN – ĐIỆN TỬ

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

Tp HCM, ngày tháng năm 2021

THÔNG TIN KẾT QUẢ NGHIÊN CỨU

1 Thông tin chung:

- Tên đề tài: Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG

- Mã số: T2020-03NCS

- Chủ nhiệm: Nguyễn Thanh Nghĩa

- Cơ quan chủ trì: Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh

- Thời gian thực hiện: 12 tháng (từ tháng 01/2020 đến 12/2020)

2 Mục tiêu:

Mục tiêu của đề tài là khảo sát các phương pháp phân loại bệnh tim từ tín hiệu điện tâm đồ ECG để xây dựng một phương pháp phân loại bệnh tối ưu nhất Hơn nữa, các phương pháp đánh giá bộ phân loại cũng được sử dụng để đánh giá hiệu quả của bộ phân loại xây dựng được

3 Tính mới và sáng tạo:

Đề tài đã đề xuất được một hệ thống phân loại bệnh tim sử dụng tín hiệu điện tim Cụ thể, thuật toán trích đặc trưng áp dụng phép biến đổi Fourier nhanh kết hợp với bộ phân loại dùng máy vector hỗ trợ đã được xây dựng để phân loại bệnh Kết quả phân loại được đánh giá sử dụng phương pháp ma trận nhầm lẫn Tính mới của đề tài đã được thể hiện qua bài báo được xuất bản trong suốt quá trình thực hiện đề tài

4 Kết quả nghiên cứu:

Đề tài đã hoàn thành được những nội dung đã đề ra trong thuyết minh

Cụ thể, một bộ phân loại bệnh tim đã được xây dựng dựa vào phép biến đổi Fourier trong thời gian ngắn kết hợp với phương pháp máy vector hỗ trợ Hơn nữa, kết quả của đề tài cũng được áp dụng cho các nghiên cứu tiếp theo cũng như

sử dụng để giảng dạy cho sinh viên

5 Thông tin chi tiết sản phẩm:

a Sản phẩm đạt được của đề tài:

Trang 10

+ Báo cáo khoa học (ghi rõ số lượng, giá trị khoa học): Báo cáo tổng kết trình bày phương pháp đề xuất và kết quả đạt được

+ Bài báo khoa học (ghi rõ đầy đủ tên tác giả, tên bài báo, tên tạp chí, số xuất bản, năm xuất bản): sản phẩm là bài báo được đăng trên kỷ yếu hội nghị quốc tế Chi tiết bài báo như sau:

Thanh-Nghia Nguyen, Thanh-Hai Nguyen, Duc-Dung Vo and

Truong-Duy Nguyen, "Multi-class Support Vector Machine Algorithm for Heart Disease Classification," 2020 5th International Conference on Green Technology and Sustainable Development (GTSD), Ho Chi Minh City, Vietnam, pp 137-140, 2020

6 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:

Kết quả nghiên cứu có thể được ứng dụng để phát triển cho các nghiên cứu tiếp theo Hơn nữa, kết quả cũng có thể được sử dụng để giảng dạy cho sinh viên ngành Công nghệ kỹ thuật Y sinh

Trưởng Đơn vị

(ký, họ và tên) Chủ nhiệm đề tài (ký, họ và tên)

Trang 11

INFORMATION ON RESEARCH RESULTS

1 General information:

Project title: Design of the filter for eliminating of noise on ECG signal Code number: T2020-03NCS

Coordinator: MEng Nguyen Thanh Nghia

Implementing institution: HCMC University of Technology and Education Duration: from Jan 2020 to Dec 2020

2 Objective(s):

The objective of this project is to investigate methods for classifying heart disease from ECG signals to obtain a good classification result Furthermore, the classifier evaluation methods are also used to evaluate the effectiveness of the proposed classifier

3 Creativeness and innovativeness:

The project has proposed a heart disease classification system using ECG signals In practice, the feature extraction algorithm applying the Short-time Fourier transform combined with the classifier using support vector machine was built to classify the heart disease Classification results were evaluated using the confusion matrix method The novelty of the topic has been shown through the article published during the project implementation

4 Research results:

The project has completed all research results as shown in the proposal Specifically, a heart disease classifier was built based on the Short-time Fourier transform combined with the support vector machine method Moreover, the results of the topic are also applied in future studies as well as used to teach

students in Biomedical Engineering major

5 Products:

- Products achieved in the project:

+ Scientific reports: The final report presents the proposed method and the achievement results

Trang 12

+ Scientific article: the product is a scientific article which is published

in proceeding of International Conference The detail of paper is described as follows:

Thanh-Nghia Nguyen, Thanh-Hai Nguyen, Duc-Dung Vo and

Truong-Duy Nguyen, "Multi-class Support Vector Machine Algorithm for Heart Disease Classification," 2020 5th International Conference on Green Technology and Sustainable Development (GTSD), Ho Chi Minh City, Vietnam, pp 137-140, 2020

6 Effects, transfer alternatives of research results and applicability:

Research results can be applied to develop for further research Moreover, the results can be used to train for Biomedical Engineering students

Trang 13

PHẦN 1

MỞ ĐẦU

Trang 14

 TÍNH CẤP THIẾT CỦA VẤN ĐỀ NGHIÊN CỨU

Chẩn đoán sớm và phân loại được các loại bệnh tim từ tím hiệu điện tâm

đồ là nhiệm vụ rất quan trọng và cấp thiết cho các nhà khoa học Theo kết quả thống kê vào tháng 03 năm 2015 thì có 1/4 số người chết ở Việt Nam là do bị bệnh tim mạch và đến tháng 10 năm 2015 thì 20% dân số Việt Nam bị bệnh tim mạch Trong khi đó, bệnh tim mạch làm cho 17,3 triệu người chết mỗi năm và đến năm 2030 thì con số này lên đến 23,6 triệu người trên thế giới Do đó, việc xây dựng một công cụ để phân loại được bệnh tim sẽ giúp cho bác sĩ có thể chẩn đoán nhanh và dễ dàng hơn Hơn nữa, một công cụ phân loại chính xác các loại bệnh tim từ tín hiệu điện tâm đồ còn giúp cho bệnh nhân có thể tự theo dõi được bệnh tại nhà trong trường hợp phải theo dõi thường xuyên trong thời gian dài

Tín hiệu điện tâm đồ ECG có đặc điểm là biên độ nhỏ và mang nhiều thành phần nhiễu Vì vậy, kết hợp các thông tin đặc trưng của bệnh tim và bộ phân loại để thu được kết quả phân loại chính xác là một nhiệm vụ rất khó khăn Các thông tin đặc trưng của từng loại bệnh không có sự khác nhau nhiều giữa các loại bệnh tim của từng bệnh nhân Hơn nữa, các đối tượng có độ tuổi, giới tính, hoặc thể trạng khác nhau thì các đặc trưng này cũng khác nhau Do vậy, thu được một tập dữ liệu đặc trưng phù hợp cho từng loại bệnh để đưa vào bộ phân loại là

bộ nhiệm vụ cần thiết để có thể phân loại bệnh tim theo tín hiệu điện tâm đồ với

độ chính xác cao

Ngày nay, với sự phát triển của khoa học máy tính thì máy học đã được

áp dụng vào rất nhiều lĩnh vực của cuộc sống Trong lĩnh vực y tế, máy học đóng một vai trò rất quan trọng trong các ứng dụng y tế Ngày nay, nhiều thiết bị hỗ trợ mổ bệnh nhân, theo dõi bệnh nhân, và nhiều ứng dụng khác đã được sử dụng Trong đó, máy học còn được sử dụng để quản lý thông tin và dữ liệu của bệnh nhân Đối với việc phân loại bệnh tim, các nhà nghiên cứu cũng đã nghiên cứu và xây dựng các công cụ trên nền tảng máy học để phân loại các loại bệnh tim từ tín hiệu điện tâm đồ ECG Trên đây là những lý do cấp thiết để thôi thúc tác giả thực hiện đề tài xây dựng bộ phân loại bệnh tim từ tín hiệu điện tâm đồ ECG

Trang 15

 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

Với tính cấp thiết trong việc xây dựng một bộ phân loại phù hợp với hiệu suất cao trong phân loại bệnh tim từ tín hiệu điện tâm đồ, đã có nhiều nghiên cứu trên thế giới về phân loại bệnh tim được thực hiện Tác giả R Rodríguez và các cộng sự [1] đã đề xuất phương pháp ngưỡng thích nghi kết hợp với phân tích thành phần chính (Principal Component Analysis - PCA) để trích đặc trưng của tín hiệu điện tim ECG Trong đó, các tác giả tập trung vào việc trích thành phần phức bộ QRS như là một đặc trưng của tín hiệu điện tâm đồ ECG Cụ thể, thành phần phức bộ QRS được trích sử dụng biến đổi Hilbert và kết hợp với thuật toán PCA dựa trên kỹ thuật ngưỡng thích nghi để trích thành phần đặc trưng của tín hiệu ECG Các thành phần đặc trưng này được sử dụng để đưa vào bộ phân loại nhằm thu được hiệu suất cao nhất

Ngoài ra, đã có rất nhiều phương pháp trích đặc trưng khác đã được nghiên cứu để trích đặc trưng và kết hợp giảm chiều của tín hiệu điện tâm đồ như: phân tích thành phần chính PCA [2, 3], biến đổi wavelet (Wavelet Transform – WT) [4-7], phân tích thành phần độc lập (Independent Component Analysis – ICA) [8, 9], kết hợp kernel với thuật toán PCA [10] Để trích đặc trưng của tín hiệu điện tâm đồ, phương pháp kết hợp giữa kernel và PCA là một phương pháp rất hiệu quả và đã được sử dụng rất nhiều [3, 10] Trong các nghiên cứu này, trước tiên kernel được xây dựng trên từ tín hiệu điện tim Tiếp theo, phương pháp PCA được áp dụng trên ma trận kernel để trích các đặc trưng của tín hiệu điện tim Các đặc trưng càng phân biệt cho từng loại bệnh thì hiệu suất của bộ phân loại thu được càng cao Vì vậy, trích đặc trưng chính xác góp phần rất quan trọng trong việc phân loại bệnh tim

Trong [11], Serkan Kiranyaz và các cộng sự đã đề xuất một bộ phân loại điện tim từ tín hiệu điện tâm đồ ECG sử dụng dụng mạng 1D convolutional neural networks Trong nghiên cứu này, trích đặc trưng tín hiệu bằng tay là không được thực hiện Thay vào đó, mạng neural network đã được tích hợp cho

cả chức năng trích đặc trưng và phân loại Ngoài ra, một số phương pháp phân loại bệnh tim khác đã được thực hiện gồm: sử dụng mạng Neural (Neural Network - NN) [12-15], sử dụng kỹ thuật máy vector hỗ trợ (Support Vector

Trang 16

Machine - SVM) [16-18], sử dụng thuật toán Fuzzy logic [19-21], sử dụng phương pháp máy học (machine learning) và học sâu (deep learning) [22-24] Phương pháp SVM là một phương pháp cũng rất thường được sử dụng để phân loại bệnh tim Trong đó phương pháp SVM kết hợp với PCA, ICA, LDA để phân loại hoặc SVM kết hợp với phương pháp Kernel–Adatron để phân loại bệnh tim cũng đã được nghiên cứu [16]

Cùng với sự phát triển của khoa học máy tính thì các mạng học sâu với kiến trúc rất phức tạp đã được áp dụng để phân loại hoặc nhận dạng trong rất nhiều lĩnh vực Trong phân loại bệnh tim sử dụng tín hiệu điện tim, mạng học sâu cũng đã được nghiên cứu và áp dụng Trái ngược với việc trích đặc trưng dữ liệu điện tim bằng tay trong các hệ thống truyền thống, mạng học sâu tích hợp cả việc trích đặc trưng và phân loại bệnh vào trong mạng học sâu Cụ thể, dữ liệu điện tim sau khi tiền xử lý sẽ được xác định từng vùng cụ thể và đưa vào mạng học sâu, nhằm trích trực tiếp đăc trưng và huấn luyện cùng với phân loại trong cùng một mạng học sâu [24]

Trong đề tài này, chúng tôi dự kiến xây dựng một bộ phân loại dùng mạng học sâu hoặc phương pháp máy vector hỗ trợ để phân loại bệnh tim Tập

dữ liệu điện tim với nhiều loại bệnh sẽ được thu thập online từ các bộ dữ liệu đã được nhiều nhà nghiên cứu sử dụng Các dữ liệu điện tim trước tiên được tiền xử

lý để loại bỏ các thành phần nhiễu và chuẩn hóa dữ liệu theo cùng các thông số Tiếp theo, các dữ liệu sau khi tiền xử lý sẽ được trích đặc trưng để thu được các đặc trưng cao nhất của từng loại bệnh Các đặc trưng này sẽ được đưa vào mạng phân loại bệnh Cuối cùng, các phương pháp đánh giá sẽ được sử dụng để đánh giá hiệu quả của bộ phân loại được xây dựng

 MỤC TIÊU NGHIÊN CỨU

Mục tiêu của đề tài là khảo sát các phương pháp phân loại bệnh tim từ tín hiệu điện tâm đồ ECG để xây dựng một phương pháp phân loại bệnh tối ưu nhất Hơn nữa, các phương pháp đánh giá bộ lọc cũng được sử dụng để đánh giá hiệu quả của bộ lọc xây dựng được

Trang 17

 ĐỐI TƯỢNG NGHIÊN CỨU

Trong giới hạn của đề tài, các đối tượng được nghiên cứu bao gồm:

- Tài liệu về phương pháp phân loại bệnh tim và các loại bệnh tim phổ biến

- Nguồn dữ liệu điện tâm đồ với các loại bệnh tim tương ứng đã được xác định

- Các thuật toán phân loại và đánh giá hiệu suất bộ phân loại

- Phương pháp thống kê và đánh giá dữ liệu

 PHẠM VI NGHIÊN CỨU

Phạm vi nghiên cứu của đề tài là tập trung vào xây dựng một phương pháp phân loại bệnh tim từ tín hiệu điện tâm đồ Cụ thể, dữ liệu sử dụng trong đề tài được thu thập từ nguồn dữ liệu chung được các nhà khoa học sử dụng để nghiên cứu với số bệnh nhất định

 CÁCH TIẾP CẬN

Đề tài được tiếp cận theo phương pháp khảo sát tài liệu và thực tiễn để đưa ra yêu cầu bài toán Cụ thể, với những phương pháp đã thực hiện thì hiệu suất của bộ phân loại thu được là như thế nào Phương pháp nào có thể được áp dụng để cải thiện hiệu suất phân loại bệnh tim từ tín hiệu điện tâm đồ Từ đó, xây dựng phương pháp cụ thể để phân loại bệnh tim

 PHƯƠNG PHÁP NGHIÊN CỨU

Để hiện thực hóa mục tiêu đề ra của đề tài, phương pháp nghiên cứu được sử dụng bao gồm:

- Phương pháp tham khảo tài liệu: tham khảo các tài liệu đã thực hiện về phân loại bệnh Đặc biệt tham khảo các tài liệu về phân loại bệnh tim sử dụng tín hiệu điện tâm đồ ECG Từ các kết quả nghiên cứu này sẽ làm nền tảng cho việc

đề xuất bộ phân loại bệnh tim và các phương pháp để đánh giá hiệu xuất của bộ phân loại

- Phương pháp phân tích: từ các kết quả đã thực hiện của các tác giả trước sẽ được phân tích để đưa ra các phương pháp tối ưu hơn nhằm nâng cao

Trang 18

hiệu suất phân loại

- Phương pháp thực nghiệm: dựa trên cơ sở dữ liệu điện tâm đồ với nhiều loại bệnh khác nhau, một công cụ sẽ được xây dựng để phân loại bệnh trên cơ sở các dữ liệu đó Kết quả thực nghiệm sẽ chứng minh tính đúng đắn cũng như hiệu suất của bộ phân loại

 NỘI DUNG NGHIÊN CỨU

Nội dung nghiên cứu của đề tài bao gồm:

 Nội dung 1: Thu thập bộ tín hiệu điện tim ECG với các loại bệnh khác nhau

 Nội dung 2: Tiền xử lý tín hiệu điện tim ECG để loại bỏ nhiễu và chuẩn hóa dữ liệu

 Nội dung 3: Trích đặc trưng tín hiệu điện tim

 Nội dung 4: Phân loại bệnh tim sử dụng phương pháp mạng học sâu hoặc máy vector hỗ trợ

 Nội dung 5: Phương pháp đánh giá hiệu suất phân loại

 Nội dung 6: Viết chương trình mô phỏng bộ phân loại

 Nội dung 7: Chạy chương trình, hiệu chỉnh và đánh giá kết quả

 Nội dung 8: Viết bài báo khoa học

 Nội dung 9: Viết báo cáo hoàn chỉnh

Trang 19

PHẦN 2 NỘI DUNG NGHIÊN CỨU

Trang 20

Chương 1 NGHIÊN CỨU TỔNG QUAN

1.1 Tổng quan về tín hiệu điện tâm đồ

1.1.1 Giới thiệu về tín hiệu điện tâm đồ

Điện tâm đồ là một đường cong ghi lại các biến thiên của các điện lực do tim phát ra trong hoạt động co bóp Điện lực đó rất nhỏ, chỉ tính bằng mV nên rất khó ghi nhận Cho đến năm 1903, Einthoven mới lần đầu ghi lại được điện tâm

đồ bằng một điện kế có đầy đủ độ nhạy

Phương pháp ghi điện tâm đồ cũng giống như cách ghi các đường cong biến thiên tuần hoàn khác: người ta cho dòng điện tim tác động lên một bút ghi làm bút này dao động đều với một tốc độ nào đó Ngày nay, người ta đã sáng chế

ra rất nhiều loại máy ghi điện tim với độ chính xác cao và tiện lợi Các máy đó có

bộ phận khuyếch đại bằng đèn điện tử hay bán dẫn và ghi điện tâm đồ trực tiếp lên giấy hay vẽ lên màn hình huỳnh quang Ngoài ra, chúng còn có thể có một hay nhiều dòng, ghi đồng thời được nhiều chuyển đạo cùng một lúc, ghi điện tâm

đồ liên tục 24 giờ trên băng của một máy nhỏ gắn vào người (Cardiocassette Type Holter)

1.1.2 Các chuyển đạo tim

Có hai loại chuyển đạo (đạo trình) là: Chuyển đạo trực tiếp và chuyển đạo gián tiếp

 Chuyển đạo trực tiếp: là chuyển đạo khi đặt điện cực chạm vào cơ tim Chỉ dùng chuyển đạo trực tiếp trên những người mở lồng ngực trong phẫu thuật, hoặc trên các động vật thí nghiệm Trên người bình thường thì dùng chuyển đạo gián tiếp, ngoài lồng ngực

 Chuyển đạo gián tiếp: Có 3 loại chuyển đạo gián tiếp

 Chuyển đạo song cực chi (chuyển đạo mẫu):

Trang 21

Einthoven dùng 3 điểm là tay phải, tay trái và chân trái tạo thành một tam giác để đặt chuyển đạo gián tiếp ghi điện hoạt động của tim

Trục giải phẫu của tim đi từ trên xuống dưới, từ phải sang trái Trục điện của tim gần như trùng với trục giải phẫu, tượng trưng bằng một vectơ đi từ trên trên xuống dưới, từ phải sang trái

Khi đặt 2 trong 3 điểm ở cổ tay và cổ chân ta sẽ có 3 chuyển đạo:

 D1: tay phải - tay trái

 D2: tay phải - chân trái

 D3: tay trái - chân trái

Hình 1.1 Sơ đồ mắc chuyển đạo song cực chi

 Chuyển đạo đơn cực chi:

Chuyển đạo này thực ra vẫn dùng 2 điện cực: một điện cực thăm dò và một điện cực trung tính Điện cực trung tính được tạo ra bằng cách nối 2 trong 3 điểm (tay phải, tay trái và chân trái) vào một điện trở 5000 Ω Vì điện trở lớn như vậy nên điện thế ở cực này không đáng kể, biến đổi điện ta ghi được là biến đổi điện ở cực thăm dò

Có 3 chuyển đạo đơn cực chi:

 aVR: chuyển đạo đơn cực chi tay phải

 aVL: chuyển đạo đơn cực chi tay trái

Trang 22

 aVF: Chuyển đạo đơn cực chi chân trái

Hình 1.2 Sơ đồ mắc chuyển đạo đơn cực chi

 Chuyển đạo đơn trước tim:

Cực thăm dò đặt gần tim, trên da ngực Cực trung tính đặt như trên Có 6 chuyển đạo trước tim:

 V1: điện cực thăm dò đặt ở khe liên sườn IV, sát bờ phải xương ức

 V2: điện cực thăm dò đặt ở khe liên sườn IV, sát bờ trái xương ức

 V3: điện cực thăm dò đặt ở giữa V2 và V4

 V4: điện cực thăm dò đặt ở giao điểm của khe liên sườn V với đường giữa xương đòn trái

 V5: điện cực thăm dò đặt ở giao điểm của khe liên sườn V với đường nách trước bên trái

 V6: điện cực thăm dò đặt ở giao điểm của khe liên sườn V với đường nách bên trái

Chuyển đạo V1, V2 có điện cực thăm dò đặt trúng lên vùng thành ngực ở sát ngay trên mặt thất phải và gần khối tâm nhĩ, do đó V1, V2 được gọi là các chuyển đạo trước tim phải, chúng phản ánh các biến đổi điện thế của thất phải và khối tâm nhĩ

Chuyển đạo V5, V6 ở thành ngực sát trên thất trái, được gọi

là các chuyển đạo trước tim trái Chúng phản ánh các biến đổi điện thế của thất trái

Trang 23

Hình 1.3: Vị trí đặt điện cực thăm dò của 6 chuyển đạo trước tim

1.1.3 Ý nghĩa cơ bản của các thành phần trên điện tâm đồ

Một chu kỳ tim biểu hiện trên điện tâm đồ là: sóng P, phức bộ QSR, sóng

T, và sóng U (nếu có), hình dạng, thời gian kéo dài của sóng/phức bộ và cả thời gian giữa các thành phần với nhau đều có ý nghĩa đặc biệt quan trọng trong việc chẩn đoán [4]

 Các sóng và phức bộ

 Sóng P

Sóng P hình thành do quá trình khử cực tâm nhĩ (cả nhĩ trái

và nhĩ phải), bình thường biên độ của sóng P thường dưới 2mm (0.2mmV), và thời gian của sóng P là từ 0.08 đến 0.1 giây, việc tăng biên độ và kéo dài thời gian của sóng gợi ý đến một tình trạng tâm nhĩ lớn (tăng biên độ gợi ý lớn nhĩ phải Thời gian khử cực kéo dài gợi ý đến lớn nhĩ trái)

 Phức bộ QRS

Phức bộ QRS thể hiện quá trình khử cực của tâm thất, tùy vào chiều khử cực và vị trí đặt điện cực mà trên giấy ghi sẽ cho thấy các phức bộ khác nhau, ưu thế sóng R hay S, bình thường QRS kéo dài từ 0.06 đến 0.1 giây

 Sóng Q là sóng âm đầu tiên của phức bộ QRS, sóng Q trên bệnh nhân bình thường thường nhỏ và ngắn (hình thành do quá trình khử cực vách liên thất), một sóng Q sâu (biên độ

Trang 24

âm lớn) và kéo dài cho thấy một tình trạng hoại tử cơ tim (Trong nhồi máu cơ tim cũ hay nhồi máu cơ tim không có

ST chênh lệch)

 Sóng R là sóng dương đầu tiên của phức bộ, và sóng âm sau

nó là S, đây là hai sóng hình thành do khử cực thất, về bản chất là giống nhau, nếu điện cực đặt ở vị trị chiều khử cực hướng đến thì sóng R sẽ ưu thế, như trong chuyển đạo DII, V5, V6 Sóng R sẽ ưu thế hơn nếu chiều khử cực đi xa vị trí đặt điện cực như V1, V2

 Sóng T

Là sóng theo sau phức bộ QRS, thể hiện quá trình tái cực muộn của 2 tâm thất, sóng T có giá trị rất lớn trong việc nhận định một tình trạng cơ tim thiếu máu

 Sóng U

Nguồn gốc sóng U vẫn chưa điện xác định rõ ràng, các giả thuyết đặt ra là:

 Tái cực chậm sợi Purkinje

 Tái cực kéo dài giữa cơ tim tế bào M (mid-myocardial cell)

 Sau kết quả điện thế của trương lực cơ trong các thành tâm thất

Bình thường không thấy sóng U trên điện tâm đồ, nếu có thì

là sóng nhỏ sau sóng T, sóng U đảo ngược hay nhô cao nhọn gặp trong rất nhiều loại bệnh lý tim (bệnh mạch vành, tăng huyết áp, bệnh van tim, tim bẩm sinh, bệnh lý cơ tim, cường giáp, ngộ độc, rối loạn điện giải)

 Các đoạn – khoảng

 Khoảng PQ

Là thời gian dẫn truyền từ nhĩ đến thất, bình thường từ 0.12

- 0.2 giây, việc kéo dài thể hiện quá trình chậm dẫn truyền (do bị

Trang 25

block), PQ ngắn sẽ gợi ý đến một hội chứng rối loạn nhịp tim (Wolf-Parkinson-White)

 Đoạn ST

Ý nghĩa là giai đoạn tái cực thất sớm, thời gian của ST thường không quan trọng bằng hình dạng của nó, bình thường ST nằm chênh lệch lên hoặc chênh xuống khỏi đường đẳng điện rất ít đoạn ST cực kỳ quan trọng trong việc chẩn đoán nhồi máu cơ tim

ST gọi là chênh lệch nếu cao hơn đường đẳng điện 1mm ở chuyển đạo chi và hơn 2mm ở chuyển đạo trước ngực

ST gọi là chênh xuống khi nằm dưới đường đẳng điện hơn 0.5mm

 Đoạn QT

Là thời gian tâm thu điện học của tâm thất, khoảng giá trị bình thường của QT phục thuộc vào tần số tim, QT kéo dài bất thường có liên quan với tăng nguy cơ loạn nhịp thất, đặc biệt là xoắn đỉnh Gần đây, hội chứng QT ngắn bẩm sinh đã được tìm thấy có liên quan với tăng nguy cơ rung nhĩ và thất kịch phát và đột tử do tim

1.1.4 Áp dụng trong y học

Điện tâm đồ được sử dụng trong nhiều trường hợp y học:

 Chẩn đoán nhồi máu cơ tim khi cơ tim bị thiếu máu và dưỡng khí, bị tổn thương hay hoại tử, khả năng dẫn truyền điện của cơ sẽ thay đổi Sự thay đổi này có thể ghi nhận được trên điện tâm đồ, đây là một trong những giá trị nhất của phương pháp cận lâm sàng này

 Chẩn đoán Thiếu máu cơ tim: cơ tim bị thiếu máu sẽ cho thấy hình ảnh sóng T trên điện tâm đồ dẹt, âm

 Chẩn đoán và theo dõi rối loạn nhịp tim bất thường tại vị trí phát nhịp (nút xoang, nút nhĩ nhất, cơ tim) và dẫn truyền một chiều của tim sẽ cho thấy hình ảnh nhịp tim bất thường trên điện tâm đồ

Trang 26

 Chẩn đoán và theo dõi rối loạn dẫn truyền nhịp tim đập do một hệ thống dẫn truyền khoa học, việc tổn thương hay mất sự mạch lạc dẫn truyền cho thấy các bất thường về các nhánh điện học của tim trên điện tâm đồ (Block AV, Block nhánh tim)

 Chẩn đoán các chứng tim lớn khi cơ tim dày hay dãn, quá trình khử cực, tái cực của từng thành phần trong cơ tim sẽ thay đổi, qua đó trên giấy ghi

sẽ cho những gợi ý nhất định về tình trạng lớn buồng tim, tuy nhiên giá trị của ECG không ưu thế là trường hợp này, vì thay đổi nhiều vào chủng tộc, nhiều yếu tố gây nhiễu và độ nhạy kém, y học cũng có nhiều công cụ chẩn đoán tim to tốt hơn

 Chẩn đoán một số thay đổi sinh hóa máu vì điện tim là do sự di chuyển của các ion như natri, kali, canxi, v.v Khi có thay đổi lớn trong nồng độ các chất này, điện tâm đồ có khả năng thay đổi

Chẩn đoán một số ngộ độc thuốc Thuốc digoxin làm thay đổi đoạn ST của mọi cực Thuốc chống trầm cảm 3 vòng làm dài đoạn QT

1.2 Phép biến đổi Fourier thời gian ngắn (Short-time Fourier transform)

1.2.1 Biến đổi Fourier

Từ trước đến nay có nhiều phương pháp phân tích tín hiệu Được biết đến nhiều nhất là phân tích Fourier, trên cơ sở phân tích một tín hiệu thành tổng các hàm sin với các tần số khác nhau Nói cách khác, phân tích Fourier là kỹ thuật biến đổi tín hiệu từ miền thời gian sang miền tần số Với nhiểu tín hiệu, phân tích Fourier rất có ích vì nội dung tần số của tín hiệu là rất quan trọng

Biến đổi Fourier của tín hiệu x t và biến đổi Fourier ngược của nó được xác định bởi biểu thức sau:

Trang 27

Hình 1.4 Biến đổi Fourier Mặc dù có nhiều hiệu quả nhưng phép biến đổi Fourier (như là phân tích các tín hiệu tuần hoàn, thuận lợi cho ccá phép chập tín hiệu) vẫn có những hạn chế Khi biến đổi sang miền tần số, thông tin thời gian đã bị mất Nếu một thuộc tính tín hiệu không thay đổi nhiều theo thời gian, nó được gọi là tín hiệu tĩnh, thì các nhược điểm trên không có ảnh hưởng quan trọng Tuy nhiên, nhiều tín hiệu

có chứa các thông số động: trôi, nghiêng, biến đổi đột ngột, khởi đầu và kết thúc của các sự kiện Những đặc tính này thường là phần quan trọng nhất của tín hiệu

và phân tích Fourier không thích hợp để phát hiện chúng

1.2.2 Phép biến đổi Fourier trong thời gian ngắn

Các tín hiệu thường gặp trong thực tế thường là tín hiệu không dừng (ví

dụ tín hiệu nhạc, tín hiệu nhiễu,…) thì phân tích Fourier hoàn toàn không mang lại các thông tin hữu ích

Ta xét một ví dụ đơn giản để thấy rõ điều này: Xét trường hợp tín hiệu xung  t , phép biến đổi Fourier F   , 1  Ta thấy rằng thông tin về vị trí xung trong miền thời gian hoàn toàn không phát hiện trong miền tần số Như vậy, biến đổi Fourier không phân tích được biến thiên tần số trong từng vùng theo thời gian của tín hiệu Nói cách khác nó không có tính cục bộ về thời gian Do đó cần cục bộ hóa biến đổi Fourier để có thể phân tích các tín hiệu không tĩnh

Để khắc phục những hạn chế của biến đổi Fourier, phép biến đổi Fourier thời gian ngắn - Short-time Fourier transform (STFT) được đề xuất Biến đổi này còn được gọi là biến đổi Fourier cửa sổ hay biến đổi Gabor Ý tưởng này là sự cục bộ của biến đổi Fourier, sử dụng hàm cửa sổ xấp xỉ trung tâm nơi định vị STFT được biểu diễn bằng một hàm G ,t theo 2 biến là tần số  và thời gian

t Như vậy nhìn vào kết quả của STFT, ta có thể biết tần số  xuất hiện vào thời

Trang 28

điểm nào trong miền thời gian Trong biến đổi STFT, tín hiệu được chia thành các đoạn đủ nhỏ Với mục đích này, hàm cửa sổ được lựa chọn

Nguyên tắc của phương pháp này là phân chia tín hiệu ra thành từng đoạn đủ nhỏ sao cho có thể xem tín hiệu trong mỗi đoạn là tín hiệu ổn định, sau

đó thực hiện biến đổi Fourier trên từng đoạn tín hiệu này

Hình 1.5 Phép biến đổi STFT Trong đó:

w t là hàm cửa sổ (thường là cửa sổ Hann hoặc cửa sổ Gauss)

x t là tín hiệu cần chuyển đổi

X, là Fourier Transform của x  t w t (một hàm phức thể hiện cho pha và cường độ của tín hiệu qua thời gian và tần số)

Yêu cầu diện tích của hàm cửa sổ w t được thu nhỏ sao cho

Trang 29

Thay thế x t từ công thức trên ta có:

d dt e t w t x

dt d e t w t x

dt e d t w t x X

t j

t j

t j

e m n w m x n

Trang 30

    k

N

n X k

e m n w m x k

k

n N jk

e k n X m n w N

Hình 1.6 Cửa sổ hình chữ nhật

 Cửa sổ Gaussian

Biến đổi Fourier của Gaussian cũng là một hàm Gaussian (nó là một hàm riêng của biến đổi Fourier) Vì hàm Gaussian mở rộng đến vô cùng, nó phải được cắt ngắn ở cuối của cửa sổ, hoặc chính nó được kết hợp với một cửa sổ không kết

Trang 31

 STFT đo sự giống nhau giữa tín hiệu với phiên bản dịch và biến

điệu của hàm cửa sổ cơ bản W(t)

Trang 32

 Hạn chế:

Phép biến đổi Fourier thời gian ngắn có ưu điểm tạo ra sự hòa hợp khi mô tả tín hiệu giữa hai miền thời gian – tần số Tuy nhiên, nó gặp phải hạn chế:

 Kích thước cửa sổ phân tích đã chọn không thay đổi trên toàn bộ mặt phẳng thời gian – tần số

 STFT không thể đạt được độ phân giải tốt cả trong miền thời gian

và miền tần số đối với các tín hiệu không ổn định

1.3 Tổng quan về máy vector hỗ trợ (Support Vector Machines - SVM)

Tầm quan trọng của việc học trong tri thức của con người luôn là vấn đề đặt lên hàng đầu Trong tin học, khi mà các hệ chuyên gia chưa đáp ứng đủ các vấn đề cần giải quyết Đồng thời việc cập nhật sự thay đổi tự nhiên là việc rất tốn kém Giải pháp đặt ra là cho các máy tính tự động học và giải quyết các vấn đề dựa trên những dữ liệu thực tế Học máy (Machine learning) là một nhánh quan trọng của trí tuệ nhân tạo nghiên cứu các phương pháp, kỹ thuật cho phép máy tính có thể tự động học dữ liệu để giải quyết một vấn đề cụ thể nào đó

Trong quá trình tiếp nhận tri thức của con người Phân loại (Classification) là một quá trình tự nhiên giúp cho việc tiếp nhận và tri thức có thể được hệ thống lưu trữ cụ thể Có nhiều phương pháp phân loại đã được nghiên cứu và được áp dụng Hiện nay, phương pháp phân loại Support Vector Machines là một trong những phương pháp mạnh và hiệu quả để giải quyết các bài toán phân lớp phi tuyến được Vapnik và Chervonenkis giới thiệu lần đầu vào năm 1995

1.3.1 Khái niệm SVM

Trong thời đại công nghệ thông tin hiện nay, sự phát triển của công nghệ kéo theo sự gia tăng rất lớn của lưu lượng thông tin lưu trữ và trao đổi Do đó, yêu cầu về tổ chức lưu trữ và truy cập thông tin sao cho hiệu quả được đặt lên hàng đầu Hướng giải quyết được đưa ra là tổ chức, tìm kiếm và phân loại thông tin một cách hiệu quả Bản thân con người trong đời sống cũng tiếp nhận thế giới xung quanh thông qua sự phân loại và tổ chức ghi nhớ tri thức một cách hiệu quả

Trang 33

Phân loại thông qua các lớp và mô tả các lớp giúp cho tri thức được định dạng và lưu trữ trong đó

SVM là một phương pháp phân loại xuất phát từ lý thuyết học thống kê, dựa trên nguyên tắc tối thiểu rủi ro cấu trúc (Structural Risk Minimisation) SVM

sẽ cố gắng tìm cách phân loại dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test Error Minimisation) Đây là một phương pháp mới trong lĩnh vực trí tuệ nhân tạo Vào thời kỳ đầu khi SVM xuất hiện, khả năng tính toán của máy tính còn rất hạn chế, nên phương pháp SVM không được lưu tâm Tuy nhiên, từ năm 1995 trở lại đây, các thuật toán sử dụng cho SVM phát triển rất nhanh, cùng với khả năng tính toán mạnh mẽ của máy tính, đã có được những ứng dụng rất to lớn

Kernel SVM tức là việc áp dụng SVM lên bài toán mà dữ liệu giữa hai lớp là hoàn toàn không phân biệt tuyến tính Ý tưởng cơ bản của Kernel SVM và các phương pháp Kernel nói chung là tìm một phép biến đổi sao cho dữ liệu ban đầu là không phân biệt tuyến tính được biến sang không gian mới Ở không gian mới này, dữ liệu nên phân biệt tuyến tính Xét ví dụ dưới đây với việc biến dữ liệu không phân biệt tuyến tính trong không gian hai chiều thành phân biệt tuyến tính trong không gian ba chiều bằng cách giới thiệu thêm một chiều mới

Hình 1.8 Bài toán Kernel SVM

Trong đó, hình 1.8a: Dữ liệu của hai lớp là không phân biệt tuyến tính trong không gian hai chiều Hình 1.8b: Nếu coi thêm chiều thứ ba là một hàm số của hai chiều còn lại z=x^2+y^2, các điểm dữ liệu sẽ được phân bố trên 1 parabolic và đã trở nên phân biệt tuyến tính Mặt phẳng màu vàng là mặt phân

Trang 34

chia Hình 1.8c: Giao điểm của mặt phẳng tìm được và mặt parabolic là một đường ellipse, khi chiếu toàn bộ dữ liệu cũng như đường ellipse này xuống không gian hai chiều ban đầu, ta tìm được được phân chia hai lớp

Nói một cách ngắn gọn, Kernel SVM là việc đi tìm một hàm số biến đổi

dữ liệu x từ không gian đặc trưng ban đầu thành dữ liệu trong không gian mới bằng hàm Φ(x) Trong ví dụ này, hàm Φ(.) đơn giản là giới thiệu thêm một đặc trưng mới là một hàm số của các đặc trưng đã biết Hàm số này cần thỏa mãn mục đích của chúng ta: trong không gian mới, dữ liệu giữa hai lớp là phân biệt tuyến tính hoặc gần như phân biệt tuyến tính Khi đó, ta có thể dùng các phân lớp tuyến tính thông thường như PLA, Logistic Regression, hay SVM biên cứng/biên mềm Các hàm Φ(.) thường tạo ra dữ liệu mới có nhiều đặc trưng hơn số đặc trưng của dữ liệu ban đầu, thậm chí là vô hạn đặc trưng Bài toàn đối ngẫu trong SVM biên mềm cho dữ liệu gần phân biệt tuyến tính:

m T n N

n

N

n N

m

m n m n

 N: số cặp điểm dữ liệu trong tập huấn luyện

 : đặc trưng vector của dữ liệu thứ n trong tập huấn luyện

 : nhãn của dữ liệu thứ n, bằng 1 hoặc -1

 : nhân tử Lagrange ứng với điểm dữ liệu thứ n

 C: hằng số dương giúp cân đối độ lớn của biên và sự hy sinh

của các điểm nằm trong vùng không an toàn Khi C =∞ hoặc rất lớn, SVM biên mềm trở thành SVM biên cứng

Sau khi giải được λ cho công thức trên, nhãn của một điểm dữ liệu mới

sẽ được xác nhận bởi dấu của biểu thức:

Trang 35

M S

m

T m m

N x x

m

m T n m n m n N

n

1 1 1

) ( ) ( 2

1 max

M S

m

m m

N x x k

1.3.2 Phân loại giữa nhiều lớp

Các phương pháp Support Vector Machine đã đề cập (biên cứng, biên mềm, Kernel) đều được xây dựng nhằm giải quyết bài toán Phân loại hai lớp, tức bài toán phân lớp với chỉ hai lớp Các mô hình làm việc với bài toán có 2 lớp còn được gọi là phân loại nhị phân Một cách tự nhiên để mở rộng các mô hình này

áp dụng cho các bài toán phân loại nhiều lớp, tức có nhiều lớp dữ liệu khác nhau

Có ít nhất bốn cách để áp dụng phân loại nhị phân vào các bài toán phân loại nhiều lớp:

 One-vs-one

Xây dựng rất nhiều bộ phân loại nhị phân cho từng cặp lớp Bộ thứ nhất phân biệt lớp 1 và lớp 2, bộ thứ hai phân biệt lớp 1 và lớp 3, … Khi có một dữ liệu mới vào, đưa nó vào toàn bộ các bộ phân loại nhị phân trên Kết quả cuối cùng có thể được xác định bằng cách xem lớp nào mà điểm dữ liệu đó được phân

Trang 36

vào nhiều nhất (major voting)

Như vậy, nếu có C lớp thì tổng số phân loại nhị phân phải dùng là

n Đây là một con số lớn, cách làm này không lợi về tính toán

 One-vs-rest hay one-hot coding

Phương pháp được sử dụng nhiều nhất là one-vs-rest (một số tài liệu gọi

là ove-vs-all, one-against-rest, hoặc one-against-all) Cụ thể, nếu có C lớp thì ta

sẽ xây dựng C lớpifier, mỗi lớpifier tương ứng với một lớp Lớpifier thứ nhất giúp phân biệt lớp 1 vs not lớp 1, tức xem một điểm có thuộc lớp 1 hay không, hoặc xác suất để một điểm rơi vào lớp 1 là bao nhiêu Tương tự như thế, lớpifier thứ hai sẽ phân biệt lớp 2 với không phải lớp 2, … Kết quả cuối cùng có thể được xác định bằng cách xác định lớp mà một điểm rơi vào với xác suất cao nhất

Phương pháp này còn được gọi là one-hot coding (được sử dụng nhiều nên có rất nhiều tên) vì với cách mã hóa trên, giả sử có 4 lớp, lớp 1, 2, 3, 4 sẽ lần lượt được mã hóa dưới dạng nhị phân bởi 1000, 0100, 0010 hoặc 0001 One-hot

vì chỉ có one bit là hot (bằng 1)

1.4 Phương pháp đánh giá mô hình phân loại

Cách tính sử dụng accuracy như ở trên chỉ cho chúng ta biết được bao nhiêu phần trăm lượng dữ liệu được phân loại đúng mà không chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất, và

dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác Để có thể đánh giá được các giá trị này, chúng ta sử dụng một ma trận được gọi là confusion matrix

Về cơ bản, confusion matrix thể hiện có bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp, và được dự đoán là rơi vào một lớp

Cách đánh giá này thường được áp dụng cho các bài toán phân lớp có hai lớp dữ liệu Cụ thể hơn, trong hai lớp dữ liệu này có một lớp quan trọng hơn lớp kia và cần được dự đoán chính xác Ví dụ, trong bài toán xác định có bệnh ung thư hay không thì việc không bị sót quan trọng hơn là việc chẩn đoán nhầm âm tính thành dương tính Trong bài toán xác định có mìn dưới lòng đất hay không thì việc bỏ sót nghiêm trọng hơn việc báo động nhầm rất nhiều Hay trong bài toán lọc email rác thì việc cho nhầm email quan trọng vào thùng rác nghiêm

Trang 37

trọng hơn việc xác định một email rác là email thường

Trong những bài toán này, người ta thường định nghĩa lớp dữ liệu quan trọng hơn cần được xác định đúng là lớp Positive (P-dương tính), lớp còn lại được gọi là Negative (N-âm tính) Ta định nghĩa True Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) dựa trên confusion matrix chưa chuẩn hoá như sau:

dữ liệu được dự đoán đúng trên tổng số 10 điểm Vậy ta kết luận độ chính xác của mô hình là 0.6 (hay 60%) Để ý rằng đây là bài toán với chỉ 3 lớp, nên độ chính xác nhỏ nhất đã là khoảng 1/3, khi tất cả các điểm được dự đoán là thuộc vào một lớp nào đó Công thức tính độ chính xác được trình bày như sau:

TN FN FP TP

TN TP ACC

Với một cách xác định một lớp là positive, Precision được định nghĩa là

tỉ lệ số điểm true positive trong số những điểm được phân loại là positive (TP + FP) Recall được định nghĩa là tỉ lệ số điểm true positive trong số những điểm thực sự là positive (TP + FN) Có thể nhận thấy rằng TPR và Recall là hai đại lượng bằng nhau Ngoài ra, cả Precision và Recall đều là các số không âm nhỏ

Trang 38

hơn hoặc bằng một Precision cao đồng nghĩa với việc độ chính xác của các điểm tìm được là cao Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ

bỏ sót các điểm thực sự positive là thấp

Hình 1.9 Cách tính Precision và Recall

Một mô hình phân lớp tốt là mô hình có cả Precision và Recall đều cao, tức càng gần một càng tốt Có hai cách đo chất lượng của bộ phân lớp dựa vào Precision và Reall: Precision-Recall curve và F-score

Precision-Recall curve và Average precision

Giả sử có N ngưỡng để tính precision và recall, với mỗi ngưỡng cho một cặp

giá trị precision, recall là P ,n Rn với Precision-Recall curve được vẽ bằng cách vẽ từng điểm có toạ độ  R ,n Pn trên trục toạ độ và nối chúng với nhau Average precision (AP) được xác định bằng:

n R P R

F

1 1

Trang 39

Chương 2

THIẾT KẾ HỆ THỐNG PHÂN LOẠI BỆNH TIM

DỰA VÀO TÍN HIỆU ĐIỆN TIM

2.1 Chuẩn bị dữ liệu ECG

Để phục vụ cho nghiên cứu về phân loại bệnh tim thì tín hiệu điện tâm

đồ là một yêu cầu cực kỳ quan trọng Trong luận án này, tín hiệu ECG được sử dụng trong tập cơ sở dữ liệu MIT-BIH [73] Trong đó, tập dữ liệu ECG này gồm

4000 tín hiệu long-term Holter thu được từ năm 1975 đến năm 1979 tại Phòng Thí nghiệm Chứng loạn nhịp tim ở bệnh viện Beth Israel Tập dữ liệu này bao gồm 23 tín hiệu (đánh số từ 100 đến 124 với một số (110) không tồn tại) được chọn ngẫu nhiên, và 25 tín hiệu (đánh số từ 200 đến 234 và có một vài số không xuất hiện) được chọn từ cùng một tập hợp với 23 hồ sơ trên bao gồm các hiện tượng hiếm gặp nhưng có triệu chứng lâm sàng quan trọng mặc dù hiển thị ngẫu nhiên và khá nhỏ trên Holter Trong đó, tập 48 tín hiệu được đo đều kéo dài trên

30 phút Tập dữ liệu này còn được rất nhiều nhà khoa học trên thế giới sử dụng nghiên cứu

Hình 2.1 Dạng sóng tín hiệu ECG của bệnh nhân được đánh số 234 thu thập từ

tập dữ liệu MIT-BIH Trong tập dữ liệu này gồm có 2 nhóm, nhóm đầu tiên (gồm các tín hiệu được đánh số từ 100 đến 124) đại diện cho nhiều dạng sóng ECG thường gặp

Trang 40

Các tín hiệu này trong thời gian khoảng nửa giờ và đủ chất lượng để các bác sĩ chuyên nghiệp cũng như các nhà khoa học có thể phân tích Nhóm thứ hai bao gồm các trường hợp loạn nhịp trên thất và các dấu hiệu bất thường Một vài tín hiệu được chọn vì phức bộ QRS có dạng sóng bị biến đổi, hoặc chất lượng của tín hiệu đủ điều kiện để phát hiện rối loạn nhịp tim Danh sách bệnh nhân là 25 người đàn ông từ 32 đến 89 tuổi, và 22 phụ nữ ở độ tuổi 23 đến 89 Trong đó, tín hiệu 201 và 202 là của chung một người đàn ông Trong tập dữ liệu này gồm 3 loại file là: “*.atr”, “*.dat” và “*.hea” Ngoài ra, tín hiệu ECG còn được tác giả

tự thu thập để phục vụ cho việc nghiên cứu trong quá trình thực hiện luận án này

Bảng 2.1 Kí hiệu ghi chú theo chuẩn MIT-BIH

Tiêu chuẩn AAMI sử dụng để kết hợp các loại nhịp tim MIT-BIH thành bốn lớp nhịp tim sử dụng trong tất cả các quá trình xử lý tiếp theo Mỗi lớp bao

Ngày đăng: 06/01/2022, 21:32

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Sơ đồ mắc chuyển đạo song cực chi. - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 1.1. Sơ đồ mắc chuyển đạo song cực chi (Trang 21)
Hình 1.2. Sơ đồ mắc chuyển đạo đơn cực chi. - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 1.2. Sơ đồ mắc chuyển đạo đơn cực chi (Trang 22)
Hình 1.3: Vị trí đặt điện cực thăm dò của 6 chuyển đạo trước tim. - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 1.3 Vị trí đặt điện cực thăm dò của 6 chuyển đạo trước tim (Trang 23)
Hình 1.4. Biến đổi Fourier - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 1.4. Biến đổi Fourier (Trang 27)
Hình 1.5. Phép biến đổi STFT  Trong đó: - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 1.5. Phép biến đổi STFT Trong đó: (Trang 28)
Hình 1.6. Cửa sổ hình chữ nhật - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 1.6. Cửa sổ hình chữ nhật (Trang 30)
Hình 1.7. Cửa sổ Gaussian - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 1.7. Cửa sổ Gaussian (Trang 31)
Hình 1.8. Bài toán Kernel SVM - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 1.8. Bài toán Kernel SVM (Trang 33)
Bảng 1.1. Ma trận nhầm lẫn - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Bảng 1.1. Ma trận nhầm lẫn (Trang 37)
Hình 1.9. Cách tính Precision và Recall. - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 1.9. Cách tính Precision và Recall (Trang 38)
Hình 2.1. Dạng sóng tín hiệu ECG của bệnh nhân được đánh số 234 thu thập từ - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 2.1. Dạng sóng tín hiệu ECG của bệnh nhân được đánh số 234 thu thập từ (Trang 39)
Bảng 2.1. Kí hiệu ghi chú theo chuẩn MIT-BIH - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Bảng 2.1. Kí hiệu ghi chú theo chuẩn MIT-BIH (Trang 40)
Bảng 2.2. Bảng chuyển đổi kí hiệu bên MIT-BIH sang AAMI - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Bảng 2.2. Bảng chuyển đổi kí hiệu bên MIT-BIH sang AAMI (Trang 41)
Hình 2.2. Sơ đồ khối của mô hình phân loại nhịp tim - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 2.2. Sơ đồ khối của mô hình phân loại nhịp tim (Trang 42)
Hình 2.3. Tín hiệu ECG trước (a) và sau khi qua hai bộ lọc trung vị (b) - Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
Hình 2.3. Tín hiệu ECG trước (a) và sau khi qua hai bộ lọc trung vị (b) (Trang 43)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w