Mục tiêu: Mục tiêu của đề tài là khảo sát các phương pháp phân loại bệnh tim từ tín hiệu điện tâm đồ ECG để xây dựng một phương pháp phân loại bệnh tối ưu nhất.. Hơn nữa, các phương phá
Trang 1THÀNH PHỐ HỒ CHÍ MINH
S 0 9
XÂY DỰNG BỘ PHÂN LOẠI BỆNH TIM TỪ CƠ
SỞ DỮ LIỆU TÍN HIỆU ĐIỆN TIM ECG
CÔNG TRÌNH NCKH DÀNH CHO NGHIÊN CỨU SINH
MÃ SỐ: T2020-03NCS
S KC 0 0 7 3 1 2
Trang 2THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KH&CN NGHIÊN CỨU SINH
Chủ nhiệm đề tài: ThS Nguyễn Thanh Nghĩa
TP HCM, 04/2021
XÂY DỰNG BỘ PHÂN LOẠI BỆNH TIM TỪ CƠ
SỞ DỮ LIỆU TÍN HIỆU ĐIỆN TIM ECG
Mã số: T2020-03NCS
Trang 3TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KH&CN NGHIÊN CỨU SINH
XÂY DỰNG BỘ PHÂN LOẠI BỆNH TIM TỪ CƠ
SỞ DỮ LIỆU TÍN HIỆU ĐIỆN TIM ECG
TP HCM, 04/2021
Trang 4DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA NGHIÊN
CỨU ĐỀ TÀI VÀ ĐƠN VỊ PHỐI HỢP CHÍNH
NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI
TT Họ và tên lĩnh vực chuyên môn Đơn vị công tác và Nội dung nghiên cứu cụ
thể được giao
1 PGS TS Nguyễn
Thanh Hải
Khoa Điện-Điện tử, Chuyên ngành Điện Tử
Y Sinh
Xây dựng phương pháp, tính toán, xây dựng sơ đồ phân loại bệnh tim
Viết bài báo
ĐƠN VỊ PHỐI HỢP CHÍNH
Không có
Trang 5MỤC LỤC
MỤC LỤC iv
DANH MỤC BẢNG VÀ HÌNH vi
DANH MỤC CHỮ VIẾT TẮT 1
PHẦN 1 6
MỞ ĐẦU 6
TÍNH CẤP THIẾT CỦA VẤN ĐỀ NGHIÊN CỨU 7
TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 8
MỤC TIÊU NGHIÊN CỨU 9
ĐỐI TƯỢNG NGHIÊN CỨU 10
PHẠM VI NGHIÊN CỨU 10
CÁCH TIẾP CẬN 10
PHƯƠNG PHÁP NGHIÊN CỨU 10
NỘI DUNG NGHIÊN CỨU 11
PHẦN 2 12
NỘI DUNG NGHIÊN CỨU 12
Chương 1 13
NGHIÊN CỨU TỔNG QUAN 13
1.1 Tổng quan về tín hiệu điện tâm đồ 13
1.1.1 Giới thiệu về tín hiệu điện tâm đồ 13
1.1.2 Các chuyển đạo tim 13
1.1.3 Ý nghĩa cơ bản của các thành phần trên điện tâm đồ 16
1.1.4 Áp dụng trong y học 18
1.2 Phép biến đổi Fourier thời gian ngắn (Short-time Fourier transform) 19
1.2.1 Biến đổi Fourier 19
1.2.2 Phép biến đổi Fourier trong thời gian ngắn 20
1.3 Tổng quan về máy vector hỗ trợ (Support Vector Machines - SVM) 25
1.3.1 Khái niệm SVM 25
1.3.2 Phân loại giữa nhiều lớp 28
1.4 Phương pháp đánh giá mô hình phân loại 29
Chương 2 32
THIẾT KẾ HỆ THỐNG PHÂN LOẠI BỆNH TIM DỰA VÀO TÍN HIỆU ĐIỆN TIM 32
2.1 Chuẩn bị dữ liệu ECG 32
2.2 Đề xuất thuật toán phân loại bệnh tim từ tín hiệu ECG 34
2.2.1 Đề xuất hệ thống phân loại 34
2.2.2 Tiền xử lý tín hiệu điện tim và cắt từng nhịp tim 36
2.2.3 Trích xuất đặc trưng của nhịp tim 37
2.2.4 Thiết kế bộ phân loại 38
Trang 62.2.5 Lưu đồ giải thuật chương trình huấn luyện mô hình SVM 40
Chương 3 45
KẾT QUẢ PHÂN LOẠI BỆNH TIM DỰA VÀO TÍN HIỆU ĐIỆN TIM 45
3.1 Phương pháp đánh giá hiệu suất bộ phân loại 45
3.2 Kết quả phân loại bệnh tim 46
PHẦN 3 50
KẾT LUẬN VÀ KIẾN NGHỊ 50
KẾT LUẬN 51
KIẾN NGHỊ 51
TÀI LIỆU THAM KHẢO 52
PHỤ LỤC: CÔNG TRÌNH ĐÃ CÔNG BỐ 56
PHỤ LỤC: HỢP ĐỒNG VÀ THUYẾT MINH 61
Trang 7DANH MỤC BẢNG VÀ HÌNH
Bảng 1.1 Ma trận nhầm lẫn 30
Bảng 2.1 Kí hiệu ghi chú theo chuẩn MIT-BIH 33
Bảng 2.2 Bảng chuyển đổi kí hiệu bên MIT-BIH sang AAMI 34
Bảng 2.3 Bảng thống kê số nhịp tim của từng lớp 34
Bảng 2.4 Độ chính xác của mô hình SVM đối với từng kích thước cửa sổ 38
Bảng 3.1 Ma trận nhầm lẫn cho trường hợp nhiều loại bệnh 45
Bảng 3.2 Tập dữ liệu nhịp tim được thiết kế để đánh giá hiệu suất của bộ phân loại được đề xuất 47
Bảng 3.4 Kết quả phân loại bệnh tim sử dụng thuật toán SVM kết hợp với thuật toán STFT 49
Hình Trang Hình 2.1 Dạng sóng tín hiệu ECG của bệnh nhân được đánh số 234 thu thập từ tập dữ liệu MIT-BIH 32
Hình 2.2 Sơ đồ khối của mô hình phân loại nhịp tim 35
Hình 2.3 Tín hiệu ECG trước (a) và sau khi qua hai bộ lọc trung vị (b) 36
Hình 2.4 Nhịp tim sau khi được phân đoạn 37
Hình 2.5 Lưu đồ của chương trình huấn luyện SVM 41
Hình 2.6 Lưu đồ giải thuật chương trình load đặc trưng 42
Hình 2.7 Lưu đồ giải chương trình phân đoạn nhịp tim 44
Hình 3.1 Trình bày tín hiệu ECG gốc và tín hiệu ECG sau khi lọc 47
Hình 3.2 Trình bày dạng sóng tín hiệu của một nhịp tim và dạng sóng các đặc trưng của nhịp tim sau khi áp dụng thuật toán STFT 48
Trang 8DANH MỤC CHỮ VIẾT TẮT
AAMI Association for the Advancement of Medical
Instrumentation ECG ElectroCardioGram
ICA Independent Component Analysis
MIT-BIH Massachusetts Institute of Technology-Beth Israel Hospital
NN Neural Network
PCA Principal Component Analysis
SNR Signal to Noise Ratio
STFT Short-time Fourier transform
SVM Support Vector Machine
WHO World Health Organization
WT Wavelet Transform
Trang 9TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
KHOA ĐIỆN – ĐIỆN TỬ
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
Tp HCM, ngày tháng năm 2021
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1 Thông tin chung:
- Tên đề tài: Xây dựng bộ phân loại bệnh tim từ cơ sở dữ liệu tín hiệu điện tim ECG
- Mã số: T2020-03NCS
- Chủ nhiệm: Nguyễn Thanh Nghĩa
- Cơ quan chủ trì: Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh
- Thời gian thực hiện: 12 tháng (từ tháng 01/2020 đến 12/2020)
2 Mục tiêu:
Mục tiêu của đề tài là khảo sát các phương pháp phân loại bệnh tim từ tín hiệu điện tâm đồ ECG để xây dựng một phương pháp phân loại bệnh tối ưu nhất Hơn nữa, các phương pháp đánh giá bộ phân loại cũng được sử dụng để đánh giá hiệu quả của bộ phân loại xây dựng được
3 Tính mới và sáng tạo:
Đề tài đã đề xuất được một hệ thống phân loại bệnh tim sử dụng tín hiệu điện tim Cụ thể, thuật toán trích đặc trưng áp dụng phép biến đổi Fourier nhanh kết hợp với bộ phân loại dùng máy vector hỗ trợ đã được xây dựng để phân loại bệnh Kết quả phân loại được đánh giá sử dụng phương pháp ma trận nhầm lẫn Tính mới của đề tài đã được thể hiện qua bài báo được xuất bản trong suốt quá trình thực hiện đề tài
4 Kết quả nghiên cứu:
Đề tài đã hoàn thành được những nội dung đã đề ra trong thuyết minh
Cụ thể, một bộ phân loại bệnh tim đã được xây dựng dựa vào phép biến đổi Fourier trong thời gian ngắn kết hợp với phương pháp máy vector hỗ trợ Hơn nữa, kết quả của đề tài cũng được áp dụng cho các nghiên cứu tiếp theo cũng như
sử dụng để giảng dạy cho sinh viên
5 Thông tin chi tiết sản phẩm:
a Sản phẩm đạt được của đề tài:
Trang 10+ Báo cáo khoa học (ghi rõ số lượng, giá trị khoa học): Báo cáo tổng kết trình bày phương pháp đề xuất và kết quả đạt được
+ Bài báo khoa học (ghi rõ đầy đủ tên tác giả, tên bài báo, tên tạp chí, số xuất bản, năm xuất bản): sản phẩm là bài báo được đăng trên kỷ yếu hội nghị quốc tế Chi tiết bài báo như sau:
Thanh-Nghia Nguyen, Thanh-Hai Nguyen, Duc-Dung Vo and
Truong-Duy Nguyen, "Multi-class Support Vector Machine Algorithm for Heart Disease Classification," 2020 5th International Conference on Green Technology and Sustainable Development (GTSD), Ho Chi Minh City, Vietnam, pp 137-140, 2020
6 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
Kết quả nghiên cứu có thể được ứng dụng để phát triển cho các nghiên cứu tiếp theo Hơn nữa, kết quả cũng có thể được sử dụng để giảng dạy cho sinh viên ngành Công nghệ kỹ thuật Y sinh
Trưởng Đơn vị
(ký, họ và tên) Chủ nhiệm đề tài (ký, họ và tên)
Trang 11INFORMATION ON RESEARCH RESULTS
1 General information:
Project title: Design of the filter for eliminating of noise on ECG signal Code number: T2020-03NCS
Coordinator: MEng Nguyen Thanh Nghia
Implementing institution: HCMC University of Technology and Education Duration: from Jan 2020 to Dec 2020
2 Objective(s):
The objective of this project is to investigate methods for classifying heart disease from ECG signals to obtain a good classification result Furthermore, the classifier evaluation methods are also used to evaluate the effectiveness of the proposed classifier
3 Creativeness and innovativeness:
The project has proposed a heart disease classification system using ECG signals In practice, the feature extraction algorithm applying the Short-time Fourier transform combined with the classifier using support vector machine was built to classify the heart disease Classification results were evaluated using the confusion matrix method The novelty of the topic has been shown through the article published during the project implementation
4 Research results:
The project has completed all research results as shown in the proposal Specifically, a heart disease classifier was built based on the Short-time Fourier transform combined with the support vector machine method Moreover, the results of the topic are also applied in future studies as well as used to teach
students in Biomedical Engineering major
5 Products:
- Products achieved in the project:
+ Scientific reports: The final report presents the proposed method and the achievement results
Trang 12+ Scientific article: the product is a scientific article which is published
in proceeding of International Conference The detail of paper is described as follows:
Thanh-Nghia Nguyen, Thanh-Hai Nguyen, Duc-Dung Vo and
Truong-Duy Nguyen, "Multi-class Support Vector Machine Algorithm for Heart Disease Classification," 2020 5th International Conference on Green Technology and Sustainable Development (GTSD), Ho Chi Minh City, Vietnam, pp 137-140, 2020
6 Effects, transfer alternatives of research results and applicability:
Research results can be applied to develop for further research Moreover, the results can be used to train for Biomedical Engineering students
Trang 13PHẦN 1
MỞ ĐẦU
Trang 14 TÍNH CẤP THIẾT CỦA VẤN ĐỀ NGHIÊN CỨU
Chẩn đoán sớm và phân loại được các loại bệnh tim từ tím hiệu điện tâm
đồ là nhiệm vụ rất quan trọng và cấp thiết cho các nhà khoa học Theo kết quả thống kê vào tháng 03 năm 2015 thì có 1/4 số người chết ở Việt Nam là do bị bệnh tim mạch và đến tháng 10 năm 2015 thì 20% dân số Việt Nam bị bệnh tim mạch Trong khi đó, bệnh tim mạch làm cho 17,3 triệu người chết mỗi năm và đến năm 2030 thì con số này lên đến 23,6 triệu người trên thế giới Do đó, việc xây dựng một công cụ để phân loại được bệnh tim sẽ giúp cho bác sĩ có thể chẩn đoán nhanh và dễ dàng hơn Hơn nữa, một công cụ phân loại chính xác các loại bệnh tim từ tín hiệu điện tâm đồ còn giúp cho bệnh nhân có thể tự theo dõi được bệnh tại nhà trong trường hợp phải theo dõi thường xuyên trong thời gian dài
Tín hiệu điện tâm đồ ECG có đặc điểm là biên độ nhỏ và mang nhiều thành phần nhiễu Vì vậy, kết hợp các thông tin đặc trưng của bệnh tim và bộ phân loại để thu được kết quả phân loại chính xác là một nhiệm vụ rất khó khăn Các thông tin đặc trưng của từng loại bệnh không có sự khác nhau nhiều giữa các loại bệnh tim của từng bệnh nhân Hơn nữa, các đối tượng có độ tuổi, giới tính, hoặc thể trạng khác nhau thì các đặc trưng này cũng khác nhau Do vậy, thu được một tập dữ liệu đặc trưng phù hợp cho từng loại bệnh để đưa vào bộ phân loại là
bộ nhiệm vụ cần thiết để có thể phân loại bệnh tim theo tín hiệu điện tâm đồ với
độ chính xác cao
Ngày nay, với sự phát triển của khoa học máy tính thì máy học đã được
áp dụng vào rất nhiều lĩnh vực của cuộc sống Trong lĩnh vực y tế, máy học đóng một vai trò rất quan trọng trong các ứng dụng y tế Ngày nay, nhiều thiết bị hỗ trợ mổ bệnh nhân, theo dõi bệnh nhân, và nhiều ứng dụng khác đã được sử dụng Trong đó, máy học còn được sử dụng để quản lý thông tin và dữ liệu của bệnh nhân Đối với việc phân loại bệnh tim, các nhà nghiên cứu cũng đã nghiên cứu và xây dựng các công cụ trên nền tảng máy học để phân loại các loại bệnh tim từ tín hiệu điện tâm đồ ECG Trên đây là những lý do cấp thiết để thôi thúc tác giả thực hiện đề tài xây dựng bộ phân loại bệnh tim từ tín hiệu điện tâm đồ ECG
Trang 15 TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU
Với tính cấp thiết trong việc xây dựng một bộ phân loại phù hợp với hiệu suất cao trong phân loại bệnh tim từ tín hiệu điện tâm đồ, đã có nhiều nghiên cứu trên thế giới về phân loại bệnh tim được thực hiện Tác giả R Rodríguez và các cộng sự [1] đã đề xuất phương pháp ngưỡng thích nghi kết hợp với phân tích thành phần chính (Principal Component Analysis - PCA) để trích đặc trưng của tín hiệu điện tim ECG Trong đó, các tác giả tập trung vào việc trích thành phần phức bộ QRS như là một đặc trưng của tín hiệu điện tâm đồ ECG Cụ thể, thành phần phức bộ QRS được trích sử dụng biến đổi Hilbert và kết hợp với thuật toán PCA dựa trên kỹ thuật ngưỡng thích nghi để trích thành phần đặc trưng của tín hiệu ECG Các thành phần đặc trưng này được sử dụng để đưa vào bộ phân loại nhằm thu được hiệu suất cao nhất
Ngoài ra, đã có rất nhiều phương pháp trích đặc trưng khác đã được nghiên cứu để trích đặc trưng và kết hợp giảm chiều của tín hiệu điện tâm đồ như: phân tích thành phần chính PCA [2, 3], biến đổi wavelet (Wavelet Transform – WT) [4-7], phân tích thành phần độc lập (Independent Component Analysis – ICA) [8, 9], kết hợp kernel với thuật toán PCA [10] Để trích đặc trưng của tín hiệu điện tâm đồ, phương pháp kết hợp giữa kernel và PCA là một phương pháp rất hiệu quả và đã được sử dụng rất nhiều [3, 10] Trong các nghiên cứu này, trước tiên kernel được xây dựng trên từ tín hiệu điện tim Tiếp theo, phương pháp PCA được áp dụng trên ma trận kernel để trích các đặc trưng của tín hiệu điện tim Các đặc trưng càng phân biệt cho từng loại bệnh thì hiệu suất của bộ phân loại thu được càng cao Vì vậy, trích đặc trưng chính xác góp phần rất quan trọng trong việc phân loại bệnh tim
Trong [11], Serkan Kiranyaz và các cộng sự đã đề xuất một bộ phân loại điện tim từ tín hiệu điện tâm đồ ECG sử dụng dụng mạng 1D convolutional neural networks Trong nghiên cứu này, trích đặc trưng tín hiệu bằng tay là không được thực hiện Thay vào đó, mạng neural network đã được tích hợp cho
cả chức năng trích đặc trưng và phân loại Ngoài ra, một số phương pháp phân loại bệnh tim khác đã được thực hiện gồm: sử dụng mạng Neural (Neural Network - NN) [12-15], sử dụng kỹ thuật máy vector hỗ trợ (Support Vector
Trang 16Machine - SVM) [16-18], sử dụng thuật toán Fuzzy logic [19-21], sử dụng phương pháp máy học (machine learning) và học sâu (deep learning) [22-24] Phương pháp SVM là một phương pháp cũng rất thường được sử dụng để phân loại bệnh tim Trong đó phương pháp SVM kết hợp với PCA, ICA, LDA để phân loại hoặc SVM kết hợp với phương pháp Kernel–Adatron để phân loại bệnh tim cũng đã được nghiên cứu [16]
Cùng với sự phát triển của khoa học máy tính thì các mạng học sâu với kiến trúc rất phức tạp đã được áp dụng để phân loại hoặc nhận dạng trong rất nhiều lĩnh vực Trong phân loại bệnh tim sử dụng tín hiệu điện tim, mạng học sâu cũng đã được nghiên cứu và áp dụng Trái ngược với việc trích đặc trưng dữ liệu điện tim bằng tay trong các hệ thống truyền thống, mạng học sâu tích hợp cả việc trích đặc trưng và phân loại bệnh vào trong mạng học sâu Cụ thể, dữ liệu điện tim sau khi tiền xử lý sẽ được xác định từng vùng cụ thể và đưa vào mạng học sâu, nhằm trích trực tiếp đăc trưng và huấn luyện cùng với phân loại trong cùng một mạng học sâu [24]
Trong đề tài này, chúng tôi dự kiến xây dựng một bộ phân loại dùng mạng học sâu hoặc phương pháp máy vector hỗ trợ để phân loại bệnh tim Tập
dữ liệu điện tim với nhiều loại bệnh sẽ được thu thập online từ các bộ dữ liệu đã được nhiều nhà nghiên cứu sử dụng Các dữ liệu điện tim trước tiên được tiền xử
lý để loại bỏ các thành phần nhiễu và chuẩn hóa dữ liệu theo cùng các thông số Tiếp theo, các dữ liệu sau khi tiền xử lý sẽ được trích đặc trưng để thu được các đặc trưng cao nhất của từng loại bệnh Các đặc trưng này sẽ được đưa vào mạng phân loại bệnh Cuối cùng, các phương pháp đánh giá sẽ được sử dụng để đánh giá hiệu quả của bộ phân loại được xây dựng
MỤC TIÊU NGHIÊN CỨU
Mục tiêu của đề tài là khảo sát các phương pháp phân loại bệnh tim từ tín hiệu điện tâm đồ ECG để xây dựng một phương pháp phân loại bệnh tối ưu nhất Hơn nữa, các phương pháp đánh giá bộ lọc cũng được sử dụng để đánh giá hiệu quả của bộ lọc xây dựng được
Trang 17 ĐỐI TƯỢNG NGHIÊN CỨU
Trong giới hạn của đề tài, các đối tượng được nghiên cứu bao gồm:
- Tài liệu về phương pháp phân loại bệnh tim và các loại bệnh tim phổ biến
- Nguồn dữ liệu điện tâm đồ với các loại bệnh tim tương ứng đã được xác định
- Các thuật toán phân loại và đánh giá hiệu suất bộ phân loại
- Phương pháp thống kê và đánh giá dữ liệu
PHẠM VI NGHIÊN CỨU
Phạm vi nghiên cứu của đề tài là tập trung vào xây dựng một phương pháp phân loại bệnh tim từ tín hiệu điện tâm đồ Cụ thể, dữ liệu sử dụng trong đề tài được thu thập từ nguồn dữ liệu chung được các nhà khoa học sử dụng để nghiên cứu với số bệnh nhất định
CÁCH TIẾP CẬN
Đề tài được tiếp cận theo phương pháp khảo sát tài liệu và thực tiễn để đưa ra yêu cầu bài toán Cụ thể, với những phương pháp đã thực hiện thì hiệu suất của bộ phân loại thu được là như thế nào Phương pháp nào có thể được áp dụng để cải thiện hiệu suất phân loại bệnh tim từ tín hiệu điện tâm đồ Từ đó, xây dựng phương pháp cụ thể để phân loại bệnh tim
PHƯƠNG PHÁP NGHIÊN CỨU
Để hiện thực hóa mục tiêu đề ra của đề tài, phương pháp nghiên cứu được sử dụng bao gồm:
- Phương pháp tham khảo tài liệu: tham khảo các tài liệu đã thực hiện về phân loại bệnh Đặc biệt tham khảo các tài liệu về phân loại bệnh tim sử dụng tín hiệu điện tâm đồ ECG Từ các kết quả nghiên cứu này sẽ làm nền tảng cho việc
đề xuất bộ phân loại bệnh tim và các phương pháp để đánh giá hiệu xuất của bộ phân loại
- Phương pháp phân tích: từ các kết quả đã thực hiện của các tác giả trước sẽ được phân tích để đưa ra các phương pháp tối ưu hơn nhằm nâng cao
Trang 18hiệu suất phân loại
- Phương pháp thực nghiệm: dựa trên cơ sở dữ liệu điện tâm đồ với nhiều loại bệnh khác nhau, một công cụ sẽ được xây dựng để phân loại bệnh trên cơ sở các dữ liệu đó Kết quả thực nghiệm sẽ chứng minh tính đúng đắn cũng như hiệu suất của bộ phân loại
NỘI DUNG NGHIÊN CỨU
Nội dung nghiên cứu của đề tài bao gồm:
Nội dung 1: Thu thập bộ tín hiệu điện tim ECG với các loại bệnh khác nhau
Nội dung 2: Tiền xử lý tín hiệu điện tim ECG để loại bỏ nhiễu và chuẩn hóa dữ liệu
Nội dung 3: Trích đặc trưng tín hiệu điện tim
Nội dung 4: Phân loại bệnh tim sử dụng phương pháp mạng học sâu hoặc máy vector hỗ trợ
Nội dung 5: Phương pháp đánh giá hiệu suất phân loại
Nội dung 6: Viết chương trình mô phỏng bộ phân loại
Nội dung 7: Chạy chương trình, hiệu chỉnh và đánh giá kết quả
Nội dung 8: Viết bài báo khoa học
Nội dung 9: Viết báo cáo hoàn chỉnh
Trang 19PHẦN 2 NỘI DUNG NGHIÊN CỨU
Trang 20Chương 1 NGHIÊN CỨU TỔNG QUAN
1.1 Tổng quan về tín hiệu điện tâm đồ
1.1.1 Giới thiệu về tín hiệu điện tâm đồ
Điện tâm đồ là một đường cong ghi lại các biến thiên của các điện lực do tim phát ra trong hoạt động co bóp Điện lực đó rất nhỏ, chỉ tính bằng mV nên rất khó ghi nhận Cho đến năm 1903, Einthoven mới lần đầu ghi lại được điện tâm
đồ bằng một điện kế có đầy đủ độ nhạy
Phương pháp ghi điện tâm đồ cũng giống như cách ghi các đường cong biến thiên tuần hoàn khác: người ta cho dòng điện tim tác động lên một bút ghi làm bút này dao động đều với một tốc độ nào đó Ngày nay, người ta đã sáng chế
ra rất nhiều loại máy ghi điện tim với độ chính xác cao và tiện lợi Các máy đó có
bộ phận khuyếch đại bằng đèn điện tử hay bán dẫn và ghi điện tâm đồ trực tiếp lên giấy hay vẽ lên màn hình huỳnh quang Ngoài ra, chúng còn có thể có một hay nhiều dòng, ghi đồng thời được nhiều chuyển đạo cùng một lúc, ghi điện tâm
đồ liên tục 24 giờ trên băng của một máy nhỏ gắn vào người (Cardiocassette Type Holter)
1.1.2 Các chuyển đạo tim
Có hai loại chuyển đạo (đạo trình) là: Chuyển đạo trực tiếp và chuyển đạo gián tiếp
Chuyển đạo trực tiếp: là chuyển đạo khi đặt điện cực chạm vào cơ tim Chỉ dùng chuyển đạo trực tiếp trên những người mở lồng ngực trong phẫu thuật, hoặc trên các động vật thí nghiệm Trên người bình thường thì dùng chuyển đạo gián tiếp, ngoài lồng ngực
Chuyển đạo gián tiếp: Có 3 loại chuyển đạo gián tiếp
Chuyển đạo song cực chi (chuyển đạo mẫu):
Trang 21Einthoven dùng 3 điểm là tay phải, tay trái và chân trái tạo thành một tam giác để đặt chuyển đạo gián tiếp ghi điện hoạt động của tim
Trục giải phẫu của tim đi từ trên xuống dưới, từ phải sang trái Trục điện của tim gần như trùng với trục giải phẫu, tượng trưng bằng một vectơ đi từ trên trên xuống dưới, từ phải sang trái
Khi đặt 2 trong 3 điểm ở cổ tay và cổ chân ta sẽ có 3 chuyển đạo:
D1: tay phải - tay trái
D2: tay phải - chân trái
D3: tay trái - chân trái
Hình 1.1 Sơ đồ mắc chuyển đạo song cực chi
Chuyển đạo đơn cực chi:
Chuyển đạo này thực ra vẫn dùng 2 điện cực: một điện cực thăm dò và một điện cực trung tính Điện cực trung tính được tạo ra bằng cách nối 2 trong 3 điểm (tay phải, tay trái và chân trái) vào một điện trở 5000 Ω Vì điện trở lớn như vậy nên điện thế ở cực này không đáng kể, biến đổi điện ta ghi được là biến đổi điện ở cực thăm dò
Có 3 chuyển đạo đơn cực chi:
aVR: chuyển đạo đơn cực chi tay phải
aVL: chuyển đạo đơn cực chi tay trái
Trang 22 aVF: Chuyển đạo đơn cực chi chân trái
Hình 1.2 Sơ đồ mắc chuyển đạo đơn cực chi
Chuyển đạo đơn trước tim:
Cực thăm dò đặt gần tim, trên da ngực Cực trung tính đặt như trên Có 6 chuyển đạo trước tim:
V1: điện cực thăm dò đặt ở khe liên sườn IV, sát bờ phải xương ức
V2: điện cực thăm dò đặt ở khe liên sườn IV, sát bờ trái xương ức
V3: điện cực thăm dò đặt ở giữa V2 và V4
V4: điện cực thăm dò đặt ở giao điểm của khe liên sườn V với đường giữa xương đòn trái
V5: điện cực thăm dò đặt ở giao điểm của khe liên sườn V với đường nách trước bên trái
V6: điện cực thăm dò đặt ở giao điểm của khe liên sườn V với đường nách bên trái
Chuyển đạo V1, V2 có điện cực thăm dò đặt trúng lên vùng thành ngực ở sát ngay trên mặt thất phải và gần khối tâm nhĩ, do đó V1, V2 được gọi là các chuyển đạo trước tim phải, chúng phản ánh các biến đổi điện thế của thất phải và khối tâm nhĩ
Chuyển đạo V5, V6 ở thành ngực sát trên thất trái, được gọi
là các chuyển đạo trước tim trái Chúng phản ánh các biến đổi điện thế của thất trái
Trang 23Hình 1.3: Vị trí đặt điện cực thăm dò của 6 chuyển đạo trước tim
1.1.3 Ý nghĩa cơ bản của các thành phần trên điện tâm đồ
Một chu kỳ tim biểu hiện trên điện tâm đồ là: sóng P, phức bộ QSR, sóng
T, và sóng U (nếu có), hình dạng, thời gian kéo dài của sóng/phức bộ và cả thời gian giữa các thành phần với nhau đều có ý nghĩa đặc biệt quan trọng trong việc chẩn đoán [4]
Các sóng và phức bộ
Sóng P
Sóng P hình thành do quá trình khử cực tâm nhĩ (cả nhĩ trái
và nhĩ phải), bình thường biên độ của sóng P thường dưới 2mm (0.2mmV), và thời gian của sóng P là từ 0.08 đến 0.1 giây, việc tăng biên độ và kéo dài thời gian của sóng gợi ý đến một tình trạng tâm nhĩ lớn (tăng biên độ gợi ý lớn nhĩ phải Thời gian khử cực kéo dài gợi ý đến lớn nhĩ trái)
Phức bộ QRS
Phức bộ QRS thể hiện quá trình khử cực của tâm thất, tùy vào chiều khử cực và vị trí đặt điện cực mà trên giấy ghi sẽ cho thấy các phức bộ khác nhau, ưu thế sóng R hay S, bình thường QRS kéo dài từ 0.06 đến 0.1 giây
Sóng Q là sóng âm đầu tiên của phức bộ QRS, sóng Q trên bệnh nhân bình thường thường nhỏ và ngắn (hình thành do quá trình khử cực vách liên thất), một sóng Q sâu (biên độ
Trang 24âm lớn) và kéo dài cho thấy một tình trạng hoại tử cơ tim (Trong nhồi máu cơ tim cũ hay nhồi máu cơ tim không có
ST chênh lệch)
Sóng R là sóng dương đầu tiên của phức bộ, và sóng âm sau
nó là S, đây là hai sóng hình thành do khử cực thất, về bản chất là giống nhau, nếu điện cực đặt ở vị trị chiều khử cực hướng đến thì sóng R sẽ ưu thế, như trong chuyển đạo DII, V5, V6 Sóng R sẽ ưu thế hơn nếu chiều khử cực đi xa vị trí đặt điện cực như V1, V2
Sóng T
Là sóng theo sau phức bộ QRS, thể hiện quá trình tái cực muộn của 2 tâm thất, sóng T có giá trị rất lớn trong việc nhận định một tình trạng cơ tim thiếu máu
Sóng U
Nguồn gốc sóng U vẫn chưa điện xác định rõ ràng, các giả thuyết đặt ra là:
Tái cực chậm sợi Purkinje
Tái cực kéo dài giữa cơ tim tế bào M (mid-myocardial cell)
Sau kết quả điện thế của trương lực cơ trong các thành tâm thất
Bình thường không thấy sóng U trên điện tâm đồ, nếu có thì
là sóng nhỏ sau sóng T, sóng U đảo ngược hay nhô cao nhọn gặp trong rất nhiều loại bệnh lý tim (bệnh mạch vành, tăng huyết áp, bệnh van tim, tim bẩm sinh, bệnh lý cơ tim, cường giáp, ngộ độc, rối loạn điện giải)
Các đoạn – khoảng
Khoảng PQ
Là thời gian dẫn truyền từ nhĩ đến thất, bình thường từ 0.12
- 0.2 giây, việc kéo dài thể hiện quá trình chậm dẫn truyền (do bị
Trang 25block), PQ ngắn sẽ gợi ý đến một hội chứng rối loạn nhịp tim (Wolf-Parkinson-White)
Đoạn ST
Ý nghĩa là giai đoạn tái cực thất sớm, thời gian của ST thường không quan trọng bằng hình dạng của nó, bình thường ST nằm chênh lệch lên hoặc chênh xuống khỏi đường đẳng điện rất ít đoạn ST cực kỳ quan trọng trong việc chẩn đoán nhồi máu cơ tim
ST gọi là chênh lệch nếu cao hơn đường đẳng điện 1mm ở chuyển đạo chi và hơn 2mm ở chuyển đạo trước ngực
ST gọi là chênh xuống khi nằm dưới đường đẳng điện hơn 0.5mm
Đoạn QT
Là thời gian tâm thu điện học của tâm thất, khoảng giá trị bình thường của QT phục thuộc vào tần số tim, QT kéo dài bất thường có liên quan với tăng nguy cơ loạn nhịp thất, đặc biệt là xoắn đỉnh Gần đây, hội chứng QT ngắn bẩm sinh đã được tìm thấy có liên quan với tăng nguy cơ rung nhĩ và thất kịch phát và đột tử do tim
1.1.4 Áp dụng trong y học
Điện tâm đồ được sử dụng trong nhiều trường hợp y học:
Chẩn đoán nhồi máu cơ tim khi cơ tim bị thiếu máu và dưỡng khí, bị tổn thương hay hoại tử, khả năng dẫn truyền điện của cơ sẽ thay đổi Sự thay đổi này có thể ghi nhận được trên điện tâm đồ, đây là một trong những giá trị nhất của phương pháp cận lâm sàng này
Chẩn đoán Thiếu máu cơ tim: cơ tim bị thiếu máu sẽ cho thấy hình ảnh sóng T trên điện tâm đồ dẹt, âm
Chẩn đoán và theo dõi rối loạn nhịp tim bất thường tại vị trí phát nhịp (nút xoang, nút nhĩ nhất, cơ tim) và dẫn truyền một chiều của tim sẽ cho thấy hình ảnh nhịp tim bất thường trên điện tâm đồ
Trang 26 Chẩn đoán và theo dõi rối loạn dẫn truyền nhịp tim đập do một hệ thống dẫn truyền khoa học, việc tổn thương hay mất sự mạch lạc dẫn truyền cho thấy các bất thường về các nhánh điện học của tim trên điện tâm đồ (Block AV, Block nhánh tim)
Chẩn đoán các chứng tim lớn khi cơ tim dày hay dãn, quá trình khử cực, tái cực của từng thành phần trong cơ tim sẽ thay đổi, qua đó trên giấy ghi
sẽ cho những gợi ý nhất định về tình trạng lớn buồng tim, tuy nhiên giá trị của ECG không ưu thế là trường hợp này, vì thay đổi nhiều vào chủng tộc, nhiều yếu tố gây nhiễu và độ nhạy kém, y học cũng có nhiều công cụ chẩn đoán tim to tốt hơn
Chẩn đoán một số thay đổi sinh hóa máu vì điện tim là do sự di chuyển của các ion như natri, kali, canxi, v.v Khi có thay đổi lớn trong nồng độ các chất này, điện tâm đồ có khả năng thay đổi
Chẩn đoán một số ngộ độc thuốc Thuốc digoxin làm thay đổi đoạn ST của mọi cực Thuốc chống trầm cảm 3 vòng làm dài đoạn QT
1.2 Phép biến đổi Fourier thời gian ngắn (Short-time Fourier transform)
1.2.1 Biến đổi Fourier
Từ trước đến nay có nhiều phương pháp phân tích tín hiệu Được biết đến nhiều nhất là phân tích Fourier, trên cơ sở phân tích một tín hiệu thành tổng các hàm sin với các tần số khác nhau Nói cách khác, phân tích Fourier là kỹ thuật biến đổi tín hiệu từ miền thời gian sang miền tần số Với nhiểu tín hiệu, phân tích Fourier rất có ích vì nội dung tần số của tín hiệu là rất quan trọng
Biến đổi Fourier của tín hiệu x t và biến đổi Fourier ngược của nó được xác định bởi biểu thức sau:
Trang 27Hình 1.4 Biến đổi Fourier Mặc dù có nhiều hiệu quả nhưng phép biến đổi Fourier (như là phân tích các tín hiệu tuần hoàn, thuận lợi cho ccá phép chập tín hiệu) vẫn có những hạn chế Khi biến đổi sang miền tần số, thông tin thời gian đã bị mất Nếu một thuộc tính tín hiệu không thay đổi nhiều theo thời gian, nó được gọi là tín hiệu tĩnh, thì các nhược điểm trên không có ảnh hưởng quan trọng Tuy nhiên, nhiều tín hiệu
có chứa các thông số động: trôi, nghiêng, biến đổi đột ngột, khởi đầu và kết thúc của các sự kiện Những đặc tính này thường là phần quan trọng nhất của tín hiệu
và phân tích Fourier không thích hợp để phát hiện chúng
1.2.2 Phép biến đổi Fourier trong thời gian ngắn
Các tín hiệu thường gặp trong thực tế thường là tín hiệu không dừng (ví
dụ tín hiệu nhạc, tín hiệu nhiễu,…) thì phân tích Fourier hoàn toàn không mang lại các thông tin hữu ích
Ta xét một ví dụ đơn giản để thấy rõ điều này: Xét trường hợp tín hiệu xung t , phép biến đổi Fourier F , 1 Ta thấy rằng thông tin về vị trí xung trong miền thời gian hoàn toàn không phát hiện trong miền tần số Như vậy, biến đổi Fourier không phân tích được biến thiên tần số trong từng vùng theo thời gian của tín hiệu Nói cách khác nó không có tính cục bộ về thời gian Do đó cần cục bộ hóa biến đổi Fourier để có thể phân tích các tín hiệu không tĩnh
Để khắc phục những hạn chế của biến đổi Fourier, phép biến đổi Fourier thời gian ngắn - Short-time Fourier transform (STFT) được đề xuất Biến đổi này còn được gọi là biến đổi Fourier cửa sổ hay biến đổi Gabor Ý tưởng này là sự cục bộ của biến đổi Fourier, sử dụng hàm cửa sổ xấp xỉ trung tâm nơi định vị STFT được biểu diễn bằng một hàm G ,t theo 2 biến là tần số và thời gian
t Như vậy nhìn vào kết quả của STFT, ta có thể biết tần số xuất hiện vào thời
Trang 28điểm nào trong miền thời gian Trong biến đổi STFT, tín hiệu được chia thành các đoạn đủ nhỏ Với mục đích này, hàm cửa sổ được lựa chọn
Nguyên tắc của phương pháp này là phân chia tín hiệu ra thành từng đoạn đủ nhỏ sao cho có thể xem tín hiệu trong mỗi đoạn là tín hiệu ổn định, sau
đó thực hiện biến đổi Fourier trên từng đoạn tín hiệu này
Hình 1.5 Phép biến đổi STFT Trong đó:
w t là hàm cửa sổ (thường là cửa sổ Hann hoặc cửa sổ Gauss)
x t là tín hiệu cần chuyển đổi
X, là Fourier Transform của x t w t (một hàm phức thể hiện cho pha và cường độ của tín hiệu qua thời gian và tần số)
Yêu cầu diện tích của hàm cửa sổ w t được thu nhỏ sao cho
Trang 29Thay thế x t từ công thức trên ta có:
d dt e t w t x
dt d e t w t x
dt e d t w t x X
t j
t j
t j
e m n w m x n
Trang 30 k
N
n X k
e m n w m x k
k
n N jk
e k n X m n w N
Hình 1.6 Cửa sổ hình chữ nhật
Cửa sổ Gaussian
Biến đổi Fourier của Gaussian cũng là một hàm Gaussian (nó là một hàm riêng của biến đổi Fourier) Vì hàm Gaussian mở rộng đến vô cùng, nó phải được cắt ngắn ở cuối của cửa sổ, hoặc chính nó được kết hợp với một cửa sổ không kết
Trang 31 STFT đo sự giống nhau giữa tín hiệu với phiên bản dịch và biến
điệu của hàm cửa sổ cơ bản W(t)
Trang 32 Hạn chế:
Phép biến đổi Fourier thời gian ngắn có ưu điểm tạo ra sự hòa hợp khi mô tả tín hiệu giữa hai miền thời gian – tần số Tuy nhiên, nó gặp phải hạn chế:
Kích thước cửa sổ phân tích đã chọn không thay đổi trên toàn bộ mặt phẳng thời gian – tần số
STFT không thể đạt được độ phân giải tốt cả trong miền thời gian
và miền tần số đối với các tín hiệu không ổn định
1.3 Tổng quan về máy vector hỗ trợ (Support Vector Machines - SVM)
Tầm quan trọng của việc học trong tri thức của con người luôn là vấn đề đặt lên hàng đầu Trong tin học, khi mà các hệ chuyên gia chưa đáp ứng đủ các vấn đề cần giải quyết Đồng thời việc cập nhật sự thay đổi tự nhiên là việc rất tốn kém Giải pháp đặt ra là cho các máy tính tự động học và giải quyết các vấn đề dựa trên những dữ liệu thực tế Học máy (Machine learning) là một nhánh quan trọng của trí tuệ nhân tạo nghiên cứu các phương pháp, kỹ thuật cho phép máy tính có thể tự động học dữ liệu để giải quyết một vấn đề cụ thể nào đó
Trong quá trình tiếp nhận tri thức của con người Phân loại (Classification) là một quá trình tự nhiên giúp cho việc tiếp nhận và tri thức có thể được hệ thống lưu trữ cụ thể Có nhiều phương pháp phân loại đã được nghiên cứu và được áp dụng Hiện nay, phương pháp phân loại Support Vector Machines là một trong những phương pháp mạnh và hiệu quả để giải quyết các bài toán phân lớp phi tuyến được Vapnik và Chervonenkis giới thiệu lần đầu vào năm 1995
1.3.1 Khái niệm SVM
Trong thời đại công nghệ thông tin hiện nay, sự phát triển của công nghệ kéo theo sự gia tăng rất lớn của lưu lượng thông tin lưu trữ và trao đổi Do đó, yêu cầu về tổ chức lưu trữ và truy cập thông tin sao cho hiệu quả được đặt lên hàng đầu Hướng giải quyết được đưa ra là tổ chức, tìm kiếm và phân loại thông tin một cách hiệu quả Bản thân con người trong đời sống cũng tiếp nhận thế giới xung quanh thông qua sự phân loại và tổ chức ghi nhớ tri thức một cách hiệu quả
Trang 33Phân loại thông qua các lớp và mô tả các lớp giúp cho tri thức được định dạng và lưu trữ trong đó
SVM là một phương pháp phân loại xuất phát từ lý thuyết học thống kê, dựa trên nguyên tắc tối thiểu rủi ro cấu trúc (Structural Risk Minimisation) SVM
sẽ cố gắng tìm cách phân loại dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất (Test Error Minimisation) Đây là một phương pháp mới trong lĩnh vực trí tuệ nhân tạo Vào thời kỳ đầu khi SVM xuất hiện, khả năng tính toán của máy tính còn rất hạn chế, nên phương pháp SVM không được lưu tâm Tuy nhiên, từ năm 1995 trở lại đây, các thuật toán sử dụng cho SVM phát triển rất nhanh, cùng với khả năng tính toán mạnh mẽ của máy tính, đã có được những ứng dụng rất to lớn
Kernel SVM tức là việc áp dụng SVM lên bài toán mà dữ liệu giữa hai lớp là hoàn toàn không phân biệt tuyến tính Ý tưởng cơ bản của Kernel SVM và các phương pháp Kernel nói chung là tìm một phép biến đổi sao cho dữ liệu ban đầu là không phân biệt tuyến tính được biến sang không gian mới Ở không gian mới này, dữ liệu nên phân biệt tuyến tính Xét ví dụ dưới đây với việc biến dữ liệu không phân biệt tuyến tính trong không gian hai chiều thành phân biệt tuyến tính trong không gian ba chiều bằng cách giới thiệu thêm một chiều mới
Hình 1.8 Bài toán Kernel SVM
Trong đó, hình 1.8a: Dữ liệu của hai lớp là không phân biệt tuyến tính trong không gian hai chiều Hình 1.8b: Nếu coi thêm chiều thứ ba là một hàm số của hai chiều còn lại z=x^2+y^2, các điểm dữ liệu sẽ được phân bố trên 1 parabolic và đã trở nên phân biệt tuyến tính Mặt phẳng màu vàng là mặt phân
Trang 34chia Hình 1.8c: Giao điểm của mặt phẳng tìm được và mặt parabolic là một đường ellipse, khi chiếu toàn bộ dữ liệu cũng như đường ellipse này xuống không gian hai chiều ban đầu, ta tìm được được phân chia hai lớp
Nói một cách ngắn gọn, Kernel SVM là việc đi tìm một hàm số biến đổi
dữ liệu x từ không gian đặc trưng ban đầu thành dữ liệu trong không gian mới bằng hàm Φ(x) Trong ví dụ này, hàm Φ(.) đơn giản là giới thiệu thêm một đặc trưng mới là một hàm số của các đặc trưng đã biết Hàm số này cần thỏa mãn mục đích của chúng ta: trong không gian mới, dữ liệu giữa hai lớp là phân biệt tuyến tính hoặc gần như phân biệt tuyến tính Khi đó, ta có thể dùng các phân lớp tuyến tính thông thường như PLA, Logistic Regression, hay SVM biên cứng/biên mềm Các hàm Φ(.) thường tạo ra dữ liệu mới có nhiều đặc trưng hơn số đặc trưng của dữ liệu ban đầu, thậm chí là vô hạn đặc trưng Bài toàn đối ngẫu trong SVM biên mềm cho dữ liệu gần phân biệt tuyến tính:
m T n N
n
N
n N
m
m n m n
N: số cặp điểm dữ liệu trong tập huấn luyện
: đặc trưng vector của dữ liệu thứ n trong tập huấn luyện
: nhãn của dữ liệu thứ n, bằng 1 hoặc -1
: nhân tử Lagrange ứng với điểm dữ liệu thứ n
C: hằng số dương giúp cân đối độ lớn của biên và sự hy sinh
của các điểm nằm trong vùng không an toàn Khi C =∞ hoặc rất lớn, SVM biên mềm trở thành SVM biên cứng
Sau khi giải được λ cho công thức trên, nhãn của một điểm dữ liệu mới
sẽ được xác nhận bởi dấu của biểu thức:
Trang 35M S
m
T m m
N x x
m
m T n m n m n N
n
1 1 1
) ( ) ( 2
1 max
M S
m
m m
N x x k
1.3.2 Phân loại giữa nhiều lớp
Các phương pháp Support Vector Machine đã đề cập (biên cứng, biên mềm, Kernel) đều được xây dựng nhằm giải quyết bài toán Phân loại hai lớp, tức bài toán phân lớp với chỉ hai lớp Các mô hình làm việc với bài toán có 2 lớp còn được gọi là phân loại nhị phân Một cách tự nhiên để mở rộng các mô hình này
áp dụng cho các bài toán phân loại nhiều lớp, tức có nhiều lớp dữ liệu khác nhau
Có ít nhất bốn cách để áp dụng phân loại nhị phân vào các bài toán phân loại nhiều lớp:
One-vs-one
Xây dựng rất nhiều bộ phân loại nhị phân cho từng cặp lớp Bộ thứ nhất phân biệt lớp 1 và lớp 2, bộ thứ hai phân biệt lớp 1 và lớp 3, … Khi có một dữ liệu mới vào, đưa nó vào toàn bộ các bộ phân loại nhị phân trên Kết quả cuối cùng có thể được xác định bằng cách xem lớp nào mà điểm dữ liệu đó được phân
Trang 36vào nhiều nhất (major voting)
Như vậy, nếu có C lớp thì tổng số phân loại nhị phân phải dùng là
n Đây là một con số lớn, cách làm này không lợi về tính toán
One-vs-rest hay one-hot coding
Phương pháp được sử dụng nhiều nhất là one-vs-rest (một số tài liệu gọi
là ove-vs-all, one-against-rest, hoặc one-against-all) Cụ thể, nếu có C lớp thì ta
sẽ xây dựng C lớpifier, mỗi lớpifier tương ứng với một lớp Lớpifier thứ nhất giúp phân biệt lớp 1 vs not lớp 1, tức xem một điểm có thuộc lớp 1 hay không, hoặc xác suất để một điểm rơi vào lớp 1 là bao nhiêu Tương tự như thế, lớpifier thứ hai sẽ phân biệt lớp 2 với không phải lớp 2, … Kết quả cuối cùng có thể được xác định bằng cách xác định lớp mà một điểm rơi vào với xác suất cao nhất
Phương pháp này còn được gọi là one-hot coding (được sử dụng nhiều nên có rất nhiều tên) vì với cách mã hóa trên, giả sử có 4 lớp, lớp 1, 2, 3, 4 sẽ lần lượt được mã hóa dưới dạng nhị phân bởi 1000, 0100, 0010 hoặc 0001 One-hot
vì chỉ có one bit là hot (bằng 1)
1.4 Phương pháp đánh giá mô hình phân loại
Cách tính sử dụng accuracy như ở trên chỉ cho chúng ta biết được bao nhiêu phần trăm lượng dữ liệu được phân loại đúng mà không chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất, và
dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác Để có thể đánh giá được các giá trị này, chúng ta sử dụng một ma trận được gọi là confusion matrix
Về cơ bản, confusion matrix thể hiện có bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp, và được dự đoán là rơi vào một lớp
Cách đánh giá này thường được áp dụng cho các bài toán phân lớp có hai lớp dữ liệu Cụ thể hơn, trong hai lớp dữ liệu này có một lớp quan trọng hơn lớp kia và cần được dự đoán chính xác Ví dụ, trong bài toán xác định có bệnh ung thư hay không thì việc không bị sót quan trọng hơn là việc chẩn đoán nhầm âm tính thành dương tính Trong bài toán xác định có mìn dưới lòng đất hay không thì việc bỏ sót nghiêm trọng hơn việc báo động nhầm rất nhiều Hay trong bài toán lọc email rác thì việc cho nhầm email quan trọng vào thùng rác nghiêm
Trang 37trọng hơn việc xác định một email rác là email thường
Trong những bài toán này, người ta thường định nghĩa lớp dữ liệu quan trọng hơn cần được xác định đúng là lớp Positive (P-dương tính), lớp còn lại được gọi là Negative (N-âm tính) Ta định nghĩa True Positive (TP), False Positive (FP), True Negative (TN), False Negative (FN) dựa trên confusion matrix chưa chuẩn hoá như sau:
dữ liệu được dự đoán đúng trên tổng số 10 điểm Vậy ta kết luận độ chính xác của mô hình là 0.6 (hay 60%) Để ý rằng đây là bài toán với chỉ 3 lớp, nên độ chính xác nhỏ nhất đã là khoảng 1/3, khi tất cả các điểm được dự đoán là thuộc vào một lớp nào đó Công thức tính độ chính xác được trình bày như sau:
TN FN FP TP
TN TP ACC
Với một cách xác định một lớp là positive, Precision được định nghĩa là
tỉ lệ số điểm true positive trong số những điểm được phân loại là positive (TP + FP) Recall được định nghĩa là tỉ lệ số điểm true positive trong số những điểm thực sự là positive (TP + FN) Có thể nhận thấy rằng TPR và Recall là hai đại lượng bằng nhau Ngoài ra, cả Precision và Recall đều là các số không âm nhỏ
Trang 38hơn hoặc bằng một Precision cao đồng nghĩa với việc độ chính xác của các điểm tìm được là cao Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ
bỏ sót các điểm thực sự positive là thấp
Hình 1.9 Cách tính Precision và Recall
Một mô hình phân lớp tốt là mô hình có cả Precision và Recall đều cao, tức càng gần một càng tốt Có hai cách đo chất lượng của bộ phân lớp dựa vào Precision và Reall: Precision-Recall curve và F-score
Precision-Recall curve và Average precision
Giả sử có N ngưỡng để tính precision và recall, với mỗi ngưỡng cho một cặp
giá trị precision, recall là P ,n Rn với Precision-Recall curve được vẽ bằng cách vẽ từng điểm có toạ độ R ,n Pn trên trục toạ độ và nối chúng với nhau Average precision (AP) được xác định bằng:
n R P R
F
1 1
Trang 39Chương 2
THIẾT KẾ HỆ THỐNG PHÂN LOẠI BỆNH TIM
DỰA VÀO TÍN HIỆU ĐIỆN TIM
2.1 Chuẩn bị dữ liệu ECG
Để phục vụ cho nghiên cứu về phân loại bệnh tim thì tín hiệu điện tâm
đồ là một yêu cầu cực kỳ quan trọng Trong luận án này, tín hiệu ECG được sử dụng trong tập cơ sở dữ liệu MIT-BIH [73] Trong đó, tập dữ liệu ECG này gồm
4000 tín hiệu long-term Holter thu được từ năm 1975 đến năm 1979 tại Phòng Thí nghiệm Chứng loạn nhịp tim ở bệnh viện Beth Israel Tập dữ liệu này bao gồm 23 tín hiệu (đánh số từ 100 đến 124 với một số (110) không tồn tại) được chọn ngẫu nhiên, và 25 tín hiệu (đánh số từ 200 đến 234 và có một vài số không xuất hiện) được chọn từ cùng một tập hợp với 23 hồ sơ trên bao gồm các hiện tượng hiếm gặp nhưng có triệu chứng lâm sàng quan trọng mặc dù hiển thị ngẫu nhiên và khá nhỏ trên Holter Trong đó, tập 48 tín hiệu được đo đều kéo dài trên
30 phút Tập dữ liệu này còn được rất nhiều nhà khoa học trên thế giới sử dụng nghiên cứu
Hình 2.1 Dạng sóng tín hiệu ECG của bệnh nhân được đánh số 234 thu thập từ
tập dữ liệu MIT-BIH Trong tập dữ liệu này gồm có 2 nhóm, nhóm đầu tiên (gồm các tín hiệu được đánh số từ 100 đến 124) đại diện cho nhiều dạng sóng ECG thường gặp
Trang 40Các tín hiệu này trong thời gian khoảng nửa giờ và đủ chất lượng để các bác sĩ chuyên nghiệp cũng như các nhà khoa học có thể phân tích Nhóm thứ hai bao gồm các trường hợp loạn nhịp trên thất và các dấu hiệu bất thường Một vài tín hiệu được chọn vì phức bộ QRS có dạng sóng bị biến đổi, hoặc chất lượng của tín hiệu đủ điều kiện để phát hiện rối loạn nhịp tim Danh sách bệnh nhân là 25 người đàn ông từ 32 đến 89 tuổi, và 22 phụ nữ ở độ tuổi 23 đến 89 Trong đó, tín hiệu 201 và 202 là của chung một người đàn ông Trong tập dữ liệu này gồm 3 loại file là: “*.atr”, “*.dat” và “*.hea” Ngoài ra, tín hiệu ECG còn được tác giả
tự thu thập để phục vụ cho việc nghiên cứu trong quá trình thực hiện luận án này
Bảng 2.1 Kí hiệu ghi chú theo chuẩn MIT-BIH
Tiêu chuẩn AAMI sử dụng để kết hợp các loại nhịp tim MIT-BIH thành bốn lớp nhịp tim sử dụng trong tất cả các quá trình xử lý tiếp theo Mỗi lớp bao