ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÙI XUÂN TRỌNG MỘT CÁCH TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU ĐỂ CHẨN ĐOÁN BỆNH TIM CHO BỆNH NHÂN NGOẠI TRÚ LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TI
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÙI XUÂN TRỌNG
MỘT CÁCH TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU
ĐỂ CHẨN ĐOÁN BỆNH TIM CHO BỆNH NHÂN NGOẠI TRÚ
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI, NĂM 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÙI XUÂN TRỌNG
MỘT CÁCH TIẾP CẬN TRONG KHAI PHÁ DỮ LIỆU
ĐỂ CHẨN ĐOÁN BỆNH TIM CHO BỆNH NHÂN NGOẠI TRÚ
Ngành: Công Nghệ Thông Tin Chuyên ngành: Hệ Thống Thông Tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TIẾN SĨ VŨ THỊ HỒNG NHẠN
HÀ NỘI, NĂM 2015
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là công trình nghiên cứu của tôi, dưới sự hướng dẫn của Tiến sĩ Vũ Thị Hồng Nhạn Luận văn này không sao chép từ của ai hay từ bất kỳ luận văn nào khác Nếu sai tôi xin hoàn toàn chịu trách nhiệm trước nhà trường và pháp luật
BÙI XUÂN TRỌNG
Trang 4LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS Vũ Thị Hồng Nhạn, cô đã hướng dẫn, chỉ dạy tận tình để tôi có thể hoàn thành luận văn này Tôi cũng xin chân thành cảm ơn các thầy, cô giáo khoa Công nghệ thông tin -Trường Đại học công nghệ - Đại học Quốc gia Hà nội đã truyền thụ kiến thức cho tôi trong suốt quá trình học tập
Tôi cũng muốn bày tỏ lòng biết ơn của mình tới gia đình, người thân và đồng nghiệp đã động viên, khích lệ, giúp đỡ, tạo mọi điều kiện để tôi hoàn thành khóa học và luận văn này
Trang 5TÓM TẮT
Bệnh tim mạch là một trong những nguyên nhân gây tử vong cao nhất hiện nay Với sự phát triển của Công nghệ, người ta có thể sử dụng các thiết bị không dây, thiết bị cảm ứng tích hợp trên cơ người để thu thập liên tục dữ liệu về tình trạng sức khỏe của bệnh nhân nội trú cũng như ngoại trú Trong luận văn này, chúng tôi nghiên cứu một cách tiếp cận trong khai phá dữ liệu để chẩn đoán bệnh tim cho bệnh nhân ngoại trú Quá trình chẩn đoán được thực hiện qua hai bước Trong bước thứ nhất, bệnh nhân được chẩn đoán về nguy cơ mắc bệnh dựa vào luật kết hợp Luật kết hợp được tìm ra dựa vào dữ liệu lâm sàng Dữ liệu lâm sàng của bệnh nhân được tiền xử lý và sau đó được khai phá để tìm luật kết hợp dựa trên thuật toán Apriori Sau bước này, dựa trên kết quả chẩn đoán, bác sĩ sẽ quyết định những bệnh nhân nào có nguy cơ bị bệnh tim mạch cao sẽ tiếp tục được chẩn đoán thêm ở bước sau Ở bước chẩn đoán thứ hai này sẽ áp dụng thuật toán GNG trên tập dữ liệu về sự thay đổi nhịp tim Dữ liệu điện tâm đồ biểu diễn sự thay đổi nhịp tim của bệnh nhân được thu trong các hoạt động hằng ngày Tín hiệu điện tâm đồ được tiền
xử lý dựa trên kỹ thuật Poincaré để chuyển sang định dạng của véc tơ đầu vào Thuật toán GNG được áp dụng để khai phá dữ liệu đã được tiền xử
lý Thuật toán này đáp ứng được yêu cầu của việc học liên tục và GNG
có khả năng huấn luyện với dữ liệu mới nhưng không quên những mẫu
đã được huấn luyện từ trước Một số thực nghiệm được thực hiện để đánh giá độ chính xác của phương pháp chẩn đoán Từ kết quả thu được, ta có thể thấy rằng, phương pháp này có thể áp dụng trong hệ một hệ thống
y tế để hỗ trợ việc chẩn đoán sớm những trường hợp tim mạch bất bình thường, phòng tránh các hậu quả nghiêm trọng, đặc biệt có thể theo dõi bệnh nhân ngoại trú và ứng cứu kịp thời trong trường hợp cần thiết
Trang 6Mục lục
1.1 Động cơ nghiên cứu 1
1.2 Đóng góp của luận văn 2
2 Cơ sở lý thuyết 5 2.1 Giới thiệu về bệnh tim mạch 5
2.2 Các hệ thống chuẩn đoán bệnh Tim 7
2.2.1 Các Hệ thống chẩn đoán dựa vào chỉ số nguy cơ mắc bệnh tim 7 2.2.2 Hệ thống hỗ trợ chuẩn đoán bệnh Tim mạch sử dụng kỹ thuật khai phá dữ liệu 9
2.3 Một số thuật toán khai phá dữ liệu 10
2.3.1 K-means 10
2.3.2 Cây quyết định 12
2.3.3 Thuật toán Mạng Perceptron nhiều lớp 14
2.3.3.1 Mạng Perceptron một lớp 14
2.3.3.2 Mạng Perceptron lan truyền thẳng nhiều lớp 16
2.3.4 SOM 19
3 Quá trình chẩn đoán bệnh tim dựa trên kỹ thuật khai phá dữ liệu 24 3.1 Tổng quan quá trình chẩn đoán 24
3.2 Chẩn đoán bệnh Tim mạch dựa trên các thông tin lâm sàng 25
3.2.1 Tiền xử lý Dữ liệu 26
iii
Trang 73.2.2 Các khái niệm và định nghĩa 26
3.2.3 Thuật toán Apriori 30
3.3 Chẩn đoán bệnh tim dựa vào sự thay đổi nhịp tim 31
3.3.1 Tiền xử lý dữ liệu 32
3.3.2 Thuật toán GNG 35
3.3.2.1 Nguyên lý cơ bản và mô hình mạng 35
3.3.2.2 Thuật toán GNG 36
4 Thực nghiệm và Đánh giá 44 4.1 Môi trường thực nghiệm và dữ liệu 44
4.1.1 Môi trường thực nghiệm cho bước chẩn đoán dựa vào các thông tin lâm sàng 44
4.1.2 Môi trường thực nghiệm cho bước chẩn đoán dựa vào sự thay đổi nhịp tim 45
4.2 Kết quả thực nghiệm 49
4.2.1 Kết quả và đánh giá hiệu quả của thuật toán Apriori 49
4.2.1.1 Đánh giá sự thay đổi số lượng các tập mục phổ biến theo sự thay đổi của độ hỗ trợ minsup 49
4.2.1.2 Đánh giá số lượng các luật sinh ra theo sự thay đổi của độ hỗ trợ minsup 50
4.2.1.3 Đánh giá số lượng các luật tạo ra khi độ tin cậy minconf thay đổi 51
4.2.2 Kết quả và đánh giá hiệu quả của thuật toán GNG 53
4.2.2.1 Đánh giá lỗi phân lớp trên tập dữ liệu D(O) 53
4.2.2.2 Đánh giá số lượng nút và cạnh của thuật toán GNG trên tập dữ liệu D(O) 54
4.2.2.3 Đánh giá lỗi bình phương trung bình MSE trên D(O) 55 4.2.2.4 So sánh GNG với SOM 56
iv
Trang 8Danh sách hình vẽ
2.1 Bệnh Tim mạch vành 5
2.2 Đặc điểm của các hệ thống ước tính nguy cơ bệnh Tim mạch 9
2.3 Cụm dữ liệu khai phá bởi K-mean 11
2.4 Bảng dữ liệu 12
2.5 Cây quyết định 12
2.6 Mạng Perceptron một lớp 15
2.7 Lan truyền tín hiệu trong quá trình huấn luyện theo phương pháp lan truyền ngược sai số 18
2.8 Mô hình SOM 19
2.9 Ma trận trọng số 20
2.10 Các lân cận 20
2.11 Nút khớp nhất 22
2.12 Hàm lân cận cơ bản 23
3.1 Tổng quan hệ thống quá trình chẩn đoán bệnh tim 25
3.2 Chẩn đoán bệnh tim dựa vào thông tin lâm sàng của bệnh nhân 26
3.3 Kỹ thuật Poincaré 34
3.4 Đồ thị RR 34
4.1 Tập dữ liệu đầu vào của thuật toán Apriori 45
4.2 Sự thay đổi itemset theo minsup 50
4.3 Số lượng luật theo minsup 51
4.4 Số lượng luật theo minconf 52
4.5 Tập luật sinh ra với minsup=0.1 và minconf=0.97 52
4.6 Giá trị lỗi phân lớp của GNG trên tập dữ liệu D(O) 53
4.7 Số nút và cạnh của GNG trên tập dữ liệu với O=0% 54
4.8 Số nút và cạnh của GNG trên tập dữ liệu với O=1% 55
v
Trang 94.9 Số nút và cạnh của GNG trên tập dữ liệu với O=2% 55
4.10 MSE và Mức độ giao giữa các lớp 56
4.11 GNG và SOM trên tập dữ liệu D(0%) 56
4.12 GNG và SOM tập dữ liệu D(1%) 57
4.13 GNG và SOM tập dữ liệu D(2%) 57
vi
Trang 10Danh sách bảng
3.1 Bảng thuộc tính của mẫu dữ liệu cho bệnh tim 27
3.2 Quy tắc chuyển đổi dữ liệu 43
4.1 Tổng hợp các tham số sử dụng để sinh ra tín hiệu điện tâm đồ 46
4.2 Tham số sử dụng để sinh ra tập dữ liệu (BT-Bình thường, BBT- Bất bình thường) 47
4.3 Tổng hợp các tham số sử dụng trong GNG 48
4.4 Sự thay đổi số lượng tập mục phổ biến theo độ hỗ trợ 50
4.5 Sự thay đổi số lượng luật sinh ra theo độ hỗ trợ 51
4.6 Sự thay đổi số lượng luật sinh ra theo độ tin cây 51
vii
Trang 11Tài liệu tham khảo
[1] Anderson KM, Wilson PWF, Odell PM, Kannel WB An updated
coronary risk profile A statement for health professionals Journal
of the American Heart Association, Circulation 1991 , 356-361 24
[2] Azuaje F, W Dubitzky, X Wu, P Lopes, N.D Black, K Adamson, and J.A White A Neural Network Approach to Coronary Heart Disease Risk Assessment based on Short-Term Measurement of
RR Intervals In:Processing of Computers in Cardiology, (1997).
33
[3] Chan HL, Fang SC, Ko YL, Lin MA, Huang HH, and Lin CH Heart rate variability characterization in daily physical activities using wavelet analysis and multilayer Fuzzy Activity Clustering
IEEE Transactions on Biomedical Engineering(2006)
[4] E.AbuKhousa and P.Campbell, Predictive data mining to support clinical decisions: An overview of heart disease prediction systems,
presented at the International Conference on Innovations in Infor-mation Technology, 2012
[5] Fritzke B A growing neural gas network learns
topolo-gies.Advances in Neural Information Processing Systems 7,
Cam-bridge, MA: MIT Press (1995) 36
[6] J Han and M Kamber (2001), Data Mining - Concepts and Tech-niques, Chapter 8: Cluster Analysis Morgan Kaufmann 19,30
[7] J.A Hartigan, Sons Clustering algorithms(1975) 10
[8] Hiroyuki F, Takashi U, Koichi O Estimation of Breathing
Fre-quency by R Wave Fluctuation of ECG Japanese Journal of Med-ical Electronics and BiologMed-ical Engineering(1998) 45
[9] Ingo A, Jorg B, Gerald S On-line learning with dynamic cell
struc-tures Int Conf on Artificial Neural Networks, V ol.2, (1995)
[10] Ishtake S.H, Prof Sanap S.A Intelligent Heart Disease Prediction
System Using Data Mining Techniques, International J of Health-care & Biomedical Research(2013)
[11] Kamen PW, Krum H, Tonkin AM, Poincare plot of heart rate vari-ability allows quantitative display of parasympathetic nervous
ac-tivity in humans Clinical Science (1996).
60
Trang 12[12] Karayiannis NB, Mi GW Growing radial basis neural networks: merging supervised and unsupervised learning with network
growth techniques IEEE Transactions on Neural Networks (1997) [13] Kohonen T Self-Organizing Maps, 3rd ed Berlin: Springer-Verlag (2001)
[14] Laerhoven KV, Lowette S Real-time analysis of data from many
sensors with neural networks In Proceedings of the fourth Inter-national Symposium on Wearable Computers (2001)
[15] Lee HG, Noh KY, Park HK, Ryu KH Predicting coronary artery disease from heart rate variability using classification and
statisti-cal analysis 7th IEEE International Conference on Computer and Information Technology, (2007)
[16] Chin-Teng Lin, C.S.George Lee, Neural fuzzy systems: a neuro-fuzzy synergism to intelligent systems, Prentice-Hall Inc (1996) 14
[17] M.Ambarasi etc al.:, Enhanced Prediction of Heart Disease with Feature subset selection using Genetic Algorithm, IJESI, Vol 2(10) (2010)
[18] MA.Jabbar, B.L.Deekshatulu and Priti Chandra.: Knowledge Dis-covery using Associative Classification for Heart Disease
Predic-tion In: International symposium on Intelligent Informatics (ISI
2012)
[19] MA.Jabbar, Priti Chandra, B.L.Deekshatulu :Cluster based asso-ciation rule mining for heart attack prediction,JATIT,vol 32,no 2(Oct 2011)
[20] MA.Jabbar, B.L.Deekshatulu and Priti Chandra.: An evolutionary algorithm for heart disease prediction, ICIP, CCIS 292 PP 378-389, Springer-Verlag (2012)
[21] Martinetz TM Competitive hebbian learning rule forms perfectly
topology preserving maps Int Conference on Artificial Neural Networks,Springer, (1993) 35
[22] Mayrhofer R, Radi H Extending the Growing Neural Gas Classi-fier for Context Recognition EUROCAST, (2007)
[23] Mirkin B Clustering for data mining: A data recovery approach,
Chapman & Hall/CRC,UK (2005)
[24] Mozaffarian D, Stein PK, Prineas RJ, Siscovick DS Dietary fish and w − 3 fatty acid consumption and heart rate variability in US
adults Circulation, American heart association, 2008. 2
[25] Nakagawa M, Iwao T, Ishida S, Yonemochi H, Fujino T, Saikawa T, Ito M Circadian rhythm of the signal averaged electrocardiogram and its relation to heart rate variability in healthy subjects 45
61
Trang 13[26] P Raphiphan, A Zaslavsky, P Prathombutr, and P Meesad.Context aware traffic congestion estimation to
com-pensate intermittently available mobile sensors In Mobile Data Management: Systems, Services and Middleware,2009 MDM ’09 Tenth International Conference on(2009)
[27] D.E Rumelhart; G.E Hinton and R.J Williams Learning internal representations by error propagation Parallel distributed process-ing: Explorations in the microstructure of cognition, (Cambridge
MA MIT Press), 318-362 (1986) 17
[28] S.Oyyathevan and A.Askarunisa, An expert system for heart
dis-ease prediction using data mining technique: Neural network, In-ternational Journal of Engineering Research and Sports Science,
vol 1, pp 1-6, (2014)
[29] Sellappan Palaniappan, Rafiah Awang Intelligent Heart Disease Prediction System Using Data Mining Techniques(2008) 10
[30] S.Ranganatha, H R P Raj, C Anusha, and S K Vinay, Medical data mining and analysis for heart disease dataset using classifi-cation techniques, presented at the National Conference on
Chal-lenges in Research & Technology in the Coming Decades, 2013 [31] S.P Syed Ibrahim et al.: An Evolutionary approach for rule set
se-lection in a class based associative classifier Europian journal of scientific research(2011)
[32] Juha Vesanto (2000),Using SOM in Data Mining, Licentiate’s
the-sis, Helsinki University of Technology 19
[33] www.cs.waikato.ac.nz/ml/weka/ 44
[34] www.archive.ics.uci.edu 44
[35] www.physionet.org/physiobank/ecgsyn/ 45
[36] www.vnha.org.vn/ 1,5
[37] www.wpro.who.int/vietnam/vi/ 1
62