ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỌ THÔNG HỆ TƯ VẤN MỜ TRỰC CẢM VÀ ỨNG DỤNG TRONG CHẨN ĐOÁN BỆNH Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thôn
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỌ THÔNG
HỆ TƯ VẤN MỜ TRỰC CẢM
VÀ ỨNG DỤNG TRONG CHẨN ĐOÁN BỆNH
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2014
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỌ THÔNG
HỆ TƯ VẤN MỜ TRỰC CẢM
VÀ ỨNG DỤNG TRONG CHẨN ĐOÁN BỆNH
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ HOÀNG SƠN
Trang 3
Mục lục
MỞ ĐẦU Error! Bookmark not defined.
CHƯƠNG 1 TỔNG QUAN VỀ TẬP MỜ TRỰC CẢM, HỆ TƯ VẤN VÀ BÀI
TOÁN CHẨN ĐOÁN BỆNH 6
I Bài toán chẩn đoán bệnh 6
1 Giới thiệu 6
2 Bài toán chẩn đoán bệnh 6
3 Ví dụ bài toán chẩn đoán bệnh 6
II Tổng quan về tập mờ trực cảm 8
1 Tập rõ 8
2 Tập mờ 8
3 Tập mờ trực cảm 10 III Hệ tư vấn Error! Bookmark not defined.
1 Giới thiệu Error! Bookmark not defined.
2 Định nghĩa hệ tư vấn Error! Bookmark not defined.
3 Một số thuật toán trong RS Error! Bookmark not defined.
4 Một số nghiên cứu liên quan Error! Bookmark not defined.
IV Kết luận Error! Bookmark not defined CHƯƠNG 2 HỆ TƯ VẤN MỜ TRỰC CẢM Error! Bookmark not defined.
I Giới thiệu Error! Bookmark not defined.
II Hệ tư vấn mờ trực cảm Error! Bookmark not defined.
1 Hệ tư vấn mờ trực cảm đơn tiêu chí và đa tiêu chí Error! Bookmark not defined.
2 Ma trận mờ trực cảm và ma trận hợp thành mờ trực cảm Error! Bookmark not defined.
3 Ma trận tương đồng mờ trực cảm và độ đo tương tự mờ trực cảm Error! Bookmark not defined.
4 Thuật toán lọc cộng tác mờ trực cảm Error! Bookmark not defined.
5 Kết luận Error! Bookmark not defined CHƯƠNG 3 KẾT QUẢ THỰC NGHIỆM VÀ SO SÁNHError! Bookmark not defined.
I Giới thiệu Error! Bookmark not defined.
1 Môi trường thực nghiệm Error! Bookmark not defined.
2 Dữ liệu Error! Bookmark not defined.
II Kết quả thực nghiệm và so sánh Error! Bookmark not defined.
1 Minh họa IFCF Error! Bookmark not defined.
2 Đánh giá Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined.
Trang 4TÀI LIỆU THAM KHẢO 11
Trang 5Danh mục các bảng
Bảng 1 Quan hệ giữa bệnh nhân và triệu chứng (R ) 7 PS
Bảng 2 Quan hệ giữa triệu chứng và bệnh (R SD) 7 Bảng 3 Quan hệ giữa bệnh nhân và bệnh (R PD) 7 Bảng 4 Bệnh của bệnh nhân 7 Bảng 5 Quan hệ giữa bệnh nhân và bệnh (R PD) trong phương pháp của De, Biswas và Roy
Error! Bookmark not defined.
Bảng 6 Ma trận S PD Error! Bookmark not defined.
Bảng 7 Ma trận W PD Error! Bookmark not defined Bảng 8 Ma trận giảm thiểu Error! Bookmark not defined Bảng 9 Quan hệ giữa bệnh nhân và bệnh khi sử dụng hàm Hamming Error! Bookmark not defined.
Bảng 10 Quan hệ giữa bệnh nhân và bệnh khi sử dụng hàm Euclidean Error! Bookmark not defined.
Bảng 11 Tập dữ liệu huấn luyện với các giá trị * cần được dự báo Error! Bookmark not defined.
Bảng 12 Tập dữ liệu huấn luyện thô với các giá trị * cần được dự báo Error! Bookmark not defined.
Bảng 13 Tập dữ liệu đầy đủ được xác định bởi phương pháp của Hassan và Syed, các giá trị
in đậm thể hiện bệnh của bệnh nhân Error! Bookmark not defined.
Bảng 14 Tập dữ liệu đầy đủ được xác định bởi phương pháp của Davis và cộng sự [9], các
giá trị in đậm thể hiện bệnh có thể mắc phải nhất Error! Bookmark not defined Bảng 15 MC-IFRS cho chẩn đoán bệnh với các giá trị * cần được dự báo Error! Bookmark not defined.
Bảng 16 Miêu tả về tập dữ liệu thực nghiệm Error! Bookmark not defined Bảng 17 Tập dữ liệu huấn luyện với các giá trị * cần được dự báo Error! Bookmark not defined.
Bảng 18 Tập dữ liệu SC-IFRS được trích xuất với các giá trị * cần được dự báo Error! Bookmark not defined.
Bảng 19 Bệnh được khuyến nghị, bệnh với khả năng mắc cao nhất được in đậm Error! Bookmark not defined.
Trang 6Bảng 20 Kết quả của thực nghiệm ngẫu nhiên trên bộ dữ liệu HEART Error! Bookmark not defined.
Bảng 21 Kết quả của thực nghiệm k-fold trên bộ dữ liệu HEART Error! Bookmark not defined.
Bảng 22 Kết quả của thực nghiệm ngẫu nhiên trên bộ dữ liệu RHC Error! Bookmark not defined.
Bảng 23 Kết quả của thực nghiệm k-fold trên bộ dữ liệu RHC Error! Bookmark not defined.
Trang 7Danh mục các hình vẽ, đồ thị
Hình 1 Tập rõ và biểu diễn tập rõ 8 Hình 2 Ví dụ tập mờ 9
Hình 3 Thuật toán IFCF Error! Bookmark not defined Hình 4 Phân bố 2 chiều của HEART Error! Bookmark not defined Hình 5 Phân bố 2 chiều của RHC Error! Bookmark not defined Hình 6 Kết quả MAE của thực nghiệm ngẫu nhiên trên bộ dữ liệu HEART Error! Bookmark not defined.
Hình 7 Kết quả MAE của thực nghiệm k-fold trên bộ dữ liệu HEART Error! Bookmark not defined.
Hình 8 Kết quả MAE của thực nghiệm ngẫu nhiên trên bộ dữ liệu RHC Error! Bookmark not defined.
Hình 9 Kết quả MAE của thực nghiệm k-fold trên bộ dữ liệu RHC Error! Bookmark not defined.
Trang 8CHƯƠNG 1 TỔNG QUAN VỀ TẬP MỜ TRỰC CẢM, HỆ TƯ
VẤN VÀ BÀI TOÁN CHẨN ĐOÁN BỆNH
I Bài toán chẩn đoán bệnh
1 Giới thiệu
Bài toán chẩn đoán bệnh là bài toán rất phổ biến trong y học Nó là một khâu rất quan trọng trong quy trình điều trị của bệnh nhân Bernegger và cộng sự [5] cho rằng chẩn đoán là khâu trung tâm trong y học lâm sàng và việc chẩn đoán chính xác là một yêu cầu quan trọng trong các quyết định điều trị đúng Chẩn đoán bệnh là dự báo khả năng mắc bệnh cho bệnh nhân dựa vào những thông tin triệu chứng mà bệnh nhân gặp phải Với mức độ quan trọng của chẩn đoán trong điều trị bệnh nhân nên vấn đề nâng cao chất lượng chẩn đoán là vấn đề đang được quan tâm hàng đầu
2 Bài toán chẩn đoán bệnh
Định nghĩa 1 [46]: Cho PP1, ,P n là tập bệnh nhân, S S1, ,S m là tập triệu chứng, DD1, ,D k là tập bệnh Mối quan hệ giữa bệnh nhân và triệu chứng được thể hiện bởi tập R PS R PSP i,S j|i1,n;j1,m Ở đây i j
PS S P
R , thể hiện cấp độ bệnh nhân P i có triệu chứng S j và được biểu diễn bằng giá trị số hay giá trị mờ, mờ trực cảm Tương tự, quan hệ giữa triệu chứng và bệnh nhân được thể hiện bởi tập
R S D i m j k
R SD SD i, j | 1, ; 1, Ở đây i j
SD D S
R , phản ánh khả năng triệu chứng
i
S sẽ dẫn đến bệnh D j Bài toán chẩn đoán bệnh nhằm xác định mối quan hệ giữa bệnh nhân và bệnh được thể hiện bởi tập R PD R PDP i,D j|i1,n;j1,k Ở đây
i j
PD
D
P
R , nhận giá trị 0 hoặc 1 tương ứng với bệnh nhân P i có bị bệnh D j hay không Bài toán chẩn đoán bệnh có thể thể hiện ngắn gọn bởi ánh xạ: R PS,R SDR PD
3 Ví dụ bài toán chẩn đoán bệnh
Ví dụ 1: Xem xét tập dữ liệu của Samuel và Balamurugan [35] bao gồm bốn
bệnh nhân P = {Ram, Mari, Sugu, Somu}, năm triệu chứng S = {Temperature, Headache, Stomach-pain, Cough, Chest-pain} và năm bệnh D = {Viral-Fever, Malaria, Typhoid, Stomach, Heart} Quan hệ giữa bệnh nhân – triệu chứng và triệu chứng – bệnh được cho trong Bảng 1 và 2
Trang 9P Temperature Headache Stomach_pain Cough Chest_pain
Ram (0.8, 0.1) (0.6, 0.1) (0.2, 0.8) (0.6, 0.1) (0.1, 0.6) Mari (0, 0.8) (0.4, 0.4) (0.6, 0.1) (0.1, 0.7) (0.1, 0.8) Sugu (0.8, 0.1) (0.8, 0.1) (0, 0.6) (0.2, 0.7) (0, 0.5) Somu (0.6, 0.1) (0.5, 0.4) (0.3, 0.4) (0.7, 0.2) (0.3, 0.4)
Bảng 1 Quan hệ giữa bệnh nhân và triệu chứng (R PS)
S Viral-Fever Malaria Typhoid Stomach Heart
Temperature (0.4, 0) (0.7, 0) (0.3, 0.3) (0.1, 0.7) (0.1, 0.8) Headache (0.3, 0.5) (0.2, 0.6) (0.6, 0.1) (0.2, 0.4) (0, 0.8) Stomach_pain (0.1, 0.7) (0, 0.9) (0.2, 0.7) (0.8, 0) (0.2, 0.8) Cough (0.4, 0.3) (0.7, 0) (0.2, 0.6) (0.2, 0.7) (0.2, 0.8) Chest_pain (0.1, 0.7) (0.1, 0.8) (0.1, 0.9) (0.2, 0.7) (0.8, 0.1)
Bảng 2 Quan hệ giữa triệu chứng và bệnh (R SD)
Quan hệ giữa bệnh nhân và bệnh được cho bởi các giá trị mờ trực cảm (IFV) được thể hiện trong Bảng 3
P Viral_Fever Malaria Typhoid Stomach Heart
Ram (0.4, 0.1) (0.7, 0.1) (0.6, 0.1) (0.2, 0.4) (0.2, 0.6) Mari (0.3, 0.5) (0.2, 0.6) (0.4, 0.4) (0.6, 0.1) (0.1, 0.7) Sugu (0.4, 0.1) (0.7, 0.1) (0.6, 0.1) (0.2, 0.4) (0.2, 0.5) Somu (0.4, 0.1) (0.7, 0.1) (0.5, 0.3) (0.3, 0.4) (0.3, 0.4)
Bảng 3 Quan hệ giữa bệnh nhân và bệnh (R PD)
Bệnh mà bệnh nhân có khả năng mắc phải nhất được cho trong Bảng 4 Nó được xác định từ Bảng 3 bằng việc sử dụng một phương pháp giải mờ đơn giản, đó là cực đại độ thuộc của các bệnh
P Viral_Fever Malaria Typhoid Stomach Heart
Bảng 4 Bệnh của bệnh nhân
Trang 10II Tổng quan về tập mờ trực cảm
1 Tập rõ
Định nghĩa 2 [6]: Cho tập nền X và x là phần tử của tập X Một tập C trên tập X
là một tập hợp rõ, với x là phần tử của tập hợp C, chỉ có thể có xC hoặc xC Có thể sử dụng hàm x để mô tả khái niệm thuộc về Hàm x được gọi là hàm thuộc hay hàm đặc trưng của tập hợp C
C x if 0
C x if 1
x
Ví dụ 2: X X1,X2,X3,X4
0 ) (
; 1 ) (
; 1 ) (
;
1
)
(x1 x2 x3 x4
Hình 1 Tập rõ và biểu diễn tập rõ
2 Tập mờ
Lý thuyết mờ được biết đến lần đầu tiên trong nghiên cứu về tập mờ của Lotfi
A Zadeh, Dieter Klaua (1965) và nhanh chóng được ứng dụng rộng rãi trong hầu hết các lĩnh vực khoa học kỹ thuật như kinh tế, nông nghiệp, dịch vụ, y tế, v.v
Trong thực tế khi định nghĩa một tập các số lớn hơn 100 và ký hiệu là A, ta định nghĩa như sau
| 100
x x A
Khi đó rất dễ xác định được các phần tử chắc chắn thuộc và không thuộc khái niệm A Tuy nhiên, nếu đưa ra khái niệm về tập nhà giàu (với những người có thu nhập hơn hay bằng 10 triệu một tháng) và ký hiệu là B
| 10000000
tn tn B
Khi đó ta bảo một người có thu nhập là 10 triệu/tháng là thuộc nhà giàu, tuy nhiên bằng trực giác bình thường nó sẽ không hợp lý nếu gọi người có thu nhập 9999999/tháng không phải là nhà giàu
Vì vậy, khái niệm tập mờ xuất hiện để giải quyết các tập không có ranh giới rõ ràng hay những dữ liệu không chắc chắn
Trang 112.1 Định nghĩa tập mờ
Xét tập X khác rỗng Ta sẽ gọi X là không gian nền
Định nghĩa 3 [54]: A là tập mờ trên không gian nền X nếu A được xác định bởi hàm
0,1 :X
A
A
là hàm thuộc (membership function) còn A x là độ thuộc của x vào tập mờ A
Ví dụ 3:
Hình 2 Ví dụ tập mờ
Ví dụ 4: A1 một vài quả cam
Ví dụ 5: A2 “số thực gần 10” có hàm thuộc 2
10 1
1
x
x A
Ta sẽ ký hiệu F x A tập mờ trên X
2.2 Các phép toán đại số trên tập mờ
Các phép toán trên tập mờ được định nghĩa thông qua các hàm thuộc của chúng
và được xây dựng tương tự như các phép toán trong tập mờ kinh điển
a) Phép hợp
Cho A, B là hai tập mờ trên khôn gian nền X, có hàm thuộc A,B khi đó phép hợp AB là tập mờ trên X với hàm thuộc cho bởi
x A x B xx X B
b) Phép giao
Cho A, B là hai tập mờ trên khôn gian nền X, có hàm thuộc A,B khi đó phép hợp AB là tập mờ trên X với hàm thuộc cho bởi
x A x B xx X B
c) Phép lấy phần bù
Cho A là một tập mờ trên khôn gian nền X , có hàm thuộc A,B khi đó phần
bù C
A là tập mờ trên X với hàm thuộc cho bởi
Trang 12 x A x x X
d) Phép chứa và phép bằng nhau
Cho A,BF x Ta nói
B
A nếu A x B x với mọi xX B
A nếu A x B x với mọi xX
(6)
Do đó
B
A nếu A x B x với mọi xX (7)
2.3 Một số tính chất
Cho A,B,CF x
a) Giao hoán
A B B
b) Kết hợp
B C A B C
A ;ABC ABC (9)
c) Lũy đẳng
A A
d) Phân phối
B C A B A C
A ;ABC AB AC (11)
e) Đồng nhất
f) Hấp thu
A B A
g) Luật De Morgan
C C C
B A B
B A B
h) Cuộn
i) Dạng tương đương
A C B AB C A C B CAB (16)
3 Tập mờ trực cảm
Lý thuyết tập mờ thông thường (tập mờ loại một) gặp phải vấn đề đó là để phát triển một hệ logic mờ phải xây dựng hàm thuộc cho các tập mờ sử dụng trong hệ, hay
Trang 13TÀI LIỆU THAM KHẢO
[1] Agarwal, M., Hanmandlu, M., Biswas, K K (2011) Generalized intuitionistic fuzzy soft set and its application in practical medical diagnosis problem
Proceeding of IEEE International Conference on Fuzzy Systems (FUZZ 2011),
2972-2978
[2] Ahn, J Y., Han, K S., Oh, S Y., Lee, C D (2011) An application of
interval-valued intuitionistic fuzzy sets for medical diagnosis of headache International
Journal of Innovative Computing, Information and Control, 7(5), 2755 – 2762
[3] Albeanu, G., Popentiu-Vladicescu, F.L (2010) Intuitionistic fuzzy methods in
software reliability modelling Journal of Sustainable Energy, 1(1), 30 - 34 [4] Atanassov, K T (1986) Intuitionistic fuzzy sets Fuzzy sets and Systems, 20(1),
87-96
[5] Bernegger, G., Musalek, M., Rehmann-Sutter, C (2012) An alternative view on
the task of prognosis Critical reviews in oncology/hematology, 84, S17-S24
[6] Cantor, Georg (1874), “Ueber eine Eigenschaft des Inbegriffes aller reellen algebraischen Zahlen”, Journal für die reine und angewandte Mathematik 77: 258–262
[7] Connors, A.F., et al (1996) The effectiveness of right heart catheterization in the
initial care of critically III patients Jama, 276(11), 889-897
[8] Cuong, B C., Son, L H., Chau, H T M (2010) Some context fuzzy clustering
methods for classification problems Proceedings of the 2010 ACM Symposium
on Information and Communication Technology (pp 34-40)
[9] Davis, D A., Chawla, N V., Blumm, N., Christakis, N., Barabási, A L (2008)
Predicting individual disease risk based on medical history Proceedings of the
17th ACM conference on Information and knowledge management, 769-778
[10] De, S K., Biswas, R., Roy, A R (2001) An application of intuitionistic fuzzy
sets in medical diagnosis Fuzzy Sets and Systems, 117(2), 209-213
[11] Duan, L., Street, W N., Xu, E (2011) Healthcare information systems: data
mining methods in the creation of a clinical recommender system Enterprise
Information Systems, 5(2), 169-181
[12] Feng, F., Li, C., Davvaz, B., Ali, M I (2010) Soft sets combined with fuzzy sets
and rough sets: a tentative approach Soft Computing, 14(9), 899-911
Trang 14[13] Feng, F., Liu, X., Leoreanu-Fotea, V., Jun, Y B (2011) Soft sets and soft rough
sets Information Sciences, 181(6), 1125-1137
[14] Hassan, S., Syed, Z (2010) From netflix to heart attacks: collaborative filtering
in medical datasets Proceedings of the 1st ACM International Health Informatics
Symposium, 128-134
[15] Hosseini, R., Ellis, T., Mazinani, M., Dehmeshki, J (2011) A genetic fuzzy approach for rule extraction for rule-based classification with application to
medical diagnosis Proceeding of European Conference on Machine Learning
and Principles and Practice of Knowledge Discovery in Databases (ECML PKDD), 5-9
[16] Hung, W L., Yang, M S (2008) On similarity measures between intuitionistic
fuzzy sets International Journal of Intelligent Systems, 23(3), 364-383
[17] Irfan Ali, M (2011) A note on soft sets, rough soft sets and fuzzy soft sets
Applied Soft Computing, 11(4), 3329-3332
[18] Jafarian, E., Rezvani, M A (2013) A valuation-based method for ranking the
intuitionistic fuzzy numbers Journal of Intelligent and Fuzzy Systems, 24(1),
133-144
[19] Kala, R., Janghel, R R., Tiwari, R., Shukla, A (2011) Diagnosis of breast cancer
by modular evolutionary neural networks International Journal of Biomedical
Engineering and Technology, 7(2), 194-211
[20] Khatibi, V., Montazer, G A (2009) Intuitionistic fuzzy set vs fuzzy set
application in medical pattern recognition Artificial Intelligence in Medicine,
47(1), 43-52
[21] Kononenko, I (2001) Machine learning for medical diagnosis: history, state of
the art and perspective Artificial Intelligence in medicine, 23(1), 89-109
[22] Littlestone, N., & Warmuth, M K (1994) The weighted majority algorithm.Information and computation, 108(2), 212-261
[23] Meenakshi, A R., Kaliraja, M (2011) An application of interval valued fuzzy
matrices in medical diagnosis Int J Math Anal, 5(36), 1791-1802
[24] Meisamshabanpoor, Mahdavi, M (2012) Implementation of a Recommender
System on Medical Recognition and Treatment International Journal of
e-Education, e-Business, e-Management and e-Learning, 2(4), 315 – 318