Đó là hệ tư vấn mờ trực cảm cho bài toán chẩn đoán bệnh bao gồm các định nghĩa về hệ tư vấn mờ trực cảm, một số phép toán, tính chất và thuật toán lọc mờ trực cảm...48 Cài đặt thực nghiệ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỌ THÔNG
HỆ TƯ VẤN MỜ TRỰC CẢM
VÀ ỨNG DỤNG TRONG CHẨN ĐOÁN BỆNH
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS LÊ HOÀNG SƠN
Trang 3Lời cảm ơn
Trước tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo TS LêHoàng Sơn – ĐH Khoa học Tự nhiên và thầy giáo PGS.TS Nguyễn Đình Hóa – ViệnCNTT – ĐH Công nghệ đã trực tiếp hướng dẫn và tận tình giúp đỡ em trong suốt thờigian thực hiện luận văn
Em xin trân trọng cảm ơn các Thầy, Cô giáo trong khoa Công nghệ thông tin –Trường ĐH Công nghệ – ĐH Quốc gia Hà Nội đã tận tình chỉ dạy, cung cấp cho emnhững kiến thức quý báu và luôn nhiệt tình giúp đỡ, tạo điều kiện thuận lợi nhất trongsuốt quá trình em học tập tại trường
Đồng thời em xin chân thành cảm ơn những người thân trong gia đình cùngtoàn thể bạn bè đã luôn giúp đỡ, động viên em những lúc gặp phải khó khăn trong họctập, công việc và cuộc sống
Luận văn này được thực hiện dưới sự tài trợ của đề tài NAFOSTED, mã số: 102.05-2014.01.
Trang 4Lời cam đoan
Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trìnhbày lại theo cách hiểu Trong quá trình làm luận văn, tôi có tham khảo các tài liệu cóliên quan và đã ghi rõ nguồn tài liệu tham khảo Tôi xin cam đoan đây là công trìnhnghiên cứu của tôi và không sao chép của bất kỳ ai
Hà Nội, ngày … tháng … năm 2016
Học viên
Nguyễn Thọ Thông
Trang 5Mục lục
Lời cảm ơn 3
Lời cam đoan 4
Mục lục 5
Danh mục các ký hiệu và chữ viết tắt 6
Danh mục các bảng 7
Danh mục các hình vẽ, đồ thị 8
MỞ ĐẦU 9
CHƯƠNG 1 TỔNG QUAN VỀ TẬP MỜ TRỰC CẢM, HỆ TƯ VẤN VÀ BÀI TOÁN CHẨN ĐOÁN BỆNH 10
I.Bài toán chẩn đoán bệnh 10
II.Tổng quan về tập mờ trực cảm 11
III.Hệ tư vấn 21
IV.Kết luận 25
CHƯƠNG 2 HỆ TƯ VẤN MỜ TRỰC CẢM 26
I.Giới thiệu 26
II.Hệ tư vấn mờ trực cảm 26
CHƯƠNG 3 KẾT QUẢ THỰC NGHIỆM VÀ SO SÁNH 37
I.Giới thiệu 37
II.Kết quả thực nghiệm và so sánh 39
KẾT LUẬN 48
Nội dung luận văn trình bày một số kết quả nghiên cứu đạt được sau đây 48
Các kiến thức cơ bản về bài toán chẩn đoán bệnh, tập mờ trực cảm và hệ tư vấn 48
Trình bày nghiên cứu nhóm đã đề xuất Đó là hệ tư vấn mờ trực cảm cho bài toán chẩn đoán bệnh bao gồm các định nghĩa về hệ tư vấn mờ trực cảm, một số phép toán, tính chất và thuật toán lọc mờ trực cảm 48
Cài đặt thực nghiệm các thuật toán đã có và thuật toán đã được đề xuất, đánh giá về chất lượng và thời gian chạy của các thuật toán 48
TÀI LIỆU THAM KHẢO 49
Trang 6Danh mục các ký hiệu và chữ viết tắt
CF collaborative filtering Phương pháp lọc cộng tác
IFS Intuitionistic Fuzzy Set Tập mờ trực cảm
IFV Intuitionistic Fuzzy Value Giá trị mờ trực cảm
IFRS Intuitionistic Fuzzy Recommender
SC-IFRS Single-criterion Intuitionistic Fuzzy
Recommender System Hệ tư vấn mờ trực cảm đơn tiêu chíMC-IFRS Multi-criteria Intuitionistic Fuzzy
Recommender System Hệ tư vấn mờ trực cảm đa tiêu chíIFM Intuitionistic fuzzy matrix Ma trận mờ trực cảm
IFCM Intuitionistic fuzzy composition matrix Ma trận hợp thành mờ trực cảmIFSM Intuitionistic fuzzy similarity matrix Ma trận tương đồng mờ trực cảmIFSD Intuitionistic fuzzy similarity degree Độ đo tương đồng mờ trực cảmIFCF Intuitionistic fuzzy collaborative
filtering
Phương pháp lọc cộng tác mờ trực cảm
Trang 7Danh mục các bảng
Bảng 1 Quan hệ giữa bệnh nhân và triệu chứng () 11
Bảng 2 Quan hệ giữa triệu chứng và bệnh () 11
Bảng 3 Quan hệ giữa bệnh nhân và bệnh () 11
Bảng 4 Bệnh của bệnh nhân 11
Bảng 5 Quan hệ giữa bệnh nhân và bệnh () trong phương pháp của De, Biswas và Roy 17
Bảng 6 Ma trận 17
Bảng 7 Ma trận 18
Bảng 8 Ma trận giảm thiểu 18
Bảng 9 Quan hệ giữa bệnh nhân và bệnh khi sử dụng hàm Hamming 19
Bảng 10 Quan hệ giữa bệnh nhân và bệnh khi sử dụng hàm Euclidean 20
Bảng 11 Tập dữ liệu huấn luyện với các giá trị * cần được dự báo 24
Bảng 12 Tập dữ liệu huấn luyện thô với các giá trị * cần được dự báo 24
Bảng 13 Tập dữ liệu đầy đủ được xác định bởi phương pháp của Hassan và Syed, các giá trị in đậm thể hiện bệnh của bệnh nhân 24
Bảng 14 Tập dữ liệu đầy đủ được xác định bởi phương pháp của Davis và cộng sự [9], các giá trị in đậm thể hiện bệnh có thể mắc phải nhất 24
Bảng 15 MC-IFRS cho chẩn đoán bệnh với các giá trị * cần được dự báo 30
Bảng 16 Miêu tả về tập dữ liệu thực nghiệm 37
Bảng 17 Tập dữ liệu huấn luyện với các giá trị * cần được dự báo 39
Bảng 18 Tập dữ liệu SC-IFRS được trích xuất với các giá trị * cần được dự báo 39
Bảng 19 Bệnh được khuyến nghị, bệnh với khả năng mắc cao nhất được in đậm 40
Bảng 20 Kết quả MAE của thực nghiệm ngẫu nhiên trên bộ dữ liệu HEART 41
Bảng 21 Kết quả thời gian chạy của thực nghiệm ngẫu nhiên trên bộ dữ liệu HEART 42
Bảng 22 Kết quả MAE của thực nghiệm k-fold trên bộ dữ liệu HEART 42
Bảng 23 Kết quả của thực nghiệm k-fold trên bộ dữ liệu HEART 42
Bảng 24 Kết quả MAE của thực nghiệm ngẫu nhiên trên bộ dữ liệu RHC 44
Bảng 25 Kết quả thời gian chạy của thực nghiệm ngẫu nhiên trên bộ dữ liệu RHC 44
Bảng 26 Kết quả MAE của thực nghiệm k-fold trên bộ dữ liệu RHC 45
Bảng 27 Kết quả thời gian chạy của thực nghiệm k-fold trên bộ dữ liệu RHC 45
Trang 8Danh mục các hình vẽ, đồ thị
Hình 1 Tập rõ và biểu diễn tập rõ 12
Hình 2 Ví dụ tập mờ 13
Hình 3 Thuật toán IFCF 36
Hình 4 Phân bố 2 chiều của HEART 38
Hình 5 Phân bố 2 chiều của RHC 38
Hình 6 Kết quả MAE của thực nghiệm ngẫu nhiên trên bộ dữ liệu HEART 43
Hình 7 Kết quả MAE của thực nghiệm k-fold trên bộ dữ liệu HEART 43
Hình 8 Kết quả MAE của thực nghiệm ngẫu nhiên trên bộ dữ liệu RHC 45
Hình 9 Kết quả MAE của thực nghiệm k-fold trên bộ dữ liệu RHC 46
Trang 9MỞ ĐẦU
Ngày này, công nghệ thông tin được ứng dụng rất nhiều lĩnh vực trong thực tếnhư y tế, giáo dục, nông nghiệp, lâm nghiệm, v.v Trong đó, ứng dụng công nghệ thôngtin trong y tế được coi là nhiệm vụ trọng điểm trong những năm gần đây nhằm giảmbớt tình trạng quá tải trong các bệnh viện Một trong những ứng dụng điển hình củacông nghệ thông tin trong y tế như tư vấn khám, chữa bệnh từ xa và dịch vụ cổng trựctuyến, v.v
Mục tiêu của luận văn là tìm hiểu lý thuyết về tập mờ trực cảm và áp dụng nótrong hệ tư vấn trong bài toán chẩn đoán bệnh Các thuật toán liên quan sẽ được cài đặtkiểm chứng đánh giá trên các bộ dữ liệu chuẩn
Luận văn gồm các các phần sau:
Chương 1 Trình bày các khái niệm chung về bài toán chẩn đoán bệnh, tập trờ trực
cảm và hệ tư vấn
Chương 2 Hệ tư vấn mờ trực cảm cho bài toán chẩn đoán bệnh.
Chương 3 Kết quả thực nghiệm và so sánh.
Trang 10CHƯƠNG 1 TỔNG QUAN VỀ TẬP MỜ TRỰC CẢM, HỆ TƯ
VẤN VÀ BÀI TOÁN CHẨN ĐOÁN BỆNH
I. Bài toán chẩn đoán bệnh
1. Giới thiệu
Bài toán chẩn đoán bệnh là bài toán rất phổ biến trong y học Nó là một khâurất quan trọng trong quy trình điều trị của bệnh nhân Bernegger và cộng sự [5] chorằng chẩn đoán là khâu trung tâm trong y học lâm sàng và việc chẩn đoán chính xác làmột yêu cầu quan trọng trong các quyết định điều trị đúng Chẩn đoán bệnh là dự báokhả năng mắc bệnh cho bệnh nhân dựa vào những thông tin triệu chứng mà bệnh nhângặp phải Với mức độ quan trọng của chẩn đoán trong điều trị bệnh nhân nên vấn đềnâng cao chất lượng chẩn đoán là vấn đề đang được quan tâm hàng đầu
2. Bài toán chẩn đoán bệnh
Định nghĩa 1 [46]: Cho P={P1, ,P n} là tập bệnh nhân, S={S1, ,S m} là tập triệu
chứng, D={D1, ,D k} là tập bệnh Mối quan hệ giữa bệnh nhân và triệu chứng được
thể hiện bởi tập R {R PS(P i S j) i n j m}
PS = , |∀ =1, ;∀ =1, Ở đây ( i j)
PS P S
R , thể hiện cấp độbệnh nhân P i có triệu chứng S j và được biểu diễn bằng giá trị số hay giá trị mờ, mờtrực cảm Tương tự, quan hệ giữa triệu chứng và bệnh nhân được thể hiện bởi tập
3. Ví dụ bài toán chẩn đoán bệnh
Ví dụ 1: Xem xét tập dữ liệu của Samuel và Balamurugan [35] bao gồm bốn
bệnh nhân P = {Ram, Mari, Sugu, Somu}, năm triệu chứng S = {Temperature,Headache, Stomach-pain, Cough, Chest-pain} và năm bệnh D = {Viral-Fever, Malaria,Typhoid, Stomach, Heart} Quan hệ giữa bệnh nhân – triệu chứng và triệu chứng –bệnh được cho trong Bảng 1 và 2
Trang 11P Temperature Headache Stomach_pain Cough Chest_pain
Ram (0.8, 0.1) (0.6, 0.1) (0.2, 0.8) (0.6, 0.1) (0.1, 0.6)Mari (0, 0.8) (0.4, 0.4) (0.6, 0.1) (0.1, 0.7) (0.1, 0.8)Sugu (0.8, 0.1) (0.8, 0.1) (0, 0.6) (0.2, 0.7) (0, 0.5)Somu (0.6, 0.1) (0.5, 0.4) (0.3, 0.4) (0.7, 0.2) (0.3, 0.4)
Bảng 1 Quan hệ giữa bệnh nhân và triệu chứng (R PS)
Temperature (0.4, 0) (0.7, 0) (0.3, 0.3) (0.1, 0.7) (0.1, 0.8)Headache (0.3, 0.5) (0.2, 0.6) (0.6, 0.1) (0.2, 0.4) (0, 0.8)Stomach_pain (0.1, 0.7) (0, 0.9) (0.2, 0.7) (0.8, 0) (0.2, 0.8)Cough (0.4, 0.3) (0.7, 0) (0.2, 0.6) (0.2, 0.7) (0.2, 0.8)Chest_pain (0.1, 0.7) (0.1, 0.8) (0.1, 0.9) (0.2, 0.7) (0.8, 0.1)
Bảng 2 Quan hệ giữa triệu chứng và bệnh (R SD)
Quan hệ giữa bệnh nhân và bệnh được cho bởi các giá trị mờ trực cảm (IFV)được thể hiện trong Bảng 3
Ram (0.4, 0.1) (0.7, 0.1) (0.6, 0.1) (0.2, 0.4) (0.2, 0.6)Mari (0.3, 0.5) (0.2, 0.6) (0.4, 0.4) (0.6, 0.1) (0.1, 0.7)Sugu (0.4, 0.1) (0.7, 0.1) (0.6, 0.1) (0.2, 0.4) (0.2, 0.5)Somu (0.4, 0.1) (0.7, 0.1) (0.5, 0.3) (0.3, 0.4) (0.3, 0.4)
Bảng 3 Quan hệ giữa bệnh nhân và bệnh (R PD)
Bệnh mà bệnh nhân có khả năng mắc phải nhất được cho trong Bảng 4 Nóđược xác định từ Bảng 3 bằng việc sử dụng một phương pháp giải mờ đơn giản, đó làcực đại độ thuộc của các bệnh
Định nghĩa 2 [6]: Cho tập nền X và x là phần tử của tập X Một tập C trên tập X
là một tập hợp rõ, với x là phần tử của tập hợp C, chỉ có thể có x∈C hoặc x∉C Cóthể sử dụng hàm µ( )x để mô tả khái niệm thuộc về Hàm µ( )x được gọi là hàm thuộchay hàm đặc trưng của tập hợp C
Trang 12C xif 1
x
Ví dụ 2: X ={X1,X2,X3,X4}
0 ) (
; 1 ) (
; 1 ) (
Lý thuyết mờ được biết đến lần đầu tiên trong nghiên cứu về tập mờ của Lotfi
A Zadeh, Dieter Klaua (1965) và nhanh chóng được ứng dụng rộng rãi trong hầu hếtcác lĩnh vực khoa học kỹ thuật như kinh tế, nông nghiệp, dịch vụ, y tế, v.v
Trong thực tế khi định nghĩa một tập các số lớn hơn 100 và ký hiệu là A, tađịnh nghĩa như sau
{ | >100}
= x x A
Khi đó rất dễ xác định được các phần tử chắc chắn thuộc và không thuộc kháiniệm A Tuy nhiên, nếu đưa ra khái niệm về tập nhà giàu (với những người có thunhập hơn hay bằng 10 triệu một tháng) và ký hiệu là B
{ | ≥10000000}
= tn tn B
Khi đó ta bảo một người có thu nhập là 10 triệu/tháng là thuộc nhà giàu, tuynhiên bằng trực giác bình thường nó sẽ không hợp lý nếu gọi người có thu nhập9999999/tháng không phải là nhà giàu
Vì vậy, khái niệm tập mờ xuất hiện để giải quyết các tập không có ranh giới rõràng hay những dữ liệu không chắc chắn
2.1 Định nghĩa tập mờ
Xét tập X khác rỗng Ta sẽ gọi X là không gian nền
Định nghĩa 3 [54]: A là tập mờ trên không gian nền X nếu A được xác định bởihàm
[ ]0,1:X →
Trang 13Hình 2 Ví dụ tập mờ
Ví dụ 4: A1 = một vài quả cam
Ví dụ 5: A2 = “số thực gần 10” có hàm thuộc ( ) ( )2
101
1
−+
=
x
x A
µ
Ta sẽ ký hiệu F( ) {x = A tập mờ trên X}
2.2 Các phép toán đại số trên tập mờ
Các phép toán trên tập mờ được định nghĩa thông qua các hàm thuộc của chúng
và được xây dựng tương tự như các phép toán trong tập mờ kinh điển
a) Phép hợp
Cho A, B là hai tập mờ trên khôn gian nền X , có hàm thuộc µA,µB khi đó phéphợp A∪B là tập mờ trên X với hàm thuộc cho bởi
( )x { A( ) ( )x B x} x X B
A∩ =min µ ,µ , ∈
c) Phép lấy phần bù
Cho A là một tập mờ trên khôn gian nền X, có hàm thuộc µA,µB khi đó phần
bù A C là tập mờ trên X với hàm thuộc cho bởi
Trang 142.3 Một số tính chất
Cho A,B,C∈F( )x
a) Giao hoán
A B B
B A B
Trang 15Ngoài ra, Pawlak (1982) đề xuất khái niệm tập thô RS, sau đó bằng cách phốihợp tập mờ và tập thô, Nanra và Majumdar (1992) đã đưa ra khái niệm tập thô mờFRS, còn Banerjee và Pal (1996) đưa ra khái niệm tập mờ thô RFS.
3.1 Định nghĩa tập mờ trực cảm
Định nghĩa 4 [4]: Một tập mờ trực cảm trên tập nền X , ký hiệu là A, được định nghĩabởi hàm thuộc µA( )x ∈[ ]0,1 là mức độ khẳng định độ thuộc của x trong A (degree of
membership/validity) và độ không thuộc v A( )x ∈[ ]0,1 là mức độ phủ định độ thuộc của
x trong A (degree of non-membership/non-validity) thỏa mãn điều kiện với
1),()(0
∈
∀x X µA x v A x y
( ) ( ) {(x, x , x )|x X}
Với x∈X , πA(x)=1-µA(x)-v A(x) được gọi là độ không chắc chắn của x trong
A (degree of indeterminacy/uncertainty), là thành phần đại diện cho lượng thông tin bị
thiếu trong việc xác định khả năng x thuộc vào A
Trường hợp với ∀x∈X, πA(x)=0 thì v A(x)=1-µA(x), khi đó tập mờ trực cảmIFS có dạng { (x,µA( )x ,1-µA( )x )|∀x∈X}, và thường được biểu diễn ở dạng
( )
{ x,µA x |∀x∈X} Vậy với ∀x∈X, πA( )x =0 thì IFS trở thành tập mờ FS
Định nghĩa 5: Cho hai tập không rỗng X , Y Một quan hệ mờ trực cảm, ký hiệu là R,
là một tập mờ trực cảm trên X×Y , được định nghĩa như sau:
),
∀ x y X Y µR x y v R x y
3.2 Một số phép toán đại số trên tâp mờ trực cảm
a) Phép hợp
Cho A, B là hai tập mờ trực cảm trên khôn gian nền X , khi đó phép hợp A∪B
là tập mờ trực cảm trên X cho bởi
Cho A, B là hai tập mờ trực cảm trên khôn gian nền X , khi đó phép giao A∩B
là tập mờ trực cảm trên X cho bởi
Trang 16B A B
Trang 17[25,55] Các tập này có thể xếp phủ lên nhau, chẳng hạn, một người ở tuổi 50 có thểthuộc cả tập mờ “trung niên” lẫn tập mờ “già”, với mức độ thuộc với mỗi tập là khácnhau.
3.5 Một số nghiên cứu liên quan
Tiếp cận đầu tiên cho bài toán chẩn đoán bệnh được rút ra từ khái niệm tri thức
y học của Sanchez [36] Từ một vài cải tiến cách tiếp cận của Sanchez bằng việc kếthợp IFS và tập mờ cải tiến khác đã được giới thiệu De, Biswas và Roy [10] đã mờ hóaquan hệ giữa bệnh nhân – triệu chứng và triệu chứng – bệnh bằng giá trị mờ trực cảm.Sau đó sử dụng thuật toán sau để xác định mối quan hệ giữa bệnh nhân – bệnh
1 Tính toán quan hệ giữa bệnh nhân – bệnh bởi quan hệ mờ trực cảm vớihàm thuộc và không thuộc được thể hiện trong công thức (31-32)
( ) { { PS( i l) SD( l j) } }
m l j i
3 Xác định bệnh của bệnh nhân dựa trên cực đại S PD và cực tiểu πPD
Ram (0.4, 0.1) (0.7, 0.1) (0.6, 0.1) (0.2, 0.4) (0.2, 0.6)Mari (0.3, 0.5) (0.2, 0.6) (0.4, 0.4) (0.6, 0.1) (0.2, 0.5)Sugu (0.4, 0.1) (0.7, 0.1) (0.6, 0.1) (0.2, 0.4) (0.2, 0.5)Somu (0.4, 0.1) (0.7, 0.1) (0.5, 0.3) (0.3, 0.4) (0.3, 0.4)Bảng 5 Quan hệ giữa bệnh nhân và bệnh (R PD) trong phương pháp của De, Biswas và
Roy
Ví dụ 6: Xem xét tập dữ liệu tại Ví dụ 1 Quan hệ giữa bệnh nhân – bệnh được
tính toán bởi công thức (31-32) được thể hiện trong Bảng 5 Ma trận S PD được miêu tảtrong Bảng 6 Dựa trên bảng này Ram, Sugu và Somu có khả năng mắc bệnh Malaria
Trang 18Samuel và Balamurugan [35] cải tiến phương pháp của De, Biswas và Roy [10]bởi kỹ thuật mới tên là tổ hợp max – min mờ trực cảm Phương pháp này giống vớiphương pháp của De, Biswas và Roy [10] chỉ khác ở bước 2 và 3 được thay thế bởi
Bảng 7 Ma trận W PD
Ví dụ 7: Xem xét lại tập dữ liệu trong Ví dụ 1 Ma trận W PD được thể hiện trongBảng 7 Ma trận giảm thiểu của W PD được thể hiện trong Bảng 8 Từ bảng này Ram,Sugu và Somu khả năng mắc bệnh Malaria và Mari mắc bệnh Stomach
và Montazer [20], Shinoj và John [37] Các thuật toán được thể hiện qua các bước
1 Sử dụng hàm Hamming và Euclidean để tính toán quan hệ giữa bệnhnhân và bệnh như công thức (34-35)
=
−+
−
= m
l
j l SD l i PS j l SD l i PS j
i
m D
P
R
1
,,
,,
j l SD l i PS j
l SD l i PS j
i
m D
P
R
1
2 2
,,
,,
Trang 19Ví dụ 8: Sử dụng phương pháp này cho tập dữ liệu ở Ví dụ 1 Chúng ta có quan
hệ giữa bệnh nhân và bệnh bởi hàm Hamming (Bảng 9) hay Euclidean (Bảng 10) Cácbệnh mà bệnh nhân có thể mắc phải được in đậm
Trang 20P Viral_Fever Malaria Typhoid Stomach Heart
Bảng 10 Quan hệ giữa bệnh nhân và bệnh khi sử dụng hàm Euclidean
Bên cạnh các cách tiếp cận này, một số tác giả đã mở rộng chúng cho cáctrường hợp đặc biệt, ví dụ, chẩn đoán bệnh đa tiêu chí và đa mô hình khoảng thời giancho quan hệ giữa bệnh nhân và triệu chứng Điều này đòi hỏi việc triển khai trên tập
mờ mở rộng như tập mờ loại 2 (Own, 2009 [28]), tập mềm mờ (Neog và Sut, 2011[27]; Xiao, Yang, Niu, Dong, Gong, Xia và Pang, 2012 [52]) và tập mềm mờ trực cảm(Agarwal, Hanmandlu và Biswas, 2011 [1]; Meenakshi và Kaliraja, 2011 [23]) Sự kếthợp của các tập mờ với các phương pháp học máy khác để xử lý các trường hợp đặcbiệt như hệ tự động nơ ron mờ (Parthiban và Subramanian, 2008 [29]; Moein,Monadjemi và Moallem, 2009 [26]) và thuật toán di chuyền mờ loại 2 (Tan, Yu, Heng
và Lee, 2003 [50]; Hosseini, Ellis, Mazinani và Dehmeshki, 2011 [15]) cũng đã đượcxem xét
Giới hạn các nghiên cứu trước
giữa bệnh nhân – triệu chứng (R PS) và triệu chứng – bệnh nhân Trong một sốtrường hợp thực tế mối quan hệ giữa bệnh nhân – triệu chứng hoặc triệu chứng– bệnh là thiếu, các nghiên cứu trước không thể thực hiện được Thực tế này đãxảy ra trong thực tế khi bác sĩ không thể hiện chính xác các giá trị độ thuộc vàkhông thuộc của triệu chứng tới bệnh hay ngược lại
b) Các thông tin về chẩn đoán trước đó của bệnh nhân không được sử dụng Ví dụ,
một bệnh nhân có một vài bản ghi về mối quan hệ giữa bệnh nhân – bệnh trước
đó trong cơ sở dữ liệu Tuy nhiên, việc tính toán của các bản ghi tiếp theo củabệnh nhân chỉ được tạo dựa trên hai thông tin R PS và R SD Chẩn đoán lịch sửcủa bệnh nhân không được tạo tới quá trình tính toán, như vậy kết quả độ chínhxác của chẩn đoán có thể không cao
c) Việc xác định bệnh phụ thuộc vào phương pháp giải mờ Ví dụ, De, Biswas và
Roy [10] đã sử dụng giải mờ, Samuel và Balamurugan [35] dựa trên ma trậngiảm thiểu W PD và Szmidt và Kacprzyk [47, 48, 49], Khatibi và Montazer [20]
Trang 21và Shinoj và John [37] sử dụng hàm khoảng cách Xác định độc lập từ phươngpháp giải mờ cần được xem xét cho hiệu xuất ổn định của thuật toán
d) Các tính chất toán học của các phép toán như ý nghĩa mờ trong De, Biswas và
Roy [10], Samuel và Balamurugan [35] và hàm khoảng cách trong Szmidt vàKacprzyk [47, 48, 49], Khatibi và Montazer [20] và Shinoj và John [37] làkhông được thảo luận trong bài viết tương ứng Người đọc sẽ không biết được
cơ sở lý thuyết của các hoạt động và lý do tại sao chúng lại được lựa chọn chobài toán chẩn đoán bệnh
III. Hệ tư vấn
1. Giới thiệu
Hệ thống tư vấn là một thành phần trong hệ thống thông tin Mục đích của nó là
hỗ trợ người dùng tìm kiếm các thông tin cần thiết
Ngày nay với tình trạng bùng nổ thông tin trên mạng, hệ tư vấn đã được sửdụng rộng rãi, nhằm giảm bớt tình trạng quá tải thông tin Đã có rất nhiều hệ thống ápdụng hệ tư vấn tới hệ thống của mình để đưa ra những lời khuyên về những sản phẩm(sách, phim, tin tức, v.v.) phù hợp với khách hàng của mình như Amazone, Youtube, MovieLens, v.v.
2. Định nghĩa hệ tư vấn
Định nghĩa 6 [31]: Cho U là tập tất cả các người dùng và I là tập tất cả các tàinguyên trong hệ thống Hàm R là một ánh xạ trên U1 ⊆U và I1⊆I được cho bởi
P I U
R: 1× 1→(u1,i1) R(u1,i1)
(36)
Ở đây R(u1,i1) là một số nguyên không âm hay một số thực trong phạm vi nhất định
P là tập các đánh giá có thể của hệ thống RS là hệ thống cung cấp hai chức năng cóbản
a) Dự báo: khả năng xác định R(u *,i*) cho bất kỳ (u*,i*) (∈ U,I) (\ U1,I1)
b) Khuyến nghị: Khả năng chọn i* thỏa i R( )u i
I
maxarg
Trang 223. Một số thuật toán trong RS
3.1 Phương pháp lọc cộng tác
Phương pháp lọc cộng tác (CF - collaborative filtering) hoạt động dựa trên toàn
bộ những tài nguyên đã được đánh giá trước đó bởi người dùng CF được chia thànhhai hướng tiếp cận, dựa trên người hàng xóm gần nhất và dựa trên mô hình Với hướngtiếp cận dựa trên người hàng xóm gần nhất được khái quát bằng những bước sau,
a) Gán trọng số tương đồng, w ,u tới tất cả những người dùng với người dùng cần tư vấn (active user)
,
2 ,
, ,
r r r
r
r r r r
b) Lựa chọn K người dùng tương đồng nhất cho người dùng cần tư vấn
c) Tính toán dự báo từ những trọng số tương đồng dựa vào các đánh giá củanhững người hàng xóm gần nhất được lựa chọn được cho bởi công thức
i a
w
w r r r
p
,
, ,
,
(38)
i
a
p , là dự báo đánh giá cho người dùng a tới tài nguyên i
3.2 Phương pháp lọc theo nội dung
Phương pháp lọc theo nội dung bắt nguồn từ những nghiên cứu về truy hồithông tin (IR – information retrieval) và lọc thông tin (IF – information filtering) Do
đó, rất nhiều những hệ thống dựa trên nội dung hiện nay tập chung vào tư vấn các đốitượng chứa dữ liệu text như văn bản, tin tức, v.v Những tiến bộ so với hướng tiếp cận
cũ của IR, là do việc sử dụng hồ sơ của người dùng Mỗi người dùng u∈U có chứamột hồ sơ cá nhân về người dùng này (Nó bao gồm những thông tin cá nhân của ngườidùng đó như, tên, tuổi, sở thích, nhu cầu, v.v.) Hồ sơ này được xây dựng dựa trênngưỡng thông tin mà người dùng cung cấp
Cho content (i) là các thông tin về sản phẩm i và cho profile (a) là hồ sơ vềngười dùng a content(i)=(w1,i, ,w k,i), với w1,i, ,w k,i là các trọng số của các từ khóa
từ 1 tới k (có thể tính bằng TF-IDF [34])
Trang 23Và profile(a)=(w1,a, ,w ,a) Với w j,a là biểu thị độ quan trọng của từ khóa k j
tới người dùng a và có thể tính toán từ các vector nội dung đã được đánh giá khi sửdụng một vài kỹ thuật như thuật toán Rocchio [32], thuật toán Winnow [22] Độ phùhợp của người dùng a và tài nguyên i được cho bởi công thức
w w i
content a
profile score
i a utility
1
2 , 1
2 ,
1 , ,))
(),
((
),
4. Một số nghiên cứu liên quan
RS đã được ứng dụng tới bài toán chẩn đoán bệnh Davis, Chawla, Blumm,Christakis và Barabási [9] đã đề xuất CARE, đánh giá cộng tác và công cụ khuyếnnghị chỉ dựa trên lịch sử y tế của bệnh nhân để dự đoán rủi ro bệnh trong tương lai vàkết hợp phương pháp lọc cộng tác với phân cụm để dự báo rủi ro bệnh của bệnh nhândựa trên lịch sử y tế và các bệnh nhân tương đồng Một phiên bản lặp của CARE vớitên ICARE được giới thiệu Đó là sự kết hợp các khái niệm quần thể nhằm cải thiệnhiệu xuất của hệ thống
Hassan và Syed [14] cũng đã sử dụng phương pháp lọc cộng tác để đánh giánguy cơ mắc bệnh của bệnh nhân bằng việc kết hợp các trường hợp mới tới dữ liệutrước đó và kết hợp yết tố dân cư của bệnh nhân tới kết quả, như vậy nó có thể đạtđược kết quả với độ chính xác cao hơn cho cả hai trường hợp đột tử do tim và nhồimáu cơ tim so với các cách tiếp cận phân lớp như hồi quy logic và SVM Thêm cácnghiên cứu liên quan như Duan và cộng sự [11], Meisamshabanpoor và Mahdavi [24]
Ví dụ 9: Xem xét tập dữ liệu trong Bảng 11 Tạo một phương thức mã hóa đơn
giản bằng cách nhân độ thuộc với 10 và cộng với độ không thuộc, chúng ta có tậphuấn luyện thô trong Bảng 12
Trang 24Ram (0.4, 0.1) (0.7, 0.1) (0.6, 0.1) (0.2, 0.4) (0.2, 0.6)Mari (0.3, 0.5) (0.2, 0.6) (0.4, 0.4) (0.6, 0.1) (0.1, 0.7)
Bảng 11 Tập dữ liệu huấn luyện với các giá trị * cần được dự báo
Bảng 12 Tập dữ liệu huấn luyện thô với các giá trị * cần được dự báo
Bảng 13 Tập dữ liệu đầy đủ được xác định bởi phương pháp của Hassan và Syed, các
giá trị in đậm thể hiện bệnh của bệnh nhân
Phương pháp của Hassan và Syed [14] đã sử dụng lọc cộng tác bao gồm hệ sốPearson để tính toán độ tương đồng giữa những người dùng và phương pháp k hàngxóm gần nhất để dự báo các giá trị * trong Bảng 12 Các kết quả được thể hiện trongBảng 13 Nếu lấy giá trị cực đại trong mỗi hàng để xác định bệnh cho bệnh nhân trongBảng 13 thì chúng ta có thể kết luận Ram, Sugu và Somu bị bệnh Malaria và Mari bịbệnh Stomach Tương tự, Bảng 14 thể hiện kết quả của Davis, Chawla, Blumm,Christakis và Barabási [9] Ở đây Ram bị bệnh Malaria, Mari bị bệnh Stomach vàSugu, Somu bị bệnh Typhoid
Bảng 14 Tập dữ liệu đầy đủ được xác định bởi phương pháp của Davis và cộng sự [9],
các giá trị in đậm thể hiện bệnh có thể mắc phải nhất
Trang 25Từ Ví dụ 9, chúng ta nhận thấy
a) RS có thể được ứng dụng trong chẩn đoán bệnh Tuy nhiên trong trường hợp
các quan hệ được thể hiện bởi các giá trị mờ như trong Bảng 11 Độ chính xáccủa chẩn đoán trong RS phụ thuộc vào phương pháp mã hóa Nói cách khác, RS
là hiệu quả với tập dữ liệu thô như trong Bảng 12
b) Vấn đề của các nghiên cứu trước đây về sự phụ thuộc của việc xác định bệnh từ
phương pháp giải mờ, ví dụ, hàm cực đại trong Ví dụ 9
c) RS chỉ làm việc nếu tập dữ liệu huấn luyện được cung cấp Điều đó có nghĩa
chúng ta phải có lịch sử chẩn đoán của các bệnh nhân cho dự báo
IV. Kết luận
Chương một giới thiệu về bài toán chuẩn đoán bệnh và cơ bản về tập mờ, tập
mờ trực cảm, một số ứng dụng của tập mờ trong thực tế và một số nghiên cứu liênquan đã sử dụng IFS trong bài toán chẩn đoán bệnh Cuối cùng, trình bày sơ lược về
hệ tư vấn cùng một số thuật toán và các nghiên cứu liên quan đã sử dụng RS trong bàitoán chẩn đoán bệnh
Trang 261. Hệ tư vấn mờ trực cảm đơn tiêu chí và đa tiêu chí
Định nghĩa 7 [46]: Cho R là một ánh xạ trên (X , Y) Khi đó hệ tư vấn mờ trực cảmđơn tiêu chí (SC-IFRS) được cho bởi
D Y X
R: × →( ) ( )
D D
y y
y y
y y
x x
x x
x x
sD sD
D D
D D
sY sY
Y Y
Y Y
sX sX
X X
X X
γµ
γµ
γµ
γµ
γµ
γµ
γµ
γµ
γµ
,
,,
,,
,
,,
,,
,
,,
,,
2 2
1 1
2 2
1 1 2
2
1 1