Bài viết Sử dụng mạng nơron min - max mờ trong chẩn đoán bệnh ung thư trình bày ứng dụng mô hình FMN cải tiến học bán giám sát kết hợp với việc sử dụng các thông tin bổ trợ cho phép giải quyết đồng thời cả hai vấn đề giảm số lượng hyper box và khả dụng cho các tập dữ liệu mà 100% số lượng mẫu chưa được gán nhãn. Mô hình sử dụng được gọi là SCFMM-D (Semi-clustering and Fuzzy Min Max neural network in Diagnosis).
Trang 1SỬ DỤNG MẠNG NƠRON MIN - MAX MỜ TRONG CHẨN ĐOÁN BỆNH UNG THƯ
Trần Thị Ngân, Trần Mạnh Tuấn
Khoa Công nghệ thông tin, Trường Đại học Thủy lợi, email: ttngan@tlu.edu.vn
1 GIỚI THIỆU
Thời gian gần đây, ung thư là một trong các
bệnh phổ biến nhất trên thế giới Các bệnh
viện trở lên quá tải với số lượng bệnh nhân
lớn và cơ sở vật chất còn hạn chế Hơn nữa,
nếu phát hiện ung thư sớm thì việc điều trị sẽ
hiệu quả và chi phí thấp hơn nhiều Quá trình
chẩn đoán bệnh thủ công có một số nhược
điểm Thứ nhất, với số lượng lớn các bệnh
nhân, thường các bác sĩ phải làm việc nhiều
và quá tải Thứ hai các bác sĩ đặc biệt với
những người có nhiều kinh nghiệm còn hạn
chế trong khi kinh phí để tra lương cho các
bác sĩ còn hạn chế Thứ ba, quá trình này mất
nhiều thời gian của bệnh viện và sự chờ đợi
của các bệnh nhân đến khám và điều trị Vì
vậy, một hệ thống hỗ trợ quyết định có thể tự
động đưa ra các chẩn đoán các bệnh nhân Nó
còn có giá trị hơn nữa khi hệ thống hỗ trợ ra
quyết định có thể cung cấp các kết quả chính
xác, nâng cao chất lượng chăm sóc và giảm
thời gian khám và điều trị của bệnh nhân
Tự động chẩn đoán ung thư sớm của bệnh
nhân có thể coi như bài toán về nhập dạng và
phân loại mẫu Bài toán nhận dạng và phân
loại mẫu có thể được giải quyết bằng nhiều
mô hình khác nhau như mạng nơron
(ANN)[2], hệ chuyên gia, logic mờ, các máy
hỗ trợ vectơ [3], cây hồi quy (CART) [1]
Trong số đó, mạng nơron nhân tạo min-max
mờ (FMN) [5] là một mô hình dự báo tốt và
đầy tiềm năng cho các ứng dụng dữ báo y tế
[4] Ưu thế của FMN là khả năng học trực
tuyến, nó có khả năng học từ các mẫu đào tạo
mới kết hợp với các thông tin đã học trước
đó Hơn nữa, FMN cung cấp quyết định mềm
thông qua hàm thuộc mờ Tuy nhiên độ chính xác phân loại mẫu trong một số trường hợp còn hạn chế Do đó, để nâng cao khả năng ứng dụng của FMN, nhiều tác giả đã đề xuất các cải tiến FMN với mục tiêu nâng cao độ chính xác phân loại mẫu của nó
Trong bài báo này, chúng tôi ứng dụng mô hình FMN cải tiến học bán giám sát kết hợp với việc sử dụng các thông tin bổ trợ cho phép giải quyết đồng thời cả hai vấn đề giảm
số lượng hyper box và khả dụng cho các tập
dữ liệu mà 100% số lượng mẫu chưa được gán nhãn Mô hình sử dụng được gọi là SCFMM-D (Semi-clustering and Fuzzy Min Max neural network in Diagnosis)
Trong các phần tiếp theo chúng tôi cấu truc như sau: phần 2 trình bày chi tiết về phương pháp SFCMN, phần 3 trình bày về các kết quả thực nghiệm, phần 4 là kết luận
2 PHƯƠNG PHÁP SFCMN
D là tập dữ liệu vào của thuật toán học,
Ah=(ah1, ah2, , ahn) In là mẫu vào thứ h (h =
1, 2,…, m) của tập D Thuật toán học tạo ra các hyper box, gán nhãn cho các hyper box
và gán nhãn cho các mẫu đầu vào Thuật toán học sử dụng 3 tập hyper box:
- Tập B: gồm các hyper box có kích thước lớn chứa các mẫu dữ liệu gần tâm cụm
- Tập G: gồm các hyper box có kích thước nhỏ, các hyper box này nằm trong hyper box
B (GB)
- Tập L: gồm các hyper box có kích thước nhỏ, chứa các dữ liệu nằm vùng danh giới, vùng nhiễu Tập L gồm các hyper box đưa vào cắt tỉa dựa trên chỉ số CF
Trang 2Thuật toán gồm 2 pha:
- Pha 1: thuật toán học FMN không giám
sát thực hiện một lần duyệt qua các mẫu vào
tạo ra tập B=(B1, B2, , Bk) gồm k hyper box
khác nhau, với mỗi hyper box như thế là một
cụm Thuật toán học tách tập D thành hai tập
D1 và D2 Tập dữ liệu D1 gồm các mẫu nằm
trong các hyper box Bj và được gán nhãn
theo chỉ số của Bj Tập D2 là các mẫu còn lại
không được gán nhãn (Hình 1)
n
Chọn mẫu vào A hD
Dữ liệu vào
đã hết?
Begin
Có hyperbox nào
chứa được A h?
Có chồng lấn hyperbox?
Co lại hyperbox
y
n
y
Mở rộng hyperbox
n
Tạo và gán nhãn
cho hyperbox
y
Dữ liệu vào A hD
A h có
thuộc hyperbox nào có
trước?
n
y
Gán nhãn A h theo B j
D 1 =D 1{A h }
D 2 =D 2{A h }
Dữ liệu vào
đã hết?
n
y End
Hình 1 Thuật toán học bổ trợ thêm thông tin
bằng cách gán nhãn cho một số mẫu đầu vào
- Pha 2: thuật toán học FMN có giám sát
thực hiện một lần duyệt qua các mẫu trong
tập dữ liệu D1 tạo ra tập các hyper box
1 2 j
G(G , G , , G ) Với tập dữ liệu D2, thuật
toán học duyệt qua các mẫu để gán nhãn cho
các mẫu theo nhãn của các hyper box thuộc
tập G Thuật toán SCFMN tìm ra hyper box
gần nhất bằng cách sử dụng hàm thuộcTrong
trường hợp này, mẫu đầu vào được gắn nhãn
bởi nhãn của hyper box gần nhất lớn hơn ngưỡng mà được cung cấp bởi người dùng và
nó được coi là giới hạn tối thiểu Ngược lại, nếu giá trị đó nhỏ hơn, không có hyper box nào được tạo ra Trong trường hợp này, mẫu nhập được bỏ qua và nó sẽ được xem như là mẫu mới trong lần duyệt dữ liệu tiếp theo (Hình 2)
n
Dữ liệu vào A hD 1
Dữ liệu vào
đã hết?
Độ
thuộc của A h vào hyperbox gần nhất lớn hơn
β?
Begin
Có hyperbox nào
chứa được A h?
Có chồng lấn hyperbox?
Co lại hyperbox
y
n
y Mở rộng hyperbox
n
Tạo và gán nhãn cho hyperbox
y
n
Dữ liệu vào A hD 2
Tất cả dữ liệu
đã có nhãn?
Có hyperbox
nào chứa được A h?
Có chồng lấn hyperbox?
Co lại hyperbox
Mở rộng hyperbox
n
Tạo và gán nhãn cho hyperbox
y
A h có
thuộc vào hyperbox có trước?
y
n
y
n
y
Gán nhãn cho A h
y
n
End
Hình 2 Thuật toán học gán nhãn cho các mẫu dữ liệu dựa vào nhãn của các mẫu được bổ trợ thông tin ở pha 1
Trang 33 KẾT QUẢ THỰC NGHIỆM
Trong thực nghiệm với bộ dữ liệu Breast
Cancer Wisconsin (Diagnostic) với 569 mẫu
và 32 thuộc tính, trong đó có 10 thuộc tính
giá trị thực Tất cả các mẫu đầu vào của tập
dữ liệu được gán nhãn đối bằng các thuật
toán FMNN [5], FMN-CF [6] Trong khi với
SCFMM-D (với các tham số: CF = 0.45, =
đi kèm Các thực nghiệm được lặp lại 30 lần,
mỗi lần với một chuỗi dữ liệu huấn luyện là
ngẫu nhiên Trong các thực nghiệm, phương
pháp đánh giá các kết quả theo thống kê để
tính trung bình bao gồm các chỉ số: Acc
(Accuracy – Độ chính xác), NoH (Number of
Hyper boxes - Số hyper box tạo ra trong quá
trình thực hiện thuật toán)
Bảng 1 Bảng kết quả thực nghiệm
Dựa trên kết quả về độ chính xác và số
lượng Hyper box tạo ra, mô hình đề xuất đều
có kết quả tốt hơn với các giá trị khác nhau
của tham số ngưỡng Dựa vào bảng 1 ta
thấy, giá trị của Acc tốt nhất trong lân cận
của = 0.3
4 KẾT LUẬN Trong bài báo này, chúng tôi đề xuất mô hình kết hợp giữa học bán giám sát và mạng nơron min max mờ (SCFMM-D) áp dụng cho bài toán chẩn đoán bệnh ung thư Mô hình này được đánh giá bằng thực nghiệm trên bộ
dữ liệu ung thư vú của Wisconsin (BCWD) Các kết quả thực nghiệm chứng minh rằng phương pháp đề xuất đạt được kết quả tốt hơn trên các tiêu chí đặt ra với khả năng thiết lập một cơ sở quy tắc Để tiếp tục công việc, cần phải điều tra thông tin cụ thể về bệnh nhân trong tập dữ liệu để cải thiện độ chính xác dự đoán
5 TÀI LIỆU THAM KHẢO
[1] Breiman, L (2017) Classification and regression trees Routledge
[2] Haykin, S (1994) Neural networks: a comprehensive foundation Prentice Hall PTR
recognition and machine learning Journal
of electronic imaging, 16(4), 049901 [4] Patil, P., & Waghole, S (2014) Cancer Diagnosis Using Fuzzy Min-Max Neural Network WithRule Extraction International Journal of Engineering Research and Applications, 4(2), 11-15
[5] Simpson, P K (1993) Fuzzy min-max neural networks-part 2: Clustering IEEE Transactions on Fuzzy systems, 1(1), 32-45 [6] Singh, A., & Pandey, B (2014) Intelligent techniques and applications in liver disorders: a survey International Journal of
Technology, 16(1), 27-70