Một trong những ứng dụng quan trọng của mạng CNN đó là cho phép các máy tính có khả năng nhận đạng và phân tích, mạng CNN được sử dụng để nhận dạng hình ảnh của đối tượng bằng cách đưa n
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHAM THÀNH PHO HO CHÍ MINH
PHÁT HIỆN PHÙ GAI THỊ TRONG ÁNH VÕNG
MẠC MÁT SỬ DỤNG MẠNG HỌC SÂU
(PAPILLEDEMA DETECTION IN FUNDUS
RETINAL IMAGE BASED ON DEEP
LEARNING NETWORKS)
LUẬN VAN THAC SĨ NGANH MAY TÍNH
Thanh pho Hồ Chi Minh - 2023
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHAM THÀNH PHO HO CHÍ MINH
PHÁT HIỆN PHÙ GAI THỊ TRONG ÁNH VÕNG
MẠC MÁT SỬ DỤNG MẠNG HỌC SÂU
(PAPILLEDEMA DETECTION IN FUNDUS
RETINAL IMAGE BASED ON DEEP
LEARNING NETWORKS)
Chuyên ngành : Khoa học máy tính
Mã số : 8480101
LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH
NGƯỜI HƯỚNG DÁN KHOA HỌC:
PGS.TS NGUYÊN THANH BÌNH
Thành phố Hồ Chí Minh - 2023
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là sản pham của bản thân tôi tự nghiên cứu và
tìm hiểu dưới sự hướng dẫn của PGS.TS Nguyễn Thanh Bình Luận văn không có
sự sao chép tài liệu, công trình nghiên cứu khác mà không ghi rõ nguồn trong tàiliệu tham khảo.
Kết qua thực nghiệm trong luận văn là khách quan và chưa được công bốtrong bất kỳ công trình nghiên cứu nào khác
Hoc viên thực hiện
Nguyễn Huy Toàn
Trang 4LOT CAM ON
Đầu tiên, tôi xin bay tỏ lòng biết ơn chân thành và sâu sắc nhất đến PGS.TS.
Nguyễn Thanh Bình — Giảng viên hướng dẫn luận văn Trong quá trình tìm hiéu và
nghiên cứu, tôi đã gặp rất nhiều khó khăn nhưng nhờ Thay đã luôn động viên, hết
lòng hướng dẫn và giúp đỡ nên tôi đã hoàn thành luận văn này.
Tôi xin gửi lời cảm ơn chân thành đến Ban chủ nhiệm khoa, quý Thay/CéKhoa Công nghệ Thông tin, Phòng Sau đại học, Trường Đại học Sư phạm Thànhphó Hồ Chí Minh đã truyền đạt những kiến thức quý báu cho tôi trong quá trình họctập và đã hỗ trợ, tạo điều kiện cho tôi trong thời gian qua
Cuối cùng, tôi xin bày tỏ lòng biết ơn sâu sắc đối với gia đình, đồng nghiệp
đã luôn động viên và giúp đỡ tôi trong suốt quá trình học tập cũng như thực hiện
Trang 5MỞ ĐẦU
Ngành y tế ở nước ta đang ngày càng phát triển dé có thé đáp ứng được yêu
cầu về chất lượng cuộc sông của người dân Các bệnh võng mạc mắt xếp thứ hai,
sau đục thủy tỉnh thể trong các nhóm bệnh gây mù lòa như: bệnh bong võng mạc,
bệnh võng mạc tiêu đường, bệnh võng mạc tăng huyết áp, bệnh võng mạc trẻ dé non,
bệnh phù gai thị
Đã có nhiều nhà nghiên cứu đã công bố nhiều công trình nghiên cứu mới dựatrên nèn tảng kĩ thuật công nghệ thông tin nhằm hỗ trợ việc chân đoán bệnh nóichung và các bệnh về mat nói riêng, điên hình là kiến trúc U-Net dùng dé phân đoạnphát hiện ra vùng ảnh có chứa vật thẻ bệnh Tuy nhiên, kiến trúc U-Net lại không
thê nhận biết được nhiều loại bệnh khác nhau nên cần phải cải tiền và tích hợp thêm
bài toán phân lớp anh để có thé mang lại hiệu quả cao hơn Việc nghiên cứu này
mang lại ý nghĩa to lớn trong việc phát hiện các bat thường trong ảnh võng mac mắtnhằm phát hiện sớm các bệnh về mắt
Đối với ngành công nghệ thông tin, bài toán phân đoạn ảnh (imagesegmentation) không còn là điều quá xa lạ Tuy nhiên, khi áp dụng phương phápimage segmentation với lĩnh vực y khoa, hầu hết các lập trình viên đều gặp khó khănbởi vì lượng dit liệu dùng cho việc huấn luyện máy học là còn nhiêu hạn chế, quá it
và tôn thời gian cũng như đòi hỏi độ chính xác đầu ra phải ở một ngưỡng nhất định
Đề có thể khắc phục nhược điểm trên, tác giả đã đẻ xuất trong đẻ tài này một phương
pháp mới vừa có thé tiết kiệm chi phí xây dung dữ liệu vừa có thê cải thiện chấtlượng ảnh đó chính là kết hợp U-Net cùng với Bottleneck, deeplabV3 cụ thé là
Atrous Spatial Pyramid Pooling (ASPP) với ảnh đầu vào sẽ được xử lý bằng phươngpháp Morphology dé phát hiện ra bệnh phù gai thị
Trong đó, Bottleneck là một bộ phận giúp chat lọc và cũng có các thông tinsau mã hóa Morphology là một thuật toán được sử dụng đề xử lý và cải thiện chất
lượng dữ liệu ảnh đầu vào Bộ ASPP dùng đề khôi phục và tăng cường các thông tin
chỉ tiết trong quá trình phân đoạn mạch máu võng mạc Sau khi nhận được kết quả
của quá trình phân đoạn hình anh, tác giả thực hiện kết hợp với mô hình ResNet-50
dé tiến hành phân loại ảnh kết qua (image classfication) thành hai lớp: bệnh và không
bệnh phủ gai thị.
Trang 6MỤC LỤC
900962909017 1BISA OI cece ssczzccessasscccsssascesssssczvaseccezssssasevessesessssecesssstestsvcensseeeesesevesseseeautneeaters 2
MO ĐẤ UỄunnasseinniiiinioibiidistgg01101010040031001830808803900118819386181000161838)808381038888123808308 3
DI g2 012221202313221222220212622202022553326231620012322503161322225353121231102023329)31215383312303130230833
DANH MUC CÁC CHỮ VIET TẤT sosseennnnnoiinanoaaniiirnnuieinagiiinn 6
DANH MU BAIN Gis csscsascaseszasazssssasssssansaasscoassasgonasanstasaaatsnsasssstasassnsnaniastauaes 7
DANH MỤC HINH ANH cccccccccscssecscsssececsecocsessecvesssesussvsrceessrsrcarsessusavsnseesaravees 8
Chương 1, GIỚI THIEU cccccccscsessecsesssessessesserssensrsseesvesseesessssrenensneesveseteneneneavenees II
Ì,1.Giỗiiii0u Bố lỗ ÏsansaasnnnniiiinniiininitiiitiiiiitiiiiiD1HDBGIG1000848800004000018858A 11
I,2.IMEti60Vð.RÔIđIn6TGHIERIGỮDHbiseaasiapsosiesiioioiiioioiiiiiiiiiiaintoiiioiooiiiioaiois II
Ì.3.Gi6iibạn của Hồ Hỗ nnaaannnnninniinnnitiiiinitiitiiittt20000880000008003880.030838 12
1.4 Phương pháp nghiÊn CO 0:030:ccsesessscsessecsasssasasssssssssasesassnssasavesnascsesasenasanasa 12
1.5 Cấu trúc Gà 1 13
Chương 2 CO SỞ LÝ THUYET VA CÁC NGHIÊN CUU LIÊN QUAN 14
DỊ) ,Í DEDII)((UTMS/EEE2s:yg:t:goanx050095551917296257103130395011503038510839123231111017EEE101700023E1171803231217 14
2.1.1 Ảnh võng mạc mắt 2:25222v29222122E2121112221272111715112112222 2 14
2010:)1.HH) SPRY HN cas seceasapenesnavasasssscsaezessesasasuasvavasssuassasessesasuvaassasasusaeesezssusneierass 15
2.1.3 Rút trích đặc trưng dé phát hiện ảnh võng mạc bất thudng 18
2.2 Các bộ lọc thường được sử dụng - ác HH ngư, 19
2.2.1 Lớp tích chập (convolution layer) - - s« se eeeeeeee.vere 19
2.2.2 Lop cầu " 4+ Ô 202.2.3 LỚP NGC lDỒ:cncooseeisoaiioieisiniaiisigagni0502151516185818161585555855358163858587858558858585681816 21
2.2 A U0DICHIEHDDIREHUÔiiirtiipiitiiosigpiostitzi1ii161202:6165010395023063515987689381595568588618 21
2.2.5 L6p Ket Hop 1 22
2:2.0:HàïIKÍGHIRÔ8Ì::::::¿::::isictcizi2zt:121212011216151512254582358152348514328553353858383328283128555 22
2.3 Một số mạng học sầu - ¿226 << 2L E212E1211721122121217131 131711211 cxeC 23
23:1 eins WEIN GG [3 sssccasssssssesessscssasassnssasasssasasascssssasatasascsacasstanssessssasatssacasaie 23
2.3.2 U-Net kết hợp nút thắt cô chai có giám sat (Bottleneck Supervised) 262.3.3 U-Net biến dang (deformable U-Net) [5] - .¿-.-¿s2-csz5csz55+ 29
Trang 73.2 Phương pháp dé xuất đẻ giải quyết bài toán -¿-©cscccsccserssccsee 40
3.2.1 Ky thuật tăng cường dữ liệu (Data augmention) - «-« «<< 42
3.2.2 Morphology tăng cường chất lượng hình ảnh -. 5222 44
3.2.3 Mô hình U-Net cải tiến kết hợp với Bottleneck, ASPP có sử dụng
lở D4 101) A) S00 011111111 11/7/1111111111/11111/217/7/11171/11111/10111 1111.111111171101/7.11107 111111171011 45
3.2.4 Phân lớp ảnh bằng ResNet-50 - ¿5c St s2 21211 50
3.3 Phương pháp đánh giá mô hình - sọ SH ườn 50
Chương 4 THỰC NGHIỆM VA DANH GIA KET QUÁ -2-c5¿552 52
4.1 Phần cứng, phần mềm và tap dit liệu thử nghiệm -2-52©52=52 52
4.1.1 Phan cứng và phần m@m cssscesssesssessseesseesssersseesseesseesnsesssveesveensessseee 52
4.1.2 Các bộ dit liệu về bệnh PJCC (oe ere 53
42, Bộ dữ liệu thực nghi TH a cscssisisssiasscssscssscsessiassissasssssscscesianssossisiasssssisancsancseis $§
4.3 Đánh giá kết quả thực nghiệm 56c sst x x21 1x 1 xxx s9
4.3.1 Kết quả thực nghiệm phân đoạn ảnh bằng các mô hình mang học sâu 594.3.2 Đánh giá kết quả mô hình phân lớp bằng Resnet-50 - 644.3.3 Đánh giá kết quả nghiên cứu của luận văn: 2- se 5zcsz5csc- 67Chương 5 KET LUẬN VÀ HƯỚNG PHAT TRIEÉN - 22-55252252 7I
5.1 Kết quả nghiên cứu đạt được của luận văn ¿ ¿55¿©5zcsz5csccvs 71
5.2 Đánh giá phương pháp đề xuất - ¿5s 5s t2 32 31 E111 7I
Va 71SDD NBA UREA sss coassazccasanssceasasseazenscsaavasecoasasseanasssssaraateaneanstanesssans 71
Trang 8DANH MỤC CÁC CHỮ VIET TAT
1 |ANN | Artificial Neural Networks
ASPP Atrous Spatial Pyramid Pooling
3
Annotated Dataset for Vessel Segmentation and Calculation
of Arteriovenous Ratio data base
| Global Area Network
Graphics Processing Unit
Trang 9DANH MUC BANG
Bang 2.1 Các mức độ của phủ đĩa thị - - - Ă 5< <5 xxx Hee 17
Bảng 4.1 Tóm tắt bộ dit liệu ST.ARE 2-22 2522 ©S£2EZ£S22EEv2xz+Eszxzzrxecrercez 53Bang 4.2 Thông tin chi tiết của bộ dit liệu AVRDB [20] -2- 255552 56
Bang 4.3 Số lượng dữ liệu anh của các tập huấn luyện, kiểm tra và tập kiêm định
trong quá trình phân đoạn ảnh bang mạng học sâu - - 59
Bảng 4.4 Kết quả huấn luyện quá trình phân đoạn ảnh võng mạc bằng các mô hình
học sâu trong 50 epoch đầu tiGn csssccesssosssesssnssssssssesesssesssesssessasesesesens 61
Bang 4.5 Các tham số huấn luyện cho mô hình ResNet-50 cc<c- 65
Bang 4.6 Kết quả huấn luyện mô hình Resnet-50 phân loại anh phù gai thi và ảnh
DHÙ (EBÏi (ỦÌ|::osc:csocsieigiscstn602:2602522606560306561855655581666ã5556565866585858551858588556885658 65
Bang 4.7 Bảng so sánh kết quả thực nghiệm phân đoạn anh của phương pháp học
sâu đề xuất và với các phương pháp khác -.-:-.-¿ss+: 55+ 55s+- 68
Bảng 4.§ Bảng so sánh kết quả thực nghiệm giữa phân loại ảnh phù gai thị bằng
Resnet-50 tương ứng khi sử dung dir liệu ảnh võng mạc đã phân đoạn ở
ĐT is sce 601010103130171021313164102423014303060833534932084953385050303631208389568342830914 05330568 70
Trang 10DANH MỤC HÌNH ANH
Hình 2.1 Ảnh soi đáy mắt [2 ] ] -2- 2-22 Z+EE££E£+S£2EE+kZvzerke+rsvrsrsezrersee 14
Hình 2.2 Các giai đoạn 0-5 ảnh võng mạc mắt bị phù gai thị với biệu hiện ghi nhận
ranh giới dia thị mờ, mạch máu giãn [2 Ï] - -.«- ¿5+ +5 s+<ssx+ 15
Hinh 2.3 Anh võng mạc và thần kinh thị giác bình thường (b) ảnh võng mạc bị phù
Hình 2.4 Anh võng mạc bình thường va các mức độ nghiêm trong của phù gai thị
tăng dan từ trái qua phải [ 10] -2 2< 2e cZccseczeeszer<csserzee 18
Hình 2.5 (a) Anh võng mạc bình thường, (b) anh chụp cắt lớp quang học day than
kinh thị giac của (a), (c) Ảnh võng mạc phù gai thị, (d) anh chụp cắt lớp
quang học dây thân kinh thị EIIE'GDB1G)I[UÏsssssssspissssrsirpsasssrsissispiosssrsii 18Hình 2.6 Việc rút trích các đặc trưng của ảnh võng mac (a) Anh võng mạc bình
thường (b) là ảnh võng mac bị phù gai thị [ 10] «.<c<c<~< 19 Hình 3:7 Mô hình lôp:tch.eb4pl[23], 2 2-22 cc-iieoee 20 Hình 2.8 Mô hình lớp tông hợp [24] - 2-2 22 ©sz+v<=tzEEezkz+zszresrxecrsrcee 21
Hình 2.9 Mô hình lớp tích chập ngược [27] - - s55 5<cssseersreereexee 21
Hình 2.10 Mô hình lớp kết hợp [25] - -.-¿ ¿- 22 222+52s5vzvevevcvevrsrvrsrsseee 22Hình 2.11 Biéu đồ hàm Sigmoid [2§] -.: 56-55252222 2t sevxvcxzzcvrsrseerxee 22
Hình 2.12 Biéu đồ hàm ReLU [28] cccscscssssssessseessssesssesssesssesssesssseesseesseeeseseseeesneesns 23
Hình 2.03) Mane Wa Net (3) ciccsascscsessessnscsscsancascnssocaunsessssascncacsenssapsansesssnssanseassnesaneie 24 Hình 2.04 046 hit Base WaNet [A cccscscccesseasassscsasassascesacssasasavsvcisissssorsacecssasaseacsase 26 Hình 2.15 Mô hình nút cô chai có giám sat (bottleneck supervised) [4] 27
Hình 2.16 Hình minh họa tích chập có thé biến dạng [Š:escsssssssssssaosiespsossoaaia 29
Hình 2.17 Kiến trúc ResNet bao gôm 2 khối đặc trưng là khối tích chập (Conv
Block) và khối xác định (Identity Block) [29] -. 2c 5s scszcsve 31Hình 2.18 Cộng trực tiếp đầu vào của khối với nhánh còn lại trong khối Identity
BROKE P29) |Liiiiii40ã41i210011241202430215020161404301214120495151513022183933903)28438139583860548281331282849412 32
Hình 2.19 Kiến trúc tóm tắt của mạng ResNet-50 [29] cccsecccccseee 32
Hình 2.20 Sơ đồ mô hình đề xuất của Saba [6] -2- -¿sZ©-s2+s+csz=xsssz 33
Trang 11Hình 2.21 Quy trình xử lý anh đáy mất trong tập dữ liệu huan luyện và kiểm tra
trung nghiên cứu cũa VassenelX [| ssisssssicsciscesssssesssscsssescvessssisisvoissecsasssesesseeie 34
Hình 2.22 Sơ đồ mô hình đề xuất của Shahzad Akbar [1 I] - -.-:-5- 37Hình 2.23 Sơ đồ mô hình đề xuất của Kamran Yousaf [12] -:-<¿- 38Hình 3.1 Mô hình của phương pháp dé xuất ở bước 1 và bước 2 - 4I
Hình 3.2 Mô hình của phương pháp đề xuất ở bước 3 -2 5-52 42Hình 3.3 Hình ảnh võng mạc mắt sau khi được tăng cường dữ liệu, (a) ảnh gốc, (b)
anh tăng cường sáng, (c) ảnh xoay | gốc I5o, (d) ảnh xoay ngang 44
HINH: NIITHIHDRINTDTDHDIDDi16ii1061112112210601091210110231112160301121602199515050333930908123E 44
Hình 3.5 Quá trình tiền xử lý anh bằng Morphology -.s:55c55szcssccvz 45Hình 3.6 Mô hình U-Net cải tiền kết hợp với Bottleneck, ASPP có sử dụng
lì Ly: lì là 1T T110 11000 1000100700100 000000 0 0101////1//70/00/ 01/70 /10///// 00010 070/000 46 Hình 3:7 Lớp ASPP (22) sscssssssassscsassssscacsssssescasasasasascscsascssasssssssasssascaasesnscanasssaczsasasa 48
Hình 3.8 Mô hình phân loại ảnh bằng ResNet-50 cscseesssessesseesseessesssesseesseesnees 50Hình 3.9 Ma trận biểu điễn kết Qua c.cccscessesssesssesssesssesssesseessessvsnsvensesseseseeenrsnersness 51
Hình 4.1 Một số hình anh tập dữ liệu kiêm tra của bộ dữ liệu STARE 54
Hình 4.2 Anh võng mạc trong bộ dữ liệu AVRDB, (a) hình ảnh gốc, (b) mạch máu
được chú thích, (c) động mạch được chú thích, (d) tĩnh mạch được chú thích, (e) mô hình mạch máu được chú thích được ánh xạ trên bản quét gốc [20] 55
Hình 4.3 Các triệu chứng bệnh lý bất thường biéu hiện bang các hội chứng trên
Hình 4.9 Hình ảnh kết quả phân đoạn mach mau tương ứng ảnh võng mạc bj phù
gai thị bằng các mô hình học sâu -. ¿2z 222522 Sv22Sv222vcvzZSzrrsxsrsvee 63
Trang 12Hình 4.10 Hình ảnh kết quả phân đoạn mach mau tương ứng anh võng mạc không
bị phù gai thị bang các mô hình học sâu : ¿2-52 5e zvcszzcszcvsrzvs 64Hình 4.11 Biểu đồ Train loss của mô hình ResNet-50 - 555cc 5ssccv2 66
Hình 4.12 Biểu đồ Train accuracy của mô hình ResNet-50 c.ccccsesssessseseeesseeeene 66
Hình 4.13 Biểu đồ Test loss của mô hình ResNet-50 c.ccccccsesssessseecseeeseeesseeeseeene 67
Hình 4.14 Biểu đồ Test accuracy của mô hình ResNet-50 -2- c2 67Hình 4.15 Kết qua phân loại ảnh phủ gai thị bằng ResNet-50 trên tập dữ liệu ảnh
võng mạc phân đoạn bằng U-Net truyền thống - 2-2-2222 55zc5vze: 68
Hình 4.16 Kết quả phân loại anh phù gai thị bằng ResNet-50 trên tập dữ liệu ảnh
võng mạc phân đoạn bằng mô hình đề xuất U-Net cải tiễn kết hợp với
Bottleneck, ASPP, Morphology - - so HH 4 6 2.” 68
Trang 13Chương 1 GIỚI THIEU
1.1 Giới thiệu đề tài
Ngày nay, sự phát trién mạnh mẽ của công nghệ thông tin thì việc giao tiếpgiữa con người với máy tính càng trở nên dé dàng hơn Nhiều kiến trúc máy học
khác nhau được áp dụng như mang Artificial Neural Network (ANN), mang Deep
Neural Networks (DNN) đã từng bước được ap dung vào các lĩnh vực khác nhau của
đời sông như thị giác máy tính, nhận dang giọng nói, nhận dạng chữ viết, xứ lý ngôn
ngữ tự nhiên, y khoa đã mang lại những kết quả vượt trội so với các phương pháp
truyền thông
Đặc biệt cùng với sự phát triển của phần cứng máy tính đã cho phép thực hiện
hàng tỷ phép tính trong 1 giây đã tạo tiền dé cho mang Convolutional Neural
Network (CNN) trở nên phô biến hơn Một trong những ứng dụng quan trọng của
mạng CNN đó là cho phép các máy tính có khả năng nhận đạng và phân tích, mạng
CNN được sử dụng để nhận dạng hình ảnh của đối tượng bằng cách đưa nó qua
nhiều lớp với một bộ lọc tích chập dé sau đó có thê nhận dạng được đối tượng đó
Mắt là cơ quan nhỏ bé nhưng vô cùng quan trọng trong đời sống của mỗi con
người Mắt là cơ quan thị giác thực hiện chức năng nhìn, quan sát, thu nhận lại hìnhảnh của sự vật, màu sắc dé chuyên vào não xử lý và lưu trữ Ngày nay, các bệnh vềmắt càng ngày càng phô biến đặc biệt là ở khí hậu, môi trường ngày càng bị ô nhiễm
Phù gai thị là một trong những bệnh về mat Bệnh Phù gai thị néu không được phát
hiện và chữa trị kịp thời có thê có thẻ mắt thị lực và dẫn tới mù lòa
Đề hỗ trợ bác sĩ chuyên khoa trong việc phát hiện sớm, chân đoán và điều trị
bệnh phù gai thị thông qua hình ảnh võng mạc được chính xác và hiệu quả hơn góp
phan hạn chế các biến chứng nghiêm trọng vé mắt, tôi chọn nghiên cứu dé tài: “Phat
hiện phù gai thị trong ảnh võng mạc mắt sử dụng mang học sâu” (Papilledemadetection in fundus retinal image based on deep learning networks) dé nghiên cứu
và dé xuất phương pháp mang lại hiệu qua
1.2 Mục tiêu và nội dung nghiên cứu
Trang 14Mục tiêu của dé tài là nghiên cứu, dé xuất phương pháp học sâu dé phát hiện
bệnh phù gai thị trong ảnh võng mạc mắt và đánh giá, phân tích độ chính xác của
mô hình dựa trên các bộ dữ liệu cụ thê
Đề đạt được mục tiêu nghiên cứu trên, dé tài cần phải thực hiện các nội dung
sau đây:
(i) Tìm hiéu các đặc trưng của ảnh võng mạc mắt va phân tích yêu cau bài toán
(ii) Nghiên cứu các công trình nghiên cứu liên quan và phân tích ưu điểm và
nhược điềm của chúng
(iii) Đề xuất các phương pháp học sâu dé phát hiện phù gai thị trong ảnh võngmạc mắt
(iv) Hiện thực phương pháp và so sánh kết quả đạt được với các phương pháp
khác.
Mặc dù đã có nhiều tác giả đã công bố nhiều công trình nghiên cứu liên quan
về việc phát hiện bệnh phủ gai thị trong ảnh võng mạc mat bằng nhiều phương pháp
đề xuất khác nhau Tuy nhiên, chúng vẫn con tồn tại nhiều hạn chế như: đánh giá
mức độ hiệu quả của phương pháp đề xuất, quy mô số lượng của tập dữ liệu, chất
lượng ảnh của tập dữ liệu bị mờ, nhiều, không rõ
1.3 Giới hạn của đề tài
- Đề tài nghiên cứu và dé xuất phương pháp học sâu hiệu quả dé phát hiện ra ảnh võng mạc bị phù gai thị và ảnh võng mạc không bị phù gai thị.
- Đề tài không thực hiện việc đánh giá mức độ bệnh phù gai thị qua ảnh võng
mac mat
1.4 Phương pháp nghiên cứu
Đề thực hiện đề tài này, tác giả đã sử dụng các phương pháp nghiên cứu sau
đây:
- Phương pháp khảo sát, phân tích và đánh giá các phương pháp đã có thông
qua việc tìm hiéu các công trình nghiên cứu có liên quan đã được công bố trên thégiới về việc phát hiện phù gai thị trên ảnh võng mạc Từ đó, tác giả nam bat được ý
tưởng chính, phân tích các ưu điểm và khuyết điểm của từng phương pháp
Trang 15- Phương pháp tông hợp va mô hình hóa: Tông hợp, trực quan hóa các dé xuất
trong các nghiên cứu thành mô hình logic rõ ràng cho phương pháp của đề tài
- Phương pháp thử và sai: Thử nghiệm mô hình mà tác giả đã đề xuất trên các
tập đữ liệu dé kiểm chứng và đánh giá hiệu quả của phương pháp đề xuất
1.5 Cầu trúc luận văn
Luận văn này được trình bày gồm 5 chương và có cấu trúc như sau:
- Chương 1: Giới thiệu Trong chương nay, tác giả giới thiệu về mục tiêu, nội
dung cũng như giới hạn nghiên cứu của đề tài
- Chương 2: Cơ sở lý thuyết và những nghiên cứu có liên quan Trong chương
này, tác giả trình bày cơ sở lý thuyết liên quan cũng như các côngtrình nghiên cứu có liên quan đến cơ sở lý thuyết
- Chương 3: Phương pháp dé xuất phát hiện bệnh phù gai thị Trong chương
nảy, tác giả trình bay phương pháp học sâu đề xuất đẻ phát hiện bệnh
phù gai thị.
- Chương 4: Thực nghiệm và đánh giá kết quả Trong chương này, tác giả thực
hiện thí nghiệm, đánh giá kết quả và so sánh với các phương pháp
khác.
- Chương 5: Kết luận Trong chương nay, tác giả trình bay các kết qua đã tìm
hiểu, đánh giá kết quả đã tìm hiểu và hướng phát trién của đề tài trong
tương lai.
Trang 16Chuong 2 CO SO LY THUYET VA CAC NGHIEN CUU LIEN QUAN
2.1 Cơ sở lý thuyết
2.1.1 Ảnh vong mac mat
Võng mac (retina) còn được gọi là mang thần kinh - nơi tiếp nhận các kích thíchánh sang từ bên ngoài truyền về trung khu phân tích thị giác ở vỏ não (thông qua
dây thần kinh thị giác số II) Do đó võng mạc là bộ phận quan trọng nhất của mắt
giúp chúng ta nhận biết ánh sáng và hình ảnh xung quanh Có nhiều nguyên nhângây ra các bệnh lý ở võng mạc, dẫn đến rối loạn thị giác, thậm chí các bệnh võngmạc có thé dẫn tới mù lòa néu không phát hiện và xử trí kịp thời
Đáy mắt là một tô chức thần kinh rất tỉnh tế có chức năng cảm nhận ánh sáng
và truyền tải tín hiệu ánh sáng vẻ não Trong thuật ngữ Y khoa nhằm đề phân vùngmột cách chính xác vị trí 2 cau trúc có liên hệ mật thiết với nhau ở sâu trong nhãncầu, đó là địch kinh và võng mạc Day mat có cau tạo gồm võng mac (nơi ánh sáng
và hình ảnh chiếu vào), đĩa thị giác (optic disc — là một điểm trên võng mạc giữ daythần kinh thị giác, gửi thông tin đến não) và mạch máu
Ảnh soi đáy mắt (fundus images) là ảnh mau kỹ thuật số mặt sau của đáy mắt
Day là nguồn tài liệu quan trọng giúp bác sĩ nhãn khoa phát hiện các tôn thương trên
võng mạc mắt như: Thoái hóa võng mạc, bong võng mạc, xuất huyết võng mạc, phù
gai thị Cấu trúc võng mạc mắt bình thường được thê hiện ở hình 2.1 Ảnh võng mac mắt bị phù gai thị được thé hiện ở hình 2.2.
Hoang điểm
Đĩa thị
Các mạch
Trang 17Hình 2.2 Các giai đoạn 0-5 ảnh võng mạc mắt bị phù gai thị với biệu hiện ghi nhận
ranh giới đĩa thị mờ, mạch máu giãn [21]
2.1.2 Phù gai thị
Phù gai thị là tình trạng phù của gai thị do tăng áp lực nội sọ Sự vòng lên của
gai thị không do tăng áp lực nội so (vi dy tăng huyết áp ác tính, huyết khối tĩnh mạch
trung tâm võng mạc) không được coi là phù gai Không có triệu chứng sớm, mặc dù
thị lực có thê bị ảnh hưởng trong vài giây Phù gai đòi hỏi phải tìm kiếm ngay nguyên
nhân Chân đoán là dya vào soi đáy mắt phối hợp với các xét nghiệm khác, thường
là chân đoán hình ảnh sọ não và đôi lúc là chọc dich não tủy sau đó dé xác địnhnguyên nhân Điều trị là tập trung vào giải quyết bệnh nên.
e Triệu chứng và dau hiệu
- Ở những bệnh nhân phù gai, thị lực thường không bị ảnh hưởng ban đầu,nhưng có thê có hiện tượng nhìn mờ thoáng qua hoặc song thị Bệnh nhân có thê có
Trang 18các triệu chứng tang ap lực nội sọ như dau đầu hoặc nôn và buôn nôn Không đau
tại chỗ,
- Soi đáy mắt thay tĩnh mạch võng mạc giãn ngoằn ngoéo, gai thị phù và cương
tụ, xuất huyết võng mạc quanh gai nhưng không lan ra chu biên như trong hình 2.2.
Phu đĩa đệm cô lập (ví du, do viêm day thần kinh thị giác hoặc bệnh thần kinh thị
giác do thiếu máu cục bộ) mà không có phát hiện võng mạc cho thay ap luc dich nao
tủy tăng cao thì không được coi là phù gai thị (trừ khi áp lực nội sọ tăng cao khi chọc
thủng thắt lưng đồng thời)
- Trong giai đoạn ban đầu của phù gai, thị lực và phản xạ đồng tử bình thường
và bất thường chỉ khi bệnh đã tiến triển nặng Đánh giá thị trường có thê thấy điểm
mù mở rộng Sau đó, đánh giá thị trường có thé cho thay các ton thương bó sợi hoặcmat thị trường chu biên điển hình
- Các đặc trưng về ảnh võng mạc bị phù gai thị được thê hiện ở hình 2.3
Central Retinal Artery
Central Retinal Vee
®et nại Nerve Fiber Layer (ANFL)
độ dày lớp sợi thần kinh thông qua sử dụng chụp cắt lớp quang học (OCT); OCTđược thực hiện để định lượng mức độ phù gai dé theo dõi tiến trién của bệnh
Trang 19- Chân đoán phù gai và vòng dia thị do các nguyên nhân khác: Viêm đây than
kinh thị giác, thiếu máu thị thần kinh, nhãn áp thấp, tắc tĩnh mạch trung tâm võng
mạc, viêm màng bồ đào hoặc giả phù gai (ví dụ, drusen đầu thị thần kinh), đòi hỏiphải thăm khám tỉ mi Nếu nghi ngờ phù gai trên lâm sang, cần thực hiện ngay MRItiêm thuốc cản quang chứa gadolinium hoặc CT cản quang dé loại trừ các nguyên
nhân như u nội sọ Chọc dịch não tủy chỉ chọc dịch não tủy khi đã loại trừ u nội
nhãn Choe do that lưng ở bệnh nhân có u nội sọ có thé dẫn đến thoát vị thân não
Siêu âm B và hiện tượng tự phát huỳnh quang là những công cụ chân đoán tốt nhất
của giả phù gai do drusen dau thị thần kinh.
e Các giai đoạn bệnh phù gai thị: Mức độ bệnh phù gai thị được phân thành
5 giai đoạn [1], trong đó giai đoạn không là bình thường được thé hiện trong bang
đệm thái dương bình thường
Phù gai thị sớm Quảng xung quanh đĩa thị phù
Che khuất một hoặc nhiều đoạn của các
mạch máu chính ngoài đĩa thị.
Che khuât một phân của một đoạn mạch
máu lớn trên đĩa thị.
Che khuât một phân hoặc toàn bộ mạch Phù nghiêm trọng a
mau trén dia thi
Bang 2.1 Cac mức độ của phù đĩa thị
Hình ảnh võng mạc bình thường va ảnh võng mạc bị phù gai thị qua các mức
độ nghiêm trọng tăng dần được thể hiện chỉ tiết như trong hình 2.4
Trang 20tăng dan từ trái qua phải [10]
2.1.3 Rút trích đặc trưng dé phát hiện ảnh võng mạc bat thường
Một số phương pháp phát hiện phù gai thị thông qua chụp cắt lớp quang học
và hình ảnh đáy mắt có những hạn chế Chụp cắt lớp quang học đưa ra cảnh báo sớm
vẻ các bat thường ở võng mac so với chụp đáy mắt nhưng khá tốn kém Độ day củalớp sợi thần kinh võng mạc và điểm vàng, độ dày võng mạc, độ cao day than kinh
thị giác và thé tích day thần kinh thị giác có thé được tính toán hiệu quả thông qua
hình ảnh chụp cắt lớp kết hợp quang học Hình 2.5 cho thay hình anh của Chụp cắt
lớp kết hợp quang học và nội soi đáy mat cho day thần kinh thị giác bình thường va
bất thường
Việc phát hiện phù gai thị cũng được thực hiện thông qua việc chụp cắt lớpquang học ảnh võng mạc và hình ảnh kết quả chụp cắt lớp quang học của anh võng
mạc bình thường và ảnh võng mạc phù gai thị được thê hiện trong hình 2.5 dưới đây.
Hình 2.5 (a) 1) Anh võng mạc bình vững mạc bình thường, (b) thường, (b) ảnh chụp cắt lớp quang hi aig cat lớp quang học day thần
kinh thị giác của (a) (c) Ảnh võng mạc phù gai thị, (đ) ảnh chụp cắt lớp quang học
day thần kinh thị giác của (c) [10]
Trang 21Trong các công trình nghiên cứu đã công bỗ về việc nghiên cứu phat hiện
bệnh phù gai thị bằng trí tuệ nhân tạo, việc rút trích các đặc trưng của bệnh thông
qua việc sử dụng các mạng học sâu nhằm phân đoạn mạch máu của ảnh võng mạc
và rút trích các đặc trưng của bệnh như: Ranh giới đĩa thị bị mờ do đĩa thị bị sưng,
các đây thần kinh thị giác tại vị trí xung quanh đĩa thị bị che khuất một hoặc nhiều
đoạn Trong hình 2.6 thé hiện các đặc trưng của bệnh phù gai thị sau khi thực hiện phân đoạn ảnh võng mạc.
I) (II)
Hình 2.6 Việc rút trích các đặc trưng của ảnh võng mạc (a) Ảnh võng mạc bình
thường, (b) là ảnh võng mạc bị phủ gai thị [10]
Trong hình 2.6, ta thấy rõ đối với ảnh võng mạc bình thường (a) ranh giới đĩa
thị thé hiện rất rõ trên ảnh võng mac, mach máu phân đoạn tại vị trí đĩa thị liên tục,
ít bị gián đoạn Trong khi hình ảnh võng mạc bị phù gai thị (b) thì ranh giới đĩa thị
bi mo do phù né và các mach máu phân đoạn tại đĩa thị bị gián đoạn nhiều
2.2 Các bộ lọc thường được sử dụng
2.2.1 Lớp tích chập (convolution layer)
Lớp tích chập là một lớp biến đôi xử lý các thông tin đầu vào bằng một phéptích chập với các bộ lọc sẵn có dé trả về một tin hiệu mới chứa những đặc trưngchính cần có và lượt bỏ hoặc giảm bớt những đặc trưng không cần thiết Về cách
Trang 22tính, đi từ điểm trên cùng của ma trận đầu vào và tạo ra một ma trận con kích thước
bằng với bộ lọc và tiền hành tích chập ma trận con với bộ lọc đó, tiếp tục theo chiều
từ trái qua phải, từ trên xuống đến khi hết và ta sẽ được một ma trận cuối chứa các
thông tin cần thiết.
Convolution filter Target pixel
Hình 2.7 Mô hình lớp tích chap [23]
Cấu trúc của lệch của tích chập thường dùng trong keras là “Conv2D (filter,
kernel_size, strides ,padding, dilation_rate, activation, kernel_initializer)” Trong đó
° filters (bộ lọc): Số lượng đầu ra tích chập
° kerner size (kích thước bộ lọc): Chiều cao, rộng của tích chập
° activation (kích hoạt chức năng): tham số chức nang
° padding (bộ đệm): dé giữ kích thước đầu ra nguyên ven
° kernel initializer (Nhân khởi tạo ma trận)
e strides: số bước nhảy tích chập
° dilation_rate: độ giãn nở của tích chap
2.2.2 Lớp tổng hợp
Lớp tông hợp nhằm giảm kích thước chiều dai và rộng của ma trận Càng về
sau khi trích xuất đặc trưng, số lượng tham số cũng tăng theo, từ đó công việc tínhtoán cũng nhiều hơn Do đó dé giảm giảm tai tính toán, ta cần phải giảm đi kíchthước các chiều của ma trận sẽ khả thi hơn so với việc giảm số tầng đơn vị vì nó là
một kết quả đại điện của áp dụng bộ lọc Do đó lớp này đã được áp dụng ngay saulớp tích chập dé giảm bớt gánh nặng tính toán về sau Vẻ cách tính, lớp tông hợpdựa vào kích thước cửa sô trượt và lấy giá trị lớn nhất trong vùng từ ma trận đầu vào
Trang 23“MaxPool2D(pool_ size, strides, padding)” Trong đó :
e pool size: Kích thước cửa sô trượt để chọn giá trị
° strides: số bước nhảy tích chap
° padding (bộ đệm): dé giữ kích thước đầu ra nguyên ven
2.2.3 Lớp lược bo
Lớp lược bó là một lớp loại bỏ ngẫu nhiên các đơn vị unit dé chúng không
tham gia vào trong quá trình học của mô hình nham tránh bị quá hoàn hao Cau trúc
của lệch của Dropout thường dùng trong keras là “Dropout(rate)” Trong đó rate là
chỉ số tỉ lệ giảm có giá trị từ 0 đến 0.9 Tuy nhiên vì hiệu quả gây xung đột với lớpBatchNorm nên lớp này đã được loại bỏ nhằm tăng chất lượng xử lí khi sử dungbatch normalization trên nền Keras
2.2.4 Lớp tích chập ngược
Lớp tích chập ngược là lớp giúp tăng kích thước ma trận khi cần khôi phục lại
kích thước của dữ liệu như ban dau Về cách tinh, tích chập ngược dựa vào cửa SỐtrượt và sao chép các giá trị liên kề dya trên giá trị ma trận gốc và tiếp tục đến khikết thúc sẽ thu được một ma trận mới lớn hơn chứa các thông tin đặc trưng [27]
L4
Hình 2.9 Mô hình lớp tích chập ngược [27]
Trang 24Cau trúc của lệch của tích chập ngược thường dùng trong keras là
“UpSampling2D(size)” Trong đó size là chỉ kích thước cửa sô trượt dé sao chép giá
tri.
2.2.5 Lớp kết hợp
Lớp kết hợp là lớp giúp kết hợp các tích chập lại với nhau Về nguyên tắc gì
lớp nay dùng dé cộng giá trị từ nhiều lớp tích chập lại dé làm nỗi bật hơn các đặc
trưng đã có từ nhiều lớp với nhau Cấu trúc của lệch của lớp kết hợp thường dùng
trong keras là “Concatenate(axis)([x, y])” Trong đó axis là trục và x, y lần lượt là
Trang 25Hàm sigmoid sẽ nhận các giá trị đầu vào là số thực và chuyên về trong khoảng
(0,1) tùy vào giá trị ban đầu của chúng, nếu là số thực âm nhỏ sẽ gần tiệm cận vé 0
và thực đương lớn sẽ là tiệm cận về 1 Tuy nhiên hàm này cũng có nhược điểm là dé
bị mat độ đốc vì nếu giá trị đầu vào toàn tuyệt đối lớn hoặc tuyệt đối bé và còn gây
khó khăn trong việc hội tụ vì không có trung tâm nếu không có các thuật toán chuẩn
(phần bên trái) và decoder (phần bên phải) được thê hiện như trong hình 2.11.
e Ý tưởng của mạng U-Net
Trang 26Ý tưởng chính đăng sau CNN là học feature mapping của hình ảnh và dùng
nó dé tạo ra feature mapping mức cao hơn Điều này hoạt động tốt trong các bài toán
phân loại vì hình ảnh được chuyên đôi thành một vector sử dụng thêm đề phân loại
Nhưng trong phân vùng hình anh, chúng ta không chi cần chuyên đôi feature map
thành một vector mà còn tái tạo lại một hình ảnh từ vector này Đây là một tác vụ
khó Toàn bộ ý tưởng của U-Net được xoay quanh van dé nay
Khi chuyên đổi một hình ảnh thành một vector, chúng ta đã học feature
mapping của hình ảnh, vậy tại sao không sử dụng cùng một mapping đề chuyên đôi
nó thành hình ảnh Đây là công thức đẳng sau U-Net Sử dụng các feature map tương
tự được sử dụng khi tạo vector dé mở rộng vector thành hình ảnh được phân vùng
Điều này sẽ bảo vệ tính toàn vẹn cau trúc của hình ảnh, làm giảm sự biến dang rấtnhiều Hãy tìm hiểu về kiến trúc một cách ngắn gọn hơn
3 + { “+ Copy and crop
-i-a —- Eee $ max pool 2x2
4 ‡ {up 22
mewmousan oan ii
Hinh 2.13 Mang U-Net [3]
Kiến trúc của U-Net được minh họa rõ ở hình 2.13, bao gôm 2 đường dùng
dé thu nhỏ ảnh (bên trái) và phóng to ảnh (bên phải) Đường thang dùng dé thu nhỏ
ảnh được thiết kế theo kiến trúc mạng thần kinh tích chập thông thường, nghĩa là nó
sẽ gồm nhiều lớp tích chập 3x3 được tính với đơn vị tuyến tính chỉnh lưu (rectified
linear unit) Sau đó, dùng thủ tục max pool với giá trị đầu vào là 2x2 dé thu nhỏ ảnh.Với mỗi lần thu nhỏ, các đặc trưng của ảnh được nhân đôi lên, loại bỏ những thông
Trang 27tin thừa Ở hướng ngược lại, việc phục hôi kích thước ảnh được thực hiện bởi ham
upsampling, giá trị đầu vào là 22 cùng với nhiều lớp tích chập 3x3 được tính vớirectified linear unit Ở lớp cuối cùng, sử dụng phép tính chập 1x1 để ánh xạ 64 vector
đặc trưng ứng với số lớp mong muốn.
Về cách huấn luyện, sử dụng hình ảnh đầu vào và ảnh phân vùng tương ứng
đề huan luyện hệ thông với phương pháp stochastic gradient descent của Caffe Dé
sử dụng tôi da và giảm thiểu tài nguyên của GPU, U-Net thường dùng đầu vào có
dir liệu lớn thay vi SỐ lượng mau dữ liệu lớn và từ đây giảm các mẫu đữ liệu thànhmột hình ảnh duy nhất
Ham năng lượng được tính theo hàm trung bình mũ kết hợp với hàm toán học
nghịch đảo lũy thừa Hàm trung bình mũ được tính theo công thức (2.3):
exp(ax(x))
—————— 2.3ri exp(a,1(x)) ( )
Khi ma a, (x) thê hiện độ hiệu quả của k tại điểm anh x e Ø9 with 2 c Z?.K
P(x) =
là số lớp và p,(x) là hàm dùng đề tinh giá trị cực đại Vi dụ, px(x) = 1 khi k trong
biêu thức a¿(x) đạt giá trị lớn nhất và p.(x) = 0 khi k đạt giá trị còn lại
Ham mất mát sẽ tính toán dé tránh trường hợp quá hoàn hảo tại pu (X) nếu
khác 1 bằng công thức (2.4):
E = Yen @(3) log(,(x,(X)) khi L : 2 > {1, K} (2.4)
Là nhãn thật của mỗi điềm ảnh và w: /2—> R là ma trận trọng lượng để hién thị
nhiều điểm ảnh quan trọng của hình hơn trong quá trình huấn luyện
Phần viền phân chia ảnh được tính toán bằng phép toán hình thái học Ma trận
trọng lượng được tính theo công thức (2.5):
Trang 282.3.2 U-Net kết hợp nút thắt cổ chai có giám sát (Bottleneck Supervised)
Kiến trúc U-Net ban đầu bao gồm một đường dẫn hợp đồng mã hóa một hình
ảnh cường độ có kích thước $72 x 572 thành một vector đặc trưng 30 x 30 x1024 ở
nút cô chai và một đường dẫn mở rộng giúp giải mã vector đặc trưng vào bản đồ gán
nhãn có cùng kích thước với hình ảnh cường độ đầu vào Bộ mã hóa tự động là mộtloại mạng thần kinh nhân tạo được sử dụng đề tìm hiểu dữ liệu hiệu mã hóa theocách không được giám sát Nó có thé được sử dụng đề giảm kích thước bang cách
mã hóa dit liệu chiều cao thành các đối tượng địa lý có kích thước thập Bộ bao gồm một phần mã hóa và một phần giải mã Ký hiệu chức năng bộ mã hóa là, chức năng
bộ giải mã là, một bộ mã hóa tự động tìm kiếm Ngoài ra, trong mô hình này cũngkết hợp các mô-đun dày đặc, mô-đun khởi động và giãn nở tích tụ thành kiến trúccủa U-Net ban đầu Đối với mỗi tích chập lớp trong mô-đun day đặc, ban đồ tính
năng của tất cả các lớp tích chập trước đó được sử dụng như đầu vào và ban dé đặc
trưng của riêng nó được sử dụng làm đầu vào cho tất cả các lớp tích chập tiếp theo.Việc sử dụng mô-đun dày đặc giúp giải quyết van dé gradient biến mat, tăng cường
sử dụng lại các thông tin tính năng cần thiết và giảm số lượng tham số [4]
Trang 29Mô hình thuật toán bao gồm hai phần chính là Base U-Net và nút cô chai giám
sát (BS U-Net) Mỗi khối xuống hoặc khối chuyên tiếp chứa một mô-đun khởi động,
mỗi khối day đặc chứa một mô-đun day đặc Các mô-đun khởi dau trong khôi xuống
có ba đường dẫn, mỗi đường dẫn bao gồm một tích chập giãn nở bên trong phần
bên phải, 'UpX’, 'DownX’, 'Trans' và Dense’ đại diện cho một khói lên, khối xuống,
khối chuyên tiếp và khối day đặc tương ứng Mô-đun day đặc chỉ nỗi đầu vào va bản
đồ đối tượng sau lớp tích chập 3 x 3 Lớp kích hoạt RELU theo sau mỗi lớp BN và
theo sau các lớp tích chập không được theo sau bởi lớp BN Về BS U-Net bao gồmmột U-Net mã hóa tự động và một U-Net phân đoạn Đề huấn luyện BS U-Net, trướctiên, U-Net mã hóa được dao tạo với các bản đồ gán nhãn làm đầu vào Đối với mộtU-Net mã hóa được dao tao, tính năng nút cô chai vector giúp mã hóa cho một bản
đồ nhãn đầu vào Cụ thé hơn, sự mat mát của phân đoạn bằng U-Net là trung bình
có trọng số là mat mát giữa dau ra cuối cùng với bản đồ gán nhãn và sự mat mátEuclid giữa vector đặc trưng nút cô chai của mã hóa U-Net với phân đoạn U-Net
Cách tiếp cận có giám sát của vector nút cô chai xuất phát từ sau khi đưa ra một cặp
hình ảnh va ban đỗ nhãn thì vector đặc trưng của nút cô chai được U-Net mã hóa
dao tạo và U-Net phân đoạn phải giống nhau Đây là đúng bởi vì đầu ra cuối cùng
của cả hai mạng đều giống nhau, và do đó, vector đặc trưng trước khi giải mã cũngphải giống nhau Việc kết hợp những thông tin như vậy sẽ giúp đây nhanh quá trìnhđào tạo, kiểm soát sự biến dạng hình dang, và giảm các trường hợp dương tính giả
và âm tính giả tại kết quả đầu ra.
Hình 2.15 Mô hình nút cô chai có giám sat (bottleneck supervised) [4]
Trang 30Về hàm tính toán trọng lượng, đề có thể phân đoạn chính xác hơn ở các vùng
ria vì thiếu thông tin, tính toán bang cách tính bản đồ khoảng cách D, mỗi điểm ảnhtrong đó là khoảng cách từ điểm ảnh này đến điểm ảnh gần nhất trên đường bao, sau
đó tính toán trọng số bản đồ theo công thức (2.6) và (2.7):
e F là ma trận nhị phân (0-1) xác định trước được gọi là vùng quan tam
của ma trận Các điểm anh của F bang 1 là các vùng quan tâm
¢ w mức độ quan trọng của các vùng quan tâm được chi ra bởi F
® là phương sai
Về hàm mat mát dùng dé giảm thiêu mức trung bình có trọng số của tôn thất
có trọng số giữa đầu ra và bản đồ gan nhãn và sự mat mát Euclid giữa các đặc trưngnút cô chai vector của phân đoạn U-Net và quá trình huấn luyện U-Net mã hóa Cho
ban đồ gán nhãn A và kết quả đầu ra B, mat mát giữa A và B được định nghĩa theo
công thức (2.§) là:
2|AnB|
|4|+¡P|
Dice loss = 1— (2.8)
Biéu thị các vector đặc trưng nút cô chai được tao ra bằng cách mã hóa U-Net
và phân đoạn U-Net lần lượt là T! và T2 Sự mat mát của Euclide giữa T* và 7?
được tính theo công thức (2.9):
Dice loss = 1— (Wxal)+(wWxeI) (2.10)
Tông tôn thất của BS U-Net là trung bình có trọng số của tôn that Euclid (2.9)
và sự mat mát của trọng số (2.10) Trong đó @, + @ø¿ = 1:
Total loss = w, X Diceloss + wz X Euclidean Loss (2.11)
Trang 312.3.3 U-Net biến dang (deformable U-Net) [5]
| regular grid is added by offsets |
input feature map offset field deformed feature map ’ % th output feature map
Hình 2.16 Hình minh họa tích chập có thé biến dang [5]
Một công trình nghiên cứu được viết vào năm 2017 nói về cách thuật toán,
kiến trúc, những lợi ích mà dé tài phân lớp bằng U-Net mang lại Đầu tiên, ding mô
hình U-Net bình thường làm mô hình cơ sở vì mô hình này phân loại hình ảnh dựa
trên các điểm ảnh đã được dự đoán bằng mô hình fully connected neural network
Tuy nhiên, mô hình tích chập thông thường bị hạn chế khi làm việc các phép biến
đôi hình dang vật thê vì trường tiếp nhận thông tin của mô hình thường là hình vuôngcho nên phải thay thế việc nhân tích chập thông thường bằng tích chập có thê biếnđôi (deformable convolution) Xuyên suốt mô hình U-Net Bên cạnh kĩ thuật
deformable convolution thì vẫn còn nhiều phương pháp có thé bảo toàn việc không
gian không bị biến dang như là tăng số lượng dữ liệu huấn luyện lên và mô hình
spatial transformer networks (STN) Tuy nhiên, việc dữ liệu huấn luyện quá lớn sẽ
tôn nhiều thời gian va trong quá trình huấn luyện sẽ cần những mẫu dữ liệu chi tiết
hơn trong khi thuật toán STN không thê phát huy được hết hiệu quả cua tap dữ liệu.Mặt khác, deformable convolution có thé phân tích dữ liệu một cách chi tiết và nhanh
chóng, đồng thời dé dàng thích ứng với các đối tượng với hình dạng khác nhau.[5]
Trong kiến trúc CNN từ xưa, nhân tích chập thường được xác định bởi kích
thước và hình dạng có định bằng cách lấy mẫu đữ liệu trên lưới thông thường từ ma
trận lớp đầu vào Ví dụ, lưới R sử dụng cho tích chập 3x3 thi giá trị R= {(-1, -1),(-1,
0), - - - ,(0, 1),(1, 1)}, với mỗi điểm ảnh p trên ma trận lớp đầu vào y từ anh x, tích
chap thường được tính với công thức (2.12) sau:
Yo) = 3 p„eR @(Pn)-X(Po + Pn) (2.12)
Trang 32Trong đó y(pạ) biéu thị giá trị điểm anh po trong lớp ma trận đầu vào vaX(Pạ + Pn) biêu thị giá trị của điểm anh po + p„ trong dữ liệu đầu vào Ngược lại,trong deformable convolution thì có thêm các thông số 2D trong lưới R do đóphương trình (2.12) biến đôi thành phương trình (2.13):
Y(Po) = Öp„eR @(P„)-X(Po + Pn + APn) (2.13)
Ap„ có thé là phân số, phương trình (2.13) được thực thi bằng phép tinh nội
suy song tuyến tính như công thức (2.14) sau:
x(P) = Lg fx Px)- FG Px) x(q) (2.14)
P thé hiện vị trí của | phân sỐ tùy ý trong khi q biéu thị tat cả vị trí của các
tích phân trong ma trận chức năng ở phan đầu vào Hạt nhân | chiều f được tính theo
công thức (2.15) sau:
ƒ(m,n) = max(0,1 — |m — n]) (2.15)
Phương trình (2.14) được cho là dé tính toán với lập trình viên vi nó chỉ liên
kết với bốn tích phân gần nhất có tọa độ nằm trong q;,i = [1,2,3,4] Phương trình
tương đương với (2.16):
x(p) = Liz (4) Si (2.16)
Trong đó, S;,i = [1,2,3,4] la diện tích của hình chữ nhật được gan từ qj,i =
[1,2,3,4].
2.3.4 Mạng ResNet-50 [29]
ResNet cũng là kiến trúc sớm nhất áp dung batch normalization Mac dia
là một mạng rat sâu khi có số lượng layer lên tới 152 nhưng nhờ áp dụng những
kỹ thuật đặc biệt nên kích thước của ResNet-50 chỉ khoảng 26 triệu tham số, Kiếntrúc với ít tham số nhưng hiệu quả của ResNet đã mang lại chiến thắng trong cuộc
thi ImageNet năm 2015.
Trang 33Hình 2.17 Kiến trúc ResNet bao gồm 2 khối đặc trưng là khối tích chập (Cony
Block) và khối xác định (Identity Block) [29]
Những kiến trúc trước đây thường cải tiến độ chính xác nhờ gia tăng chiều
sâu của mạng CNN Nhưng thực nghiệm cho thấy đến một ngưỡng độ sâu nào đó
thì độ chính xác của mô hình sẽ bão hòa và thậm chí phản tác dụng và làm cho mô
hình kém chính xác hơn Khi đi qua quá nhiều tang độ sâu có thé làm thông tin gốc
bị mat đi thì các nhà nghiên cứu của Microsoft đã giải quyết van đề này trên ResNet
bang cách sử dụng kết nồi tắt
Các kết nối tat (skip connection) giúp giữ thông tin không bị mat bằng cáchkết nối từ layer sớm trước đó tới layer phía sau và bỏ qua một vài layers trung gian.Trong các kiến trúc base network CNN của các mạng YOLOv2, YOLOv3 và gầnđây là YOLOv4 bạn sẽ thường xuyên thấy các kết nối tắt được áp dụng
ResNet có khối tích chập (Convolutional Bock, chính là Conv bloek trong
hình) sử dụng bộ lọc kích thước 3 x 3 giống với của InceptionNet Khối tích chậpbao gồm 2 nhánh tích chập trong đó một nhánh áp dụng tích chập 1 x 1 trước khi
cộng trực tiếp vào nhánh còn lại
Khối xác định (Identity block) thì không áp dụng tích chập 1 x | mà cộng trực
tiệp giá trị của nhánh đó vào nhánh còn lại.
Trang 34identity
Hình 2.18 Cộng trực tiếp đầu vào của khối với nhánh còn lại trong khối Identity
Block [29]
Mặc du có kiến trúc khối kế thừa lại từ GoogleNet nhưng ResNet lại dé tóm
tắt và triển khai hơn rất nhiều vì kiến trúc cơ sở của nó chỉ gồm các khối tích chập
và khôi xác định Ta có thé đơn giản hóa kiến trúc của ResNet-50 như hình 2.19 bên
= |
dưới:
Hình 2.19 Kiến trúc tóm tất của mạng ResNet-50 [29]
2.4 Các nghiên cứu liên quan
Trong nhiều năm qua, nhiều nhà nghiên cứu trên thế giới đã có nhiều côngtrình nghiên cứu về các phương pháp phát hiện các bệnh về mắt nói chung và phù
gai thị nói riêng Kết quả của mỗi công trình nghiên cứu đều mang lại hiệu quả khácnhau về việc phát hiện các bệnh về mat, Chăng hạn như:
© Saba [6] đã trình bay một hệ thống tự động dựa trên học sâu dé phát hiện và
phân loại phù gai thị thông qua kiến trúc U-Net và Dense-Net.
Cách tiếp cận của tác giả đề xuất có hai giai đoạn chính Dau tiên, đĩa thi giác
và khu vực xung quanh của nó trong hình ảnh võng mạc nền được khoanh vùng và
Trang 35cắt xén dé đầu vào cho Dense-Net, phân loại dia thị là phù gai thị hoặc bình thường.Thứ hai, bao gồm tiền xử lý hình ảnh võng mạc mắt được phân loại bằng bộ lọcGabor Hình ảnh phù gai thị được xử lý trước được đưa vào U-Net đê đạt được mạng
lưới mạch máu được phân đoạn từ đó chỉ số gián đoạn mạch và chỉ số gián đoạn
mạch đến gần đĩa đệm được tính toán đề phân loại phù gai thị và là thông số tiêu
Hình 2.20 Sơ đồ mô hình đẻ xuất của Saba [6]
Hệ thống đề xuất được đánh giá trên 60 hình ảnh phủ gai thị và 40 hình ảnh
bình thường được lấy từ bộ dữ liệu STARE Kết quả thực nghiệm phân loại phù gai
thị qua Dense-Net tốt hơn nhiều về độ nhạy 98,63%, độ đặc hiệu 97.83% và độ chínhxác 99,17% Tương tự, kết quả phân loại phù gai thị nhẹ và nặng qua U-Net cũngtốt hơn nhiều vẻ độ nhạy 99,82%, độ đặc hiệu 98,65% và độ chính xác 99,89%
Trang 36° Vasseneix [7] nhằm phân biệt ảnh võng mạc phủ gai thị với ảnh võng mac
bình thường và ảnh võng mạc với các bat thường khác
Phương pháp của công trình là dùng mang phân đoạn (U-Net) dé phát hiện vi
tri của ảnh võng mạc bi phù gai thi và sử dụng mạng phân lớp dé phát hiện ảnh võng
mạc bị phù gai thị (DenseNet-I2I và DenseNet-201) được đảo tạo trước trên
ImageNet Công trình sử dụng tập dữ liệu huấn luyện: 14.341 hình ảnh (2148 vớiphù gai thị, 3037 với các bất thường đĩa thị khác, 9156 với đĩa thị bình thường) từ
19 địa điểm và 11 quốc gia Tập dữ liệu thử nghiệm: 1505 hình ảnh (360 với phù gai
thi, 532 với các bat thường đĩa thị khác, 613 với đĩa thị bình thường) từ Š trung tâm
Fundus photograprs of papiledema
from 4 participating cerkers
trong nghiên cứu của Vasseneix [7]
Tập dữ liệu đào tạo và xác thực từ 6779 bệnh nhân bao gom 14.341 bức anh:
9156 dia dém binh thuong, 2148 dia dém bi phu né và 3037 đĩa đệm có các bat
thường khác Tỷ lệ phần trăm được phân loại là bình thường nằm trong khoảng từ
9,8 đến 100%; tỷ lệ phan trăm được phân loại là có phù gai thị dao động trên các
trang web từ 0 đến 59,5% Trong tập hợp xác thực, hệ thông phân biệt đĩa bị phù névới đĩa bình thường và đĩa có bat thường không phù nẻ với AUC là 0,99 (khoảng tincậy 95% [CI], 0,98 đến 0,99) và bình thường với đĩa bất thường có AUC là 0,99
(95% CI, 0,99 đến 0,99) Trong bộ dit liệu thử nghiệm bên ngoài gồm 1505 ảnh, hệ
thống có AUC dé phát hiện phù gai thị là 0,96 (KTC 95%, 0,95 đến 0,97), độ nhạy
Trang 3796,4% (KTC 95%, 93,9 đến 98,3) và độ đặc hiệu là 84,7% (KTC 95%, 82,3 đến
87,1).
¢ Nghiên cứu của Milea [§] thực hiện so sánh hiệu suất chân đoán của hệ thống
học sâu trí tuệ nhân tạo với hiệu suất chân đoán của các chuyên gia thần kinh nhãnkhoa trong việc phân loại hình dạng đĩa thị.
Hệ thống học sâu trước đây đã được đào tạo và xác nhận trên 14.341 bức ảnhchụp đáy mắt từ 19 trung tâm quốc tế Hiệu suất của hệ thông được đánh giá trên
§00 bức ảnh đáy mắt mới (400 đĩa thị bình thường, 201 phù gai thị, 199 bất thường
đĩa thị khác) và được so sánh với kết quả của 2 chuyên gia thần kinh nhãn khoa đã xem xét độc lập cùng một van dé hình ảnh trình bày ngẫu nhiên mà không có thông
tin lâm sàng Diện tích dưới đường cong đặc tính hoạt động của máy thu, độ chính xác, độ nhạy và độ đặc hiệu đã được tính toán.
® Biousse [9] đã phát trién một hệ thông học sâu trí tuệ nhân tạo (AI-DLS) có
khả năng phân biệt “day than kinh thị giác bình thường”, “pha gai thị” (phù dia thị
giác do chứng tăng huyết áp nội sọ đã được chứng minh) và “các bất thường thần
kinh thị giác khác” trên các bức ảnh võng mạc mắt tiêu chuẩn từ một nhóm bệnh
nhân lớn, đa sắc tộc, trên toàn thé giới (Nhóm nghiên cứu BONSAT)
Việc phân loại này được chọn đề cung cấp một xét nghiệm không xâm lan, chỉphí thấp, tạo điều kiện xác định bệnh nhân ít (những người có dây thần kinh thị giác
bình thường) hoặc nhiều hơn (những người bị phù gai thị) có khả năng bị rồi loạn
thần kinh liên quan đến tý lệ mắc bệnh
Nghiên cứu đã phát triển và xác thực một hệ hồng học sâu trí tuệ nhân tao dé
tự động phân loại đĩa quang là “bình thường” hoặc “bat thường”, và đặc biệt phát
hiện “phi gai thị" hệ thống sử dung 15.846 bức anh đáy mắt kỹ thuật số (14.341
ảnh dé đào tạo và xác nhận hệ thống học sâu và 1.505 đề kiểm tra bên ngoài) từ bệnh
nhân người lớn như một phần của một tập đoàn quốc tế.
Công trình nghiên cứu này bao gồm 9.156 hình ảnh của đĩa “bình thường”,2.148 hình anh bị *'phù gai thi” va 3.037 hình ảnh có các bất thường về dia thị giác
“khác” Trong bộ dữ liệu xác thực chính, hệ thông học sâu đã phân biệt thành công
“bình thường” với các đĩa quang “bat thường” (AUC 0,99 [0,99-0,99]) và “phu gai
Trang 38thị” với “khac” (AUC 0,98 [0,98-0,98] Hiệu suất tương tự cũng được quan sát thay
trên bộ dữ liệu bên ngoài, với AUC 0,98 (0,97-0,98), độ nhạy 95,3 (93,&-96,6) và
độ đặc hiệu 86,6 (83,8-89,3) dé phát hiện "bình thường” và AUC 0,96 (0,95-0,97),
độ nhạy 96.4 (94.2- 98.1) và độ đặc hiệu §4.7 (82,6-86,7) dé phát hiện “phù gai
thị”.
e Akbar [10] đề xuất hệ thông bao gồm hai mô-đun dé phân tích mạch máu đề tính toán tỷ lệ động mạch và phân tích vùng dau day than kinh thị giác (optic nerve head) cho phù gai thị.
- Mô-đun thứ nhất sử dụng một tập hợp các đặc trưng kết hợp trong phân loại
động mach hoặc tĩnh mạch (Artery/Vein) bằng cách sử dụng SVM cùng với hạt nhân
hàm cơ sở xuyên tâm RBF cho tỷ lệ động mạch.
- Mô-đun thứ hai thực hiện phân tích vùng dây thần kinh thị giác đề tìm các
dau hiệu có thê có của phù gai thị
Giai đoạn này sử dụng các đặc trưng khác nhau cùng với SVM và RBF đề phân
loại phù gai thj.
Kết quả nghiên cứu đạt được: Mô-đun đầu tiên của phương pháp được đề xuấtcho thấy độ chính xác trung bình là 95,10%, 95,64% và 98,09% đối với hình ảnh
của INSPIRE-AVR, VICAVR và bộ dit liệu cục bộ tương ứng Mô-đun thứ hai của
phương pháp dé xuất đạt được độ chính xác trung bình lần lượt là 95,93% và 97,50%
trên STARE va bộ dữ liệu nội bộ.
© Shahzad Akbar [11] đã trình bảy một hệ thống tự động dé phát hiện và phân
loại phù gai thị thông qua phân tích hình ảnh võng mạc nên
Hệ thống được đề xuất trích xuất 23 đặc trưng, trong đó sáu đặc trưng được
trích xuất từ Gray-Level Co-occurrence Matrix (GLCM), tam đặc trưng từ sự che
khuất lề đĩa quang, ba đặc trưng dựa trên màu sắc và bảy đặc trưng mạch máu được
trích xuất Một vectơ đặc trưng bao gồm các đặc trưng này được sử dụng dé phân
loại các hình ảnh bình thường va phù né bằng cách sử dụng SVM với hạt nhân Radial
Basis Function (RBF) Các biến thé trong mach mau võng mạc, đặc tính mau sac,
độ lệch két câu cua đĩa thị giác và vùng quanh mao mach của nó và sự dao động của