BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC NGUYỄN THỊ HÀ NGHIÊN CỨU MỘT SỐ KỸ THUẬT HỌC SÂU ỨNG DỤNG TRONG BÀI TOÁN PHÂN ĐOẠN ẢNH TRÀO NGƯỢC DẠ DÀY LUẬN VĂN T
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA
TRƯỜNG ĐẠI HỌC HỒNG ĐỨC
NGUYỄN THỊ HÀ
NGHIÊN CỨU MỘT SỐ KỸ THUẬT HỌC SÂU
ỨNG DỤNG TRONG BÀI TOÁN PHÂN ĐOẠN ẢNH
TRÀO NGƯỢC DẠ DÀY
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
THANH HÓA, NĂM 2020
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Chuyên ngành: Khoa học máy tính
Mã số: 8480101
Người hướng dẫn khoa học: PGS.TS Vũ Việt Vũ
THANH HÓA, NĂM 2020
Trang 3Danh sách Hội đồng đánh giá luận văn thạc sĩ khoa học
(Theo quyết định số 1327/ QĐ- ĐHHĐ ngày 04 tháng 9 năm 2020 của Hiệu
trưởng Trường Đại học Hồng Đức)
Học hàm, học vị
trong Hội đồng
PGS.TS Phạm Thế Anh Trường Đại học Hồng Đức Chủ tịch
PGS.TS Hoàng Văn Dũng Trường ĐH Sư phạm Kỹ thuật
TS Trần Quang Diệu Học viện Chính trị Quốc gia
TS Trịnh Viết Cường Trường Đại học Hồng Đức Ủy viên
TS Nguyễn Thế Cường Trường Đại học Hồng Đức Ủy viên, Thư ký
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Nghiên cứu một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngược dạ dày” là đề tài nghiên cứu
của cá nhân tôi, dưới sự hướng dẫn của PGS.TS Vũ Việt Vũ trung thực, không trùng lặp với các khóa luận, luận văn, luận án và các công trình nghiên cứu đã công bố Trong toàn bộ nội dung nghiên cứu của luận văn, các vấn đề được trình bày đều là những tìm hiểu và nghiên cứu của chính cá nhân tôi hoặc là được trích dẫn từ các nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp
Tôi xin chịu mọi trách nhiệm và mọi hình thức kỷ luật theo quy định cho lời cam đoan này
Người cam đoan
Nguyễn Thị Hà
Trang 5LỜI CẢM ƠN
Trước tiên em xin gửi lời cảm ơn sâu sắc đến Thầy hướng dẫn, PGS.TS
Vũ Việt Vũ đã tận tình hướng dẫn, truyền đạt kiến thức, kinh nghiệm cho em trong suốt quá trình thực hiện luận văn này
Xin gửi lời cảm ơn đến quý thầy cô khoa Công nghệ thông tin, Trường Đại học Hồng Đức, những người đã truyền đạt kiến thức quý báu cho em suốt trong thời gian học tập vừa qua
Tôi xin gửi lời cảm ơn tới các đồng chí lãnh đạo, đồng nghiệp đơn vị trường THPT Hậu Lộc 2 đã tạo điều kiện và thời gian để tôi có thể hoàn thành chương trình học của mình
Sau cùng xin gửi lời cảm ơn đến gia đình, bạn bè và các bạn học viên lớp Thạc sĩ Khoa học máy tính khóa 2018-2020 đã luôn động viên, giúp đỡ trong quá trình học tập và làm luận văn
Mặc dù bản thân đã cố gắng nghiên cứu nhưng với khả năng và kiến thức có hạn nên không tránh khỏi những thiếu sót Rất mong nhận được những góp ý quý báu từ quý Thầy, Cô để luận văn được hoàn chỉnh hơn Một lần nữa em xin chân thành cảm ơn!
Trang 6
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC TỪ VIẾT TẮT vi
DANH MỤC BẢNG BIỂU vii
DANH MỤC HÌNH VẼ viii
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Mục tiêu nghiên cứu 2
3 Đối tượng và phạm vi nghiên cứu 3
3.1 Đối tượng nghiên cứu 3
3.2 Phạm vi nghiên cứu 3
4 Nội dung nghiên cứu 3
5 Phương pháp nghiên cứu 3
5.1 Phương pháp nghiên cứu lý thuyết 3
5.2 Phương pháp nghiên cứu thực nghiệm 4
6 Dự kiến kết quả đạt được 4
7 Cấu trúc của luận văn 4
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 5
1.1 TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG 5
1.2 TỔNG QUAN VỀ XỬ LÝ ẢNH 6
1.2.1 Mở đầu 6
1.2.2 Biểu diễn ảnh, các phép toán cơ bản 8
1.2.2.1 Một số hệ màu phổ biến 8
1.2.2.2 Phân loại ảnh 10
1.2.2.3 Các phép biến đổi ảnh 11
1.2.2.4 Phương pháp phát hiện biên ảnh 14
Trang 71.2.2.5 Phân vùng ảnh 16
1.3 BÀI TOÁN PHÂN ĐOẠN ẢNH TRÀO NGƯỢC DẠ DÀY 17
1.3.1 Giới thiệu bài toán 17
1.3.2 Dữ liệu trong bài toán phân đoạn ảnh trào ngược dạ dày 18
1.3.3 Phương pháp giải quyết bài toán phân đoạn ảnh 19
1.3.4 Một số công trình nghiên cứu liên quan 20
1.4 KHÁI NIỆM HỌC MÁY 22
1.5 MẠNG NƠRON NHÂN TẠO 23
1.5.1 Giới thiệu 23
1.5.2 Kiến trúc và quá trình học của mạng nơron nhân tạo 24
1.5.3 Quá trình học trong mạng nơron 27
1.6 MẠNG NƠRON HỌC SÂU 28
1.6.1 Giới thiệu tổng quan 28
1.6.2 Mạng nơron tích chập học sâu 30
1.7 KẾT LUẬN 38
CHƯƠNG 2: NGHIÊN CỨU PHƯƠNG PHÁP HỌC SÂU VÀ ỨNG DỤNG CHO BÀI TOÁN PHÂN ĐOẠN ẢNH 39
2.1 KIẾN TRÚC MẠNG MASK R-CNN VÀ U-NET 39
2.1.1 Mạng Mask R-CNN 39
a) Mạng R-CNN 39
b) Mạng Fast R-CNN 40
c) Mạng Faster R-CNN 41
d) Mạng Mask R-CNN 41
2.1.2 Mạng U-Net 44
2.2 ÁP DỤNG THUẬT TOÁN HỌC SÂU CHO BÀI TOÁN PHÂN ĐOẠN ẢNH TRÀO NGƯỢC DẠ DÀY 46
2.2.1 Bài toán phân đoạn ảnh 46
2.2.2 Kiến trúc hệ thống phân đoạn ảnh trào ngược dạ dày 47
2.3 KẾT LUẬN 48
Trang 8CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM SỬ DỤNG
MẠNG HỌC SÂU CHO BÀI TOÁN PHÂN ĐOẠN ẢNH 49
3.1 THU THẬP VÀ GÁN NHÃN DỮ LIỆU 49
3.2 THỬ NGHIỆM VÀ ĐÁNH GIÁ 54
3.2.1 Dữ liệu thực nghiệm 54
3.2.2 Yêu cầu hệ thống 55
3.2.3 Phương pháp đánh giá kết quả 56
3.2.4 Kết quả thực nghiệm và đánh giá 56
3.3 KẾT LUẬN 61
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62
Những kết quả đã thực hiện 62
Hướng phát triển tiếp theo của đề tài 62
TÀI LIỆU THAM KHẢO 63
Trang 9DANH MỤC TỪ VIẾT TẮT
ANN Artificial Neural Network Mạng nơron nhân tạo
CNN Convolutional Neural Network Mạng nơron tích chập
CT Computer Tomography Chụp cắt lớp vi tính
FNN Feed- forward Neural Network Mạng nơron chuyển tiếp
IoU Intersection over Union Giao của các vùng
LSTM Long Short Term Memory Bộ nhớ ngắn- dài
MLNN Multi Layer Neural Network Mạng nơron đa lớp
MLP Multi Layer Perceptron Perceptionron nhiều lớp
MRI Magnetic Resonance Imaging Chụp cộng hưởng từ
R-CNN Regional Convolutional Neural
RNN Recurrent Neural Network Mạng nơron hồi quy
Trang 10DANH MỤC BẢNG BIỂU
Bảng 2.1 Một số phương pháp học sâu cho phát hiện và phân đoạn đối
tượng 39
Bảng 3.1 Dữ liệu Training và Kiểm thử 54
Bảng 3.2 So sánh kết quả giữa Mask R-CNN và U-NET 57
Bảng 3.3 Một số kết quả ảnh của Mask R-CNN và U-NET 58
Bảng 3.4 Một số kết quả ảnh của Mask R-CNN và U-NET (tiếp) 59
Bảng 3.5 So sánh về thời gian huấn luyện mô hình giữa Mask R-CNN và
U-NET 60
Trang 11DANH MỤC HÌNH VẼ
Hình 1.1 Sơ đồ tổng quát của hệ thống xử lý ảnh 7
Hình 1.2 Biểu diễn hệ màu RGB bằng khối hộp lập phương 8
Hình 1.3 Hình không gian màu HSV 9
Hình 1.4 Mặt phẳng thể hiện màu theo Cb và Cr với hệ số Y’=0.5 10
Hình 1.5 Sơ đồ tổng quát một hệ thống biến đổi ảnh 11
Hình 1.6 Một số hình ảnh thành dạ dày (vùng có vấn đề được tô màu) 18
Hình 1.7 Các bước cơ bản để giải quyết bài toán phân đoạn ảnh 19
Hình 1.8 Trí tuệ nhân tạo hỗ trợ phân tích kết quả chẩn đoán hình ảnh trong chụp cắt lớp vi tính 21
Hình 1.9 Ví dụ về mạng nơron 24
Hình 1.10 Mô hình toán học của một nơron 25
Hình 1.11 Một số hàm kích hoạt dùng trong mạng nơron 25
Hình 1.12 Ví dụ về mạng nơron hồi quy 26
Hình 1.13 Kiến trúc mạng nơron tích chập do LeCun giới thiệu năm 1998 27 Hình 1.14 Ví dụ về mạng nơron sâu 29
Hình 1.15 Kiến trúc mạng CNN đơn giản 30
Hình 1.16 Minh họa quá trình kết nối địa phương trong mạng CNN 31
Hình 1.17 Ví dụ về việc tính toán các lớp cho mạng nơron tích chập 32
Hình 1.18 Đồ thị hàm ReLU 33
Hình 1.19 Hoạt động của lớp ReLU 33
Hình 1.20 Ví dụ về sử dụng max- pooling 34
Hình 1.21 Ví dụ về việc giảm kích thước của dữ liệu: từ một khối kích thước 224x224x64 sau khi giảm chúng ta sẽ được khối 112x112x64 34
Hình 1.22 Vectơ đặc trưng 35
Hình 1.23 Kết quả chẩn đoán hình ảnh 36
Hình 1.24 Quá trình huấn luyện mạng CNN 37
Hình 1.25 Học sâu trong tương quan với các mô hình khác 37
Trang 12Hình 2.1 Tổng quan các bước của phương pháp R-CNN 39
Hình 2.2 Mô hình mạng Fast R-CNN 40
Hình 2.3 Mô hình mạng Faster R-CNN 41
Hình 2.4 Giải thích kiến trúc Mask R-CNN 42
Hình 2.5 Hoạt động của Mask R-CNN 43
Hình 2.6 Mô tả cách hoạt động của khối deconvolution và unpooling 44
Hình 2.7 Kiến trúc mạng U-Net 45
Hình 2.8 Minh họa bài toán phân loại hình ảnh, phát hiện đối tượng và phân đoạn ảnh theo đối tượng 46
Hình 2.9 Ví dụ về phân đoạn ảnh 47
Hình 2.10 Mô tả chức năng tổng quát của hệ thống 47
Hình 2.11 Các bước thực hiện cho bài toán phân đoạn ảnh 48
Hình 3.1 Kết quả gán nhãn 52
Hình 3.2 Một số ví dụ về ảnh sau khi gán nhãn 54
Hình 3.3 Minh họa IoU 56
Trang 13MỞ ĐẦU
1 Tính cấp thiết của đề tài
Công nghệ thông tin được xem là một ngành mũi nhọn của các quốc gia, đặc biệt là các quốc gia đang phát triển, tiến hành công nghiệp hóa và hiện đại hoá như ở nước ta Sự bùng nổ thông tin và sự phát triển mạnh mẽ của công nghệ kỹ thuật số, yêu cầu muốn phát triển thì phải tin học hoá vào tất cả các ngành, các lĩnh vực Với sự phát triển nhanh chóng về Công nghệ thông tin đã
hỗ trợ hiệu quả các hoạt động của con người Các phần mềm hiện nay ngày càng mô phỏng được rất nhiều nghiệp vụ khó khăn, hỗ trợ cho người dùng thuận tiện sử dụng, thời gian xử lý nhanh chóng và một số nghiệp vụ được tự động hoá cao Các phần mềm giúp tiết kiệm một lượng lớn thời gian, công sức của con người, tăng độ chính xác và hiệu quả trong công việc Cuộc cách mạng lần thứ Tư đang diễn ra với trọng tâm nghiên cứu là Trí tuệ nhân tạo, Internet vạn vật (IoT) và dữ liệu lớn Trong đó Trí tuệ nhân tạo là chủ đề thu hút rất nhiều nhà nghiên cứu trên thế giới Trí tuệ nhân tạo hướng đến việc nghiên cứu và xây dựng các hệ thống xử lý thông minh giống như các hoạt động của con người trong một lĩnh vực và ngữ cảnh cụ thể nào đó
Một trong những hướng nghiên cứu đã được triển khai và mang lại hiệu quả trong thời gian gần đây là lĩnh vực Y tế thông minh Các ứng dụng có thể
kể đến như khai phá dữ liệu bệnh án điện tử, ứng dụng xử lý ảnh trong hỗ trợ chẩn đoán bệnh, theo dõi và cảnh báo sức khỏe qua hệ thống cảm biến với các thiết bị y tế Đặc biệt trong lĩnh vực xử lý ảnh được coi là lĩnh vực rất hứa hẹn và đang được quan tâm rất nhiều và đây cũng là hướng nghiên cứu tôi muốn tìm hiểu cho luận văn Thạc sĩ của mình Với các kiến thức thu thập
được và các lý giải ở trên tôi quyết định chọn đề tài “Nghiên cứu một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngƣợc dạ dày” cho luận văn Thạc sĩ của mình
Trang 14Hình 1 minh họa ví dụ về hình ảnh trào ngược dạ dày sử dụng kỹ thuật học sâu:
- Ảnh bên trái: viền màu vàng rộng hơn so với vùng khoanh bởi bác sĩ
- Ảnh giữa: viền màu vàng nhỏ hơn so với vùng khoanh bởi bác sĩ
- Ảnh bên phải: viền màu vàng gần tương đồng với vùng bác sĩ khoanh Bài toán đặt ra ở đây là phát hiện vùng ảnh gần với vùng bác sĩ đã khoanh tốt nhất có thể
Hình 1 Ví dụ về phân đoạn trong dữ liệu ảnh trào ngƣợc dạ dày
Với bài toán phân đoạn ảnh trào ngược dạ dày, quá trình chẩn đoán phụ thuộc rất nhiều vào kinh nghiệm của bác sĩ Các bác sĩ giỏi thường tập trung ở các thành phố lớn, các bệnh viện lớn nên việc xây dựng các hệ thống chẩn đoán tự động, tích hợp các tri thức chuyên gia là vấn đề có tính thực tiễn cao
Để giải quyết bài toán phân đoạn ảnh, chúng ta có thể áp dụng các phương pháp như phân cụm, sử dụng ngưỡng xám Tuy nhiên trong những năm gần đây phương pháp rất hiệu quả được nhiều người quan tâm sử dụng là phương pháp học sâu (Deep learning) Học sâu là sự mở rộng đột phá về nghiên cứu của mạng nơron nhân tạo Thay vì sử dụng mạng nơron với một
số rất ít lớp thì các mạng nơron sâu sẽ có rất nhiều lớp, giúp cho khả năng phân lớp/ dự đoán tăng lên rất đáng kể Trong luận văn của mình, tôi sẽ nghiên cứu tìm hiểu và xây dựng mô hình học phù hợp cho bài toán phân đoạn ảnh trào ngược dạ dày như đã mô tả ở trên Ý nghĩa thực tế của nghiên cứu là hỗ trợ bác sĩ trong quá trình chẩn đoán hình ảnh, phát hiện các vùng dạ dày gặp vấn đề; giảm thời gian, tăng chất lượng quá trình chẩn đoán hình ảnh của bác sĩ về các bệnh liên quan đến hiện tượng trào ngược dạ dày
2 Mục tiêu nghiên cứu
Mục tiêu của đề tài là nghiên cứu kỹ thuật học sâu, áp dụng cho bài toán phân đoạn ảnh trào ngược dạ dày
Trang 153 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
- Bài toán phân đoạn ảnh
- Nghiên cứu một số mạng học sâu cơ bản
3.2 Phạm vi nghiên cứu
- Bài toán phân đoạn ảnh trào ngược dạ dày
- Mạng học sâu, mạng U-Net, mạng Mask R-CNN
- Lập trình thử nghiệm áp dụng với tập cơ sở dữ liệu ảnh nội soi dạ dày, nghiên cứu thực nghiệm các tham số cho mạng học sâu áp dụng cho bài toán này
4 Nội dung nghiên cứu
- Tổng quan về Trí tuệ nhân tạo và thị giác máy tính: trình bày khái niệm về Trí tuệ nhân tạo và ứng dụng; thị giác máy tính; ứng dụng về xử lý ảnh trong lĩnh vực y tế
- Tổng quan về xử lý ảnh: khái niệm; biểu diễn ảnh và các phép toán cơ bản Giới thiệu bài toán phân đoạn ảnh và dữ liệu trong bài toán phân đoạn ảnh trào ngược dạ dày
- Nghiên cứu một số phương pháp học sâu: tổng quan về học máy; phương pháp mạng nơron nhân tạo; kiến trúc mạng U-Net; kiến trúc mạng Mask R-CNN
- Xây dựng ứng dụng thử nghiệm sử dụng mạng học sâu cho bài toán
phân đoạn ảnh trào ngược dạ dày
5 Phương pháp nghiên cứu
Đề tài sử dụng hai phương pháp nghiên cứu chính: phương pháp nghiên cứu lý thuyết và phương pháp nghiên cứu thực nghiệm
5.1 Phương pháp nghiên cứu lý thuyết
- Nghiên cứu các tài liệu về nhận dạng và xử lý ảnh (dữ liệu dạng ảnh), học máy, trí tuệ nhân tạo, phương pháp mạng nơron và phương pháp Deep learning
Trang 16- Nghiên cứu nguyên lý hoạt động của mạng học sâu và ứng dụng của nó trong nhận dạng mẫu
- Phân tích, đánh giá hệ thống phân đoạn ảnh trào ngược dạ dày
5.2 Phương pháp nghiên cứu thực nghiệm
- Từ các nghiên cứu lý thuyết, tiến hành xây dựng mô đun phần mềm
- Cài đặt thử nghiệm và đánh giá kết quả
- Phần mềm demo phân đoạn ảnh cho dữ liệu ảnh bệnh trào ngược dạ dày
7 Cấu trúc của luận văn
Đề tài “Nghiên cứu một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngược dạ dày” gồm 3 chương:
Chương 1- Cơ sở lý thuyết
Chương 2- Nghiên cứu phương pháp học sâu và ứng dụng cho bài toán
phân đoạn ảnh
Chương 3- Xây dựng ứng dụng thử nghiệm sử dụng mạng học sâu cho
bài toán phân đoạn ảnh
Trang 17CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1 TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG
Cuộc cách mạng công nghiệp lần thứ Tư đang diễn ra với trọng tâm nghiên cứu là Trí tuệ nhân tạo (AI: Artificial Intelligence), Internet vạn vật (IoT) và dữ liệu lớn Trong đó Trí tuệ nhân tạo là chủ đề thu hút rất nhiều nhà nghiên cứu trên thế giới Mục tiêu nghiên cứu của Trí tuệ nhân tạo là nghiên cứu và xây dựng các hệ thống xử lý thông minh giống như các hoạt động của con người trong một lĩnh vực và ngữ cảnh cụ thể nào đó Các hệ thống xử lý thông minh được hiểu là các hệ thống phần mềm thông minh hoặc phần mềm thông minh được tích hợp trên hệ thống phần cứng nào đó [23] Nghiên cứu
về Trí tuệ nhân tạo đã có từ hơn 50 năm nay, tuy nhiên hiện nay cùng với sự phát triển vượt bậc về khoa học kỹ thuật dẫn đến các hệ thống tính toán tốc độ rất cao đã làm cho những nghiên cứu về Trí tuệ nhân tạo có cơ hội phát huy hết khả năng vốn có của nó
Trí tuệ nhân tạo đang là một trong những lĩnh vực thu hút được sự quan tâm của rất nhiều nhà nghiên cứu, các tổ chức, doanh nghiệp và chính phủ Chúng tôi điểm qua một số lĩnh vực ứng dụng của Trí tuệ nhân tạo như sau:
Lĩnh vực Y tế: Có thể nói ứng dụng của AI trong việc chăm sóc sức khỏe con
người là một trong những ứng dụng rất quan trọng, bởi nó liên quan mật thiết với sự sống của chúng ta Các ví dụ về ứng dụng của AI trong y tế như:
Khai phá dữ liệu bệnh án điện tử
Hỗ trợ Bác sĩ trong chẩn đoán bệnh thông qua hình ảnh, qua phân tích dữ liệu thống kê về từng loại bệnh
Hỗ trợ phẫu thuật
Y tá ảo
Giám sát người bệnh qua camera
Hỗ trợ người bệnh trong việc đi lại (xe lăn thông minh), hỗ trợ các hoạt động khác như nhìn, truyền thông
Trang 18Lĩnh vực xử lý ngôn ngữ tự nhiên: Các hệ thống thông minh có thể nghe và
hiểu ngôn ngữ về các câu, ý nghĩa của chúng trong khi một người nói chuyện với nó Hệ thống dịch tự động, sửa lỗi chính tả tự động, hệ thống hỗ trợ phát
âm thông minh, các hệ thống phân tích và trích rút thông tin, lắng nghe mạng
xã hội và báo chí
Lĩnh vực công nghiệp: Các hệ thống xe tự lái, máy bay không người lái, rô
bốt, người máy
Lĩnh vực an ninh: Bao gồm các hệ thống giám sát thông minh qua camera,
các hệ thống phân tích hành vi bất thường qua camera, hệ thống phân tích ảnh xác định dị thường
Lĩnh vực thương mại điện tử: Trí tuệ nhân tạo được áp dụng để phân tích
các số liệu mua bán, phân tích hành vi người tiêu dùng, hỗ trợ quảng cáo theo
cá thể hóa
Tại Việt Nam hiện nay, vấn đề nghiên cứu về Trí tuệ nhân tạo đã được
áp dụng trong các lĩnh vực khác nhau và đã có những sản phẩm ứng dụng vào thực tế Một số lĩnh vực áp dụng tại Việt Nam có thể kể đến như trong Y tế, trong giáo dục, trong lĩnh vực an ninh, giám sát, trong công nghiệp Trong luận văn này, chúng tôi tập trung nghiên cứu ứng dụng của Trí tuệ nhân tạo trong lĩnh vực Y tế, cụ thể là bài toán hỗ trợ chẩn đoán bệnh qua hình ảnh
1.2 TỔNG QUAN VỀ XỬ LÝ ẢNH
1.2.1 Mở đầu
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đã phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người- máy
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như
là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của
đối tượng trong không gian và nó có thể xem như một hàm n biến
Trang 19P(c1,c2, ,cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều
Một hệ thống xử lý ảnh có thể được mô tả như sau:
Hình 1.1 Sơ đồ tổng quát của hệ thống xử lý ảnh
Bước thu nhận ảnh: tín hiệu ảnh được thu nhận và số hóa thông qua các
thiết bị cảm biến hình ảnh (camera, máy ảnh, máy quét…)
Bước tiền xử lí: làm nổi bật các đặc trưng cần quan tâm và loại bỏ sự
ảnh hưởng của nhiễu trong quá trình thu nhận ảnh, giúp ta thu được ảnh mới
có chất lượng tốt hơn phục vụ công tác lưu trữ hoặc làm tiền đề cho các bước
xử lí tiếp theo
Bước trích chọn đặc trưng: là bước quan trọng quyết định sự thành
công của một hệ thống xử lý ảnh Tùy vào bài toán cụ thể mà ta trích chọn đúng đặc trưng cần thiết và phù hợp Các đặc trưng ảnh sau khi trích chọn có thể được đưa vào cơ sở dữ liệu để lưu trữ làm tập các đặc trưng mẫu hoặc sử dụng trực tiếp trong quá trình đối sánh hoặc phân lớp ở giai đoạn sau
Bước hậu xử lý: giúp ta phân loại, nhận dạng các mẫu Ở bước này ta sẽ
xử lý dữ liệu bằng các kỹ thuật, phương pháp phân tích đặc trưng để phân loại mẫu về các nhóm có một số tính chất chung Các phương pháp phân loại, nhận dạng mẫu thường liên quan đến kĩ thuật học máy, nhờ đó hệ thống có thể “hiểu biết” ngữ nghĩa của ảnh theo từng kiểu ứng dụng khác nhau
Bước ra quyết định: là bước cuối cùng về toàn bộ quá trình xử lý ảnh, ví
dụ một quyết định có thể là nhãn của đối tượng trong ảnh
Trích chọn đặc trưng
Hậu
xử lý
Ra quyết định
Đối sánh, rút ra kết luận
Lưu trữ
Trang 201.2.2 Biểu diễn ảnh, các phép toán cơ bản
1.2.2.1 Một số hệ màu phổ biến
- Hệ màu RGB (Red-Green-Blue): trong lĩnh vực đồ họa máy tính và xử
lí ảnh, đây là hệ màu phổ biến nhất Hệ màu RGB thường được mô hình hóa bởi một khối hộp với ba chiều tương ứng cho ba màu cơ bản R, G, B [2]
Hình 1.2 Biểu diễn hệ màu RGB bằng khối hộp lập phương1
Mỗi màu trong hệ RGB được tổng hợp từ 3 màu cơ bản theo công thức:
C = R + 28G + 216B Trong đó mỗi thành phần R, G, B được giả sử có độ lớn nằm trong đoạn [0,255] Ví dụ: nếu với 3 thành phần R=255, G=B=0 thì độ lớn C=255 nên điểm ảnh sẽ là màu đỏ; màu vàng được pha trộn từ 2 màu đỏ và xanh lá cây nên R=G=255, B=0 nên độ lớn C=255+28
255+0=65536
Hệ màu RBG thích hợp để hiển thị màu trên các màn hình ti vi, máy chiếu, màn hình máy tính và một số thiết bị kĩ thuật khác như camera kĩ thuật số Tuy nhiên, hệ màu này lại không thích hợp để đặc tả các cảm nhận trực quan về màu sắc của con người Mặt khác, do tính chất “cộng màu” trong hệ RGB nên khi thực hiện các phép xử lý ta bắt buộc phải thực hiện đồng thời trên cả ba thành phần màu cơ bản, do đó làm tăng độ phức tạp tính toán Vì vậy, các hệ thống xử lý ảnh bậc cao như nhận dạng đối tượng thường phải áp dụng những kỹ thuật phức tạp để giải quyết các vấn đề về bất biến độ sáng ảnh
1 https://voer.edu.vn/m/cac-khong-gian-mau/f2ae523e
Trang 21- Hệ màu HSV (Hue Saturation - Value): là hệ màu gồm 3 giá trị
H,S,V dựa trên các đặc tính màu trực quan như sắc (tint), bóng (shade) và tông màu (tone) hoặc họ màu, độ thuần khiết và độ sáng của hình ảnh trong thực tế để biểu diễn
Hình 1.3 Hình không gian màu HSV2
Trong mô hình trên, một hệ tọa độ hình trụ được dùng để biểu diễn không gian màu [3]:
Hue: giá trị thể hiện sắc màu của hình ảnh (còn gọi là vùng màu), sắc
màu thông thường được dùng để chỉ tên gọi của màu như đỏ, lục, lam, chàm, tím… Các sắc màu khác nhau được biểu diễn trên một vòng tròn chỉ màu, giá trị từ 0 đến 3600
Staturation: giá trị thể hiện mức độ bão hòa màu Giá trị của nó để chỉ
mức độ thuần khiết của màu Nói cách khác, khi ảnh có độ bão hòa cao, màu sẽ trong và rực rỡ hơn giá trị bão hòa thấp Giá trị của S (staturation) nằm trong đoạn [0,1], trong đó S đạt giá trị cao nhất (giá trị 1) là màu tinh khiết nhất, hoàn toàn không pha trắng, nghĩa là S càng lớn thì màu càng tinh khiết, nguyên chất
Value: giá trị đo độ sáng của màu (intensity hoặc lightness) Thành
phần V có giá trị trong đoạn [0,1], với giá trị đặc biệt V=0 thì ảnh là hoàn toàn tối, ngược lại V=1 là hoàn toàn sáng Giá trị V càng lớn thì màu càng sáng
- Hệ màu YCbCr: YCbCr, Y′CbCr hoặc Y Pb / Cb Pr / Cr, cũng được
viết là YCBCR hoặc Y'CBCR, là một họ các không gian màu được sử dụng như một phần của đường dẫn hình ảnh màu trong video và hệ thống chụp ảnh kỹ
2 https://vi.wikipedia.org/wiki/Kh%C3%B4ng_gian_m%C3%A0u_HSB
Trang 22thuật số Y là thành phần luma và C B và C R là các thành phần sắc độ khác nhau của màu xanh và màu đỏ Y′ (với dấu ') được phân biệt với Y đó là độ chói, nghĩa là cường độ ánh sáng được mã hóa phi tuyến dựa trên các nguyên tắc RGB được hiệu chỉnh gamma
Các không gian màu Y′CbCr được xác định bằng phép biến đổi tọa
độ toán học từ không gian màu RGB tương ứng Nếu không gian màu RGB bên dưới là tuyệt đối thì không gian màu Y′CbCr cũng là một không gian màu tuyệt đối; ngược lại, nếu không gian RGB không xác định thì Y′CbCr cũng vậy
Hình 1.4 Mặt phẳng thể hiện màu theo Cb và Cr với hệ số Y’=0.53
1.2.2.2 Phân loại ảnh
- Ảnh màu: theo lý thuyết của Thomas, ảnh là tổ hợp từ 3 màu cơ bản:
đỏ (R), xanh lục (G), xanh lam (B) và thường thu nhận trên các dải băng tần khác nhau Với ảnh màu, cách biểu diễn cũng tương tự như với ảnh đen trắng, chỉ khác là các số tại mỗi phần tử của ma trận biểu diễn cho ba màu riêng rẽ gồm: đỏ (red), lục (green) và lam (blue) Để biểu diễn cho một điểm ảnh màu cần 24 bit, 24 bit này được chia thành ba khoảng 8 bit Mỗi màu cũng phân thành L cấp màu khác nhau (thường L=256) Mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính
- Ảnh đa cấp xám: là ảnh chỉ chứa các mức xám Mức xám hay màu
xám được định nghĩa là một điểm ảnh màu khi trộn 3 thành phần R,G,B với cường độ như nhau (R=G=B) Do mỗi thành phần màu có giá trị trong đoạn [0,255] nên ta có 256 mức xám [2]
3 https://vi.wikipedia.org/wiki/YcbCr
Trang 23- Ảnh nhị phân: giá trị xám của tất cả các điểm ảnh chỉ nhận giá trị 1
hoặc 0, như vậy mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bởi 1 bit Ảnh nhị phân thường được dùng để biểu diễn, phân biệt sự xuất hiện đối tượng và nền trong mỗi bức ảnh
- Ảnh hồng ngoại (infrared image): biểu diễn trực quan quang phổ, liên
quan đến phổ điện từ Cung cấp thông tin ảnh dựa trên phản xạ ánh sáng hồng ngoại hoặc bức xạ hồng ngoại mà các đối tượng trong khung nhìn phát ra Dựa vào khả năng thu nhận phản xạ hoặc bức xạ hồng ngoại mà các loại camera hồng ngoại có thể thu được các hình ảnh trong điều kiện không có ánh sáng hoặc ánh sáng kém
1.2.2.3 Các phép biến đổi ảnh
Biến đổi ảnh là việc áp dụng phương pháp nào đó để biến đổi ảnh đầu vào I nhằm thu được kết quả đầu ra I’ mong muốn
Hình 1.5 Sơ đồ tổng quát một hệ thống biến đổi ảnh [3]
Biến đổi ảnh là một bước xử lý quan trọng trong các hệ thống xử lý ảnh nhằm làm nổi trội các thông tin mà hệ thống cần quan tâm
Lược đồ ảnh (Histogram)
Lược đồ ảnh (Histogram) là một đồ thị biểu diễn tần số xuất hiện của cường độ sáng điểm ảnh theo các mức Lược đồ Histogram của một hình ảnh biểu diễn lược đồ về sự phân bố các mức cường độ xám của một bức ảnh
Cân bằng lược đồ ảnh (Histogram equalization)
Kỹ thuật cân bằng lược đồ ảnh thường được sử dụng để tăng cường độ tương phản ảnh Ví dụ, ảnh có lược đồ đa mức xám có giá trị điểm ảnh không phân bố đều trong khoảng [0,255] mà chỉ tập trung trong một khoảng ngắn nào đó thì nhiều khả năng ảnh có độ tương phản thấp Mục tiêu của cân bằng
𝑓(𝐼) biến đổi ảnh
I ảnh đầu và o
I’
ảnh đầu ra
Trang 24lược đồ ảnh là giúp biến đổi một ảnh có mức độ tương phản thấp thành ảnh có mức độ tương phản cao hơn bằng cách giãn đều giá trị cường độ sáng của các điểm ảnh phân bố trên vùng giá trị rộng hơn mà vẫn giữ được nội dung chính của bức ảnh [3]
Điều chỉnh mức sáng (Brightness adjustment)
Điều chỉnh mức sáng là kĩ thuật cơ bản trong lĩnh vực xử lý ảnh
Ví dụ, thay đổi mức sáng ảnh tại mỗi pixel theo công thức I’(x,y)=I(x,y)+b, với b là hệ số điều chỉnh mức sáng của điểm ảnh, nếu b>0 thì thực hiện tăng mức sáng của điểm ảnh, nếu b<0 thì thực hiện giảm độ sáng của điểm ảnh [3]
Đối với ảnh màu trong hệ không gian màu RGB, việc thay đổi mức sáng
có thể thực hiện thay đổi trên từng kênh màu R-G-B Đối với hệ không gian màu HSV thì V là thành phần biễu diễn mức sáng, việc thay đổi mức sáng tương ứng với thay đổi thành phần V tương ứng [3]
Điều chỉnh độ tương phản
Độ tương phản là mức độ chênh lệch về độ sáng giữa các đối tượng lân cận nhau hoặc với các vùng ảnh nền trong ảnh Nếu mức độ chênh lệch về độ sáng của đối tượng với vùng nền càng thấp thì ta nói ảnh đó có độ tương phản thấp và ngược lại độ chênh lệch càng cao có nghĩa là độ tương phản càng cao Một ảnh có độ tương phản thấp thì khi quan sát thấy ảnh ít có sự sắc nét giữa các thành phần sáng- tối [3]
Biến đổi ảnh màu và đa mức xám
Chuyển đổi ảnh RGB thành ảnh đa mức xám:
Ảnh RGB được chuyển qua ảnh đa mức xám được thực hiện theo công thức:
Gray =0.2989R +0.5870G + 0.1140B Trong đó R là thành phần màu đỏ Red, G thành phần màu xanh Green và
B là thành phần màu xanh lam Blue [3]
Chuyển đổi ảnh giữa các hệ màu RGB và HSV [3]
Chuyển đổi RGB sang HSV: việc chuyển đổi ảnh từ hệ màu RGB sang
Trang 25HSV tương ứng với việc kết hợp các giá trị màu thành phần R,G,B để tính các thành phần màu Hue (H), Saturation (S) và Value (V) Trước hết, thực hiện chuyển đổi cường độ sáng từ miền giá trị [0…255] thành [0 1] bằng cách chia các giá trị thành phần màu R,G,B cho 255:
{
Sau đó, thực hiện tính toán các giá trị cực đại, cực tiểu và độ chênh lệch của giá trị màu thực tế của ảnh trong các giá trị R’,G’,B’ theo công thức:
{ ( ( )) Tiếp theo, giá trị thành phần Hue được tính theo công thức:
{
’
Tính giá trị thành phần độ sáng Value được xác định theo giá trị cực đại
V = M
Giá trị thành phần Saturation được xác định theo công thức:
{
Chuyển đổi HSV sang RGB: trong ảnh màu theo định dạng HSV, các
thành phần màu có giá trị trong các miền xác định như sau Hue [ ], Saturation [ ], Value V [ ]
+ Tính giá trị màu C (Chroma) trong không gian màu HSV theo công thức:
Trang 26
+ Thực hiện tính các giá trị màu (R1,G1,B1) trong không gian màu RGB tương ứng với giá trị Hue và Chroma bằng cách sử dụng giá trị trung gian X cho thành phần lớn nhất của màu này với các công thức:
( 1)
( )
{
( ) ( ) ( ) ( ) ( ) ( ) ( ) Các thành phần màu R,G,B được xác định bằng cách thêm vào mỗi
thành phần màu một giá trị m, với m=V-C là mức độ chênh lệch giữa độ
sáng V và Chroma tức là mức chênh lệch giá trị màu thực tế giữa hai không gian màu
( ) ( )
Chuyển đổi ảnh hệ màu RGB và YCbCr: đầu tiên, tính giá trị của thành
phần Y Công thức chuyển đổi:
( ) ( )
1.2.2.4 Phương pháp phát hiện biên ảnh
Phát hiện biên là một công cụ quan trọng trong xử lý ảnh Đường biên là nơi mà các điểm ảnh lân cận nhau có cường độ thay đổi mạnh một cách đột ngột Đường biên là một loại đặc trưng cục bộ tiêu biểu trong phân tích, nhận dạng ảnh [1]
Để phát hiện biên ảnh người ta thường dùng một số kỹ thuật sau:
- Kỹ thuật phát hiện biên Gradient
Đạo hàm bậc nhất theo hướng ngang và dọc được tính theo công thức:
Trang 27[ ]
[
]Biên độ của gradient vector hay độ lớn tổng cộng của giá trị đạo hàm nằm tại biên là kết hợp của cả hai giá trị này theo công thức:
√ Hướng của gradient vector được xác định theo công thức:
( ) Hướng của biên sẽ vuông góc với hướng của gradient vector này [1]
- Kỹ thuật phát hiện biên Canny
Phương pháp này sử dụng hai mức ngưỡng cao và thấp Ban đầu ta dùng mức ngưỡng cao để tìm điểm bắt đầu của biên, sau đó chúng ta xác định hướng phát triển của biên dựa vào các điểm ảnh liên tiếp có giá trị lớn hơn mức ngưỡng thấp Ta chỉ loại bỏ các điểm có giá trị nhỏ hơn mức ngưỡng thấp Các đường biên yếu sẽ được chọn nếu chúng được liên kết với các đường biên khỏe
Phương pháp Canny bao gồm các bước sau:
Bước 1 Trước hết dùng bộ lọc Gaussian để làm mịn ảnh
( ) ( ) ( )Bước 2 Sau đó tính toán gradient của đường biên của ảnh đã được làm mịn
[ ] ( ) ( )[ ] ( ) ( )Bước 3 Tiếp theo là loại bỏ những điểm không phải là cực đại
Bước 4 Bước cuối cùng là loại bỏ những giá trị nhỏ hơn mức ngưỡng [1]
Trang 281.2.2.5 Phân vùng ảnh
Phân vùng ảnh là bước then chốt trong xử lý ảnh Phân vùng ảnh thường được sử dụng để xác định vị trí các đối tượng, đường biên (đường thẳng, cong ) Nói cách khác, phân vùng ảnh là một quá trình gán nhãn (assigning a lablel) cho mỗi điểm ảnh trong một bức ảnh, các điểm ảnh trong cùng một nhãn sẽ có những đặc tính giống nhau về màu sắc, cường
độ hoặc kết cấu của ảnh
Vùng ảnh là một trong hai thuộc tính của ảnh, vùng ảnh là tính chất bề mặt Đường bao quanh một vùng ảnh (Boundary) là biên ảnh Các điểm trong một vùng ảnh có độ biến thiên giá trị mức xám tương đối đồng đều hay tính kết cấu tương đồng Phân vùng ảnh theo các dạng sau: Phân vùng theo ngưỡng biên độ; Phân vùng theo miền đồng nhất; Phương pháp tách cây tứ phân; Phương pháp cục bộ; Phương pháp tổng hợp; Phân vùng theo kết cấu
bề mặt
Kết quả của việc phân vùng ảnh là tập hợp các phân đoạn (segments) bao gồm có thể là toàn bộ bức ảnh hoặc tập hợp các đường biên chiết xuất từ hình ảnh Các điểm ảnh trong cùng một vùng có đặc tính tương tự nhau về màu sắc, cường độ hoặc kết cấu Các vùng lân cận thì khác nhau đáng kể về các đặc trưng trên
Phân vùng ảnh là một bước quan trọng trong nhiều lĩnh vực khác nhau như lĩnh vực hình ảnh y tế (medical imaging), phát hiện và nhận dạng đối tượng, hệ thống camera giám sát, hệ thống điều khiển giao thông… Kỹ thuật này là bước tiền xử lý quan trọng trong hầu hết các hệ thống xử lý ảnh Kết quả phân vùng tốt sẽ giúp cho quá trình xử lý về sau đạt hiệu quả cao hơn, nhằm tiết kiệm về chi phí tính toán, thời gian cũng như tăng độ chính xác của các ứng dụng trên
Trong lĩnh vực hình ảnh y tế, các kỹ thuật hình ảnh y tế như chụp
CT (Computer Tomography), chụp MRI (Magnetic Resonance Imaging), chụp X-Quang, USG (Ultrasound) không thể thiếu để có thể phân tích chính
Trang 29xác nhiều bệnh lý khác nhau, qua đó hỗ trợ đáng kể bác sĩ trong việc chẩn đoán bệnh Trong quá trình phân tích, người chẩn đoán cần phân tích trích xuất các đường biên cần thiết, các bề mặt hoặc các bộ phận cơ thể ra khỏi bức hình, kỹ thuật này được gọi là phân vùng (segmentation) Các phân vùng và đường biên này là rất quan trọng đối với các bác sĩ Chính vì vậy trong vài thập kỷ qua, nhiều thuật toán phân vùng ảnh y tế được đề xuất nhằm tăng độ chính xác trong quá trình phân vùng ảnh
1.3 BÀI TOÁN PHÂN ĐOẠN ẢNH TRÀO NGƢỢC DẠ DÀY
1.3.1 Giới thiệu bài toán
Như đã trình bày ở trên, nội dung luận văn tập trung vào nghiên cứu các
kỹ thuật của Trí tuệ nhân tạo, cụ thể là các thuật toán học máy để xây dựng hệ thống phân đoạn ảnh hỗ trợ bác sĩ trong quá trình chẩn đoán bệnh liên quan đến bệnh trào ngược dạ dày Trào ngược dạ dày là căn bệnh xảy ra rất phổ biến trong xã hội hiện đại ngày nay Bệnh trào ngược dạ dày là tình trạng các chất dịch như pepsin, dịch mật… trong dạ dày lẫn với thức ăn trào ngược lên thực quản gây tổn thương hầu, họng và thực quản Bệnh gây tổn hại nghiêm trọng đến sức khỏe của bệnh nhân cũng như ảnh hưởng đến các hoạt động thường nhật hàng ngày Về bản chất, trào ngược dạ dày không phải căn bệnh quá nguy hiểm Tuy nhiên nếu không được phát hiện sớm và điều trị đúng cách, bệnh sẽ gây ra nhiều biến chứng nguy hiểm như đau dạ dày, hẹp thực quản, giãn thực quản, thậm chí nặng nhất là ung thư thực quản…
Phân đoạn ảnh trào ngược dạ dày là bài toán phân loại bệnh có tính ứng dụng cao Phân đoạn ảnh trào ngược dạ dày ngoài việc có thể phát triển giải pháp phát hiện bệnh, còn tập trung vào việc nhận dạng ra những vùng dạ dày
có vấn đề, để có thể thông báo cho bệnh nhân và bác sĩ điều trị tình trạng sức khỏe, các hướng dẫn, các triệu chứng của bệnh, giai đoạn bệnh, quyết định phác đồ điều trị phù hợp, hiệu quả và hợp lý, đảm bảo an toàn cho bệnh nhân Một số hình ảnh ví dụ được cho trong hình 1.6, trong đó các vùng tổn thương do bệnh được khoanh vùng bởi các đường nét liền màu xanh bao quanh
Trang 30
Hình 1.6 Một số hình ảnh thành dạ dày (vùng có vấn đề đƣợc tô màu)
Phân đoạn ảnh không phải là một vấn đề quá mới, tuy nhiên những kết quả nghiên cứu và xây dựng một mô hình hệ thống cụ thể (như hệ thống phân đoạn ảnh trào ngược dạ dày) vẫn còn những hạn chế nhất định để có thể phát triển ứng dụng trong thực tế Các hệ thống hỗ trợ nhận dạng có thể quan sát, phát hiện được khi bệnh khá rõ ràng Tuy nhiên trong thực tế, bài toán này
sẽ trở nên khó khăn khi số lượng dữ liệu lớn, biểu hiện phức tạp Hầu hết tất
cả những tổn thương ở dạ dày đều có hình ảnh với những dấu hiệu khá giống nhau, chính vì vậy để phân đoạn ảnh trào ngược dạ dày thực quản với những căn bệnh dạ dày khác, ta cần phải có kỹ thuật phân đoạn ảnh với độ chính xác cao
1.3.2 Dữ liệu trong bài toán phân đoạn ảnh trào ngƣợc dạ dày
Dữ liệu trong bài toán phân đoạn ảnh trào ngược dạ dày là các hình ảnh
y tế chụp thành dạ dày, liên quan đến bệnh trào ngược dạ dày Các ảnh chụp thành dạ dày này được chia làm 2 vùng: vùng bình thường và vùng có vấn đề với các biểu hiện trên hình ảnh có sự khác nhau (có thể là rõ nét hoặc chưa)
Trang 31Trong đó vùng có vấn đề là vùng bị loét, chảy máu, mủ, sưng do các bệnh liên quan đến hiện tượng trào ngược dạ dày hoặc do bệnh trào ngược dạ dày tác động và gây nên
Sau khi thu thập được số lượng ảnh đủ lớn, ta sẽ gán nhãn cho ảnh và sử dụng các thuật toán liên quan để xác định vùng có vấn đề cho mỗi ảnh Từ đó
hỗ trợ bác sĩ trong việc chẩn đoán bệnh trào ngược dạ dày hoặc các bệnh liên quan đến hiện tượng trào ngược dạ dày
1.3.3 Phương pháp giải quyết bài toán phân đoạn ảnh
Để giải quyết bài toán phân đoạn ảnh chúng ta có các bước cơ bản như hình 1.7:
Hình 1.7 Các bước cơ bản để giải quyết bài toán phân đoạn ảnh
Bước thu thập dữ liệu ảnh: Tại bước thu thập dữ liệu ảnh chúng ta phải
có đủ ảnh cho bài toán Pha này chúng ta phải sưu tầm, thu thập ảnh từ các nguồn như bệnh viện, trên các trang mạng Tham khảo ý kiến bác sỹ trong quá trình thu thập ảnh để có bộ ảnh chất lượng
Bước tiền xử lý: Chúng ta phải quy chuẩn ảnh về kích thước phù hợp,
gán nhãn bằng sự trợ giúp của các bác sĩ chuyên khoa, trong trường hợp bài
Thu thập dữ liệu ảnh
Tiền xử lý, gán nhãn và chuẩn bị dữ liệu
Lựa chọn và xây dựng mô hình huấn luyện
Kiểm thử, đánh giá và phân tích kết quả
Trang 32toán này là khoanh vùng các khu vực tổn thương, lưu trữ và chuẩn bị hai tập
dữ liệu cho pha huấn luyện và pha kiểm thử
Bước lựa chọn và xây dựng mô hình huấn luyện: Bước này là bước
cũng rất quan trọng Chúng ta sẽ sử dụng mô hình học máy trong lĩnh vực AI
để tiến hành học từ dữ liệu mẫu rồi sinh ra mô hình kiểm thử Các phương pháp học máy có thể áp dụng trong trường hợp này như Support Vector Machine, Fuzzy Clustering, Deep learning Trong đó phương pháp học sâu ứng dụng cho bài toán này đã được chứng minh đạt kết quả tốt trong thời gian gần đây và chúng tôi sẽ nghiên cứu cụ thể phương pháp học sâu này trong chương 2
Bước kiểm thử, đánh giá và phân tích kết quả: Nhằm xác định chất
lượng đạt được và phân tích cũng như đánh giá chất lượng của nó
1.3.4 Một số công trình nghiên cứu liên quan
Vấn đề ứng dụng phân tích dữ liệu ảnh áp dụng trong lĩnh vực Y tế được quan tâm nhiều trong thời gian gần đây Chúng ta có thể gặp rất nhiều các công trình nghiên cứu trong việc phân đoạn ảnh cho các bài toán trong y học Trong [5], các tác giả đã đề xuất sử dụng kỹ thuật học sâu cho bài toán phân đoạn ảnh MR tim Trong nghiên cứu này các mạng CNN sâu và U-Net
đã được thử nghiệm và so sánh kết quả Trong [6], mạng nơron hồi quy đã được sử dụng cho bài toán phân đoạn ảnh CT và MRI tuyến tụy; trong [7], các tác giả sử dụng mạng nơron học sâu cho bài toán phân đoạn ảnh 3D MR của não; trong [8], kỹ thuật mạng CNN và RNN cho bài toán phân đoạn ảnh liên quan đến bệnh nấm cũng đã được nghiên cứu và trình bày; trong [10], bài toán phân đoạn ảnh được áp dụng cho ảnh X-Quang ngực để phát hiện các khối u; vấn đề phân đoạn ảnh áp dụng cho hỗ trợ chẩn đoán ung thư phổi [13]; các bài toán về phân đoạn ảnh áp dụng trong ảnh MRI não [4], [17]
Hiện nay việc ứng dụng công nghệ thông tin vào hỗ trợ chăm sóc sức
khỏe y tế là một chủ đề thu hút rất nhiều doanh nghiệp, tổ chức, có thể
Trang 33kể đến như hệ thống hỗ trợ chẩn đoán bệnh IBM Watson Health 4 , đây là
hệ thống đã thương mại hóa tại nhiều bệnh viện trên thế giới
AI Rad Companion Chest CT 5 là hệ thống ứng dụng trí tuệ nhân tạo để
hỗ trợ nhân viên y tế phân tích kết quả chẩn đoán hình ảnh trong chụp cắt lớp vi tính Sử dụng các hình ảnh chụp cắt lớp lồng ngực, phần mềm
AI Rad Companion Chest CT có thể phân biệt các cấu trúc khác nhau của lồng ngực, làm nổi bật từng cấu trúc, đánh dấu và đo lường các bất thường tiềm ẩn (hình 1.8)
Hình 1.8 Trí tuệ nhân tạo hỗ trợ phân tích kết quả chẩn đoán hình ảnh
trong chụp cắt lớp vi tính5
Ứng dụng này còn có thể được áp dụng trên các bộ phận như tim, phổi, động mạch chủ và đốt sống Hệ thống tự động chuyển những phát hiện thành một báo cáo định lượng, giúp giảm khối lượng công việc của các kỹ thuật viên, đồng thời tăng cường tính chính xác trong việc chẩn đoán hình ảnh
Ở Việt Nam cũng đã có một số phần mềm ứng dụng được triển khai:
Ứng dụng “AI Trợ lý bác sĩ trong chẩn đoán hình ảnh” 6
Trang 34thị giác máy tính và công nghệ xử lý ngôn ngữ tự nhiên nhằm hỗ trợ nâng cao khả năng chẩn đoán và điều trị bệnh Ứng dụng này được sử dụng nhằm hỗ trợ nâng cao khả năng chẩn đoán hình ảnh chính xác trong X-Quang, chụp cắt lớp vi tính (CT), chụp cộng hưởng từ (MRI)
Sau hai tháng hoạt động, các bác sĩ đã gán nhãn tổng số gần 68.000 ảnh X-Quang tim phổi với độ chính xác cao gần như tuyệt đối Ngoài ra, cũng đã thu thập thành công hơn 800 ngàn ảnh X-Quang từ dữ liệu cộng đồng thế giới
để tiến hành phân loại, gán nhãn
DeepClinics 7 là dự án phát triển và ứng dụng công nghệ Trí tuệ nhân tạo (AI) và máy học (ML- Machine Learning) vào việc tạo ra hệ thống khám, chẩn đoán bệnh và chăm sóc sức khoẻ, phòng ngừa bệnh về da DeepClinics ứng dụng vào việc:
Chẩn đoán sơ bộ các bệnh da và các triệu chứng trên da của các bệnh bên trong cơ thể
Phân tích sâu các loại bệnh quan trọng (trứng cá, ung thư da, nấm, móng, rối loạn sắc tố, virus, STD, da già trước tuổi…)
Theo dõi tiến triển của bệnh (với người khám/ tự kiểm tra nhiều lần)
Đề xuất phác đồ điều trị (cho bác sỹ duyệt)
Cung cấp kiến thức và thông tin (khai hóa, giáo dục về y tế)
1.4 KHÁI NIỆM HỌC MÁY
Học máy (machine learning) là một lĩnh vực của Trí tuệ nhân tạo nhằm nghiên cứu và phát triển các phần mềm dùng cho máy tính hoặc hệ thống máy tính mà có thể giải quyết các tình huống cụ thể giống như con người Máy tính hoặc hệ thống máy tính ở đây hiểu rằng là bất kỳ hệ thống nào mà có thể nạp và sử dụng phần mềm để thực hiện trên nó [9] Các tình huống ở đây được hiểu là những bài toán chúng ta gặp trên thực tế như nhận dạng đối tượng, phát hiện dị thường, giám sát hành vi, dự đoán giá cả thị trường
7 https://deepclinics.com/
Trang 35Trong lĩnh vực học máy hiện nay có ba phương pháp học cơ bản bao
gồm: học có giám sát, học nửa giám sát và học không giám sát
Ý tưởng cơ bản của học có giám sát có thể hiểu như chúng ta cung cấp
một số mẫu (ví dụ dữ liệu, hình ảnh, đồ vật đã gán nhãn) cho hệ thống học và
sau đó thiết kế phát triển các hệ thống có thể suy diễn hay nhận biết mẫu mới
nằm trong phạm vi nó đã được học
Học nửa giám sát khác với học có giám sát là các thuật toán dạng này chỉ
sử dụng một lượng nhỏ các mẫu (các dữ liệu đã gán nhãn) để học và suy luận
ra các dữ liệu chưa gán nhãn
Học không giám sát không dùng bất kỳ dữ liệu gán nhãn nào mà chỉ sử
dụng các dữ liệu không có nhãn để thực hiện yêu cầu nào đó, chẳng hạn như
phân cụm các dữ liệu hay phát hiện các dị thường trong dữ liệu hay ngoại suy
Trong phần tiếp theo của chương, chúng tôi nghiên cứu và trình bày
phương pháp học máy có giám sát gồm phương pháp mạng nơron nhân tạo và
phương pháp học sâu- một phát triển mở rộng của mạng nơron nhân tạo
1.5 MẠNG NƠRON NHÂN TẠO
1.5.1 Giới thiệu
Mạng nơron nhân tạo (Artificial Neural Network- ANN) là mô hình xử
lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh con
người, bao gồm số lượng lớn các nơron được liên kết với nhau để xử lý
thông tin ANN giống như bộ não con người, được học bởi kinh nghiệm
(thông qua huấn luyện), có khả năng lưu giữ những kinh nghiệm hiểu biết
(tri thức) và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa
biết (unseen data) Mạng nơron nhân tạo có lịch sử tương đối lâu đời, một
trong những mạng nơron đầu tiên có tên là Perceptron được đề xuất từ
những năm 50 của thế kỷ XX
Như đã trình bày, mạng nơron nhân tạo nói chung thuộc lớp bài toán học
có giám sát nên có thể áp dụng cho những dạng bài toán phân lớp và dự đoán
Trang 36Trong phần tiếp theo của chương, chúng tôi sẽ giới thiệu về mạng nơron nhân tạo, mạng nơron sâu và áp dụng giải bài toán phân đoạn ảnh trào ngược dạ dày
1.5.2 Kiến trúc và quá trình học của mạng nơron nhân tạo
Kiến trúc mạng nơron gồm tập các nút gọi là các neural và tập các cung (hay gọi là cạnh) để kết nối các neural với nhau Tập các nút được tổ chức thành các lớp, gọi là các layer Trong đó có một lớp đầu vào (input layer) và một lớp đầu ra (output layer), các lớp giữa gọi là các lớp ẩn (hidden layer) Mỗi cung kết nối 2 cặp neural với nhau, trong đó có một nút vào và một nút
ra, nhằm mục đích truyền thông tin và xử lý tính giá trị mới cho các nút ra Mối liên hệ giữa các nút được thể hiện thông qua hàm biến đổi (gọi là hàm truyền) cùng với bộ trọng số tương ứng cho hàm truyền Thông thường, kiến trúc của một mạng nơron được xây dựng trước và các trọng số được xác định trong quá trình huấn luyện Tuy nhiên, một số kiểu mạng có khả năng thay đổi để thích ứng (adaptive) với dữ liệu thực tế và có thể tự thay đổi cấu trúc của mạng dựa trên các thông tin trong quá trình học, một số kiểu như mạng nơron đa lớp (MLNN- Multi layer neural network) và mạng nơron tự
tổ chức (SOM- Self organizing maps) Hình 1.9 cho ta ví dụ về một mạng nơron đơn giản
Hình 1.9 Ví dụ về mạng nơron8
8 https://becominghuman.ai/neural-networks-the-rudiments-and-the-mathematics-d85bff42b361
Trang 37Hình 1.10 minh họa cho một nơron Mỗi nơron sẽ có các tín hiệu vào, sử dụng một hàm kích hoạt và đầu ra
Hình 1.10 Mô hình toán học của một nơron9
Mỗi nơ ron trước tiên tính toán tổng các giá trị đầu vào:
∑
Tiếp theo áp dụng hàm kích hoạt g để được đầu ra:
( ) (∑
) Hàm kích hoạt phải đảm bảo về tổng thể mạng nơron có thể mô tả hàm phi tuyến Hình 1.11 mô tả một số hàm kích hoạt thường sử dụng trong mạng nơron
Hình 1.11 Một số hàm kích hoạt dùng trong mạng nơron10
9
https://www.researchgate.net/figure/A-simple-mathematical-model-for-a-neuron-The-units-output-activation-is-where-ai_fig1_301464497
Trang 38Sau khi xác định mô hình toán học cho mỗi nơron, nhiệm vụ tiếp theo là liên kết chúng thành một mạng Có hai cách chính để thực hiện công việc này Loại thứ nhất là mạng lan truyền thẳng, trong đó các nút kết nối theo một hướng duy nhất, nó hình thành một đồ thị có hướng Mỗi nút nhận được tín hiệu đến nó và chuyển tiếp đến nút tiếp theo, không có vòng lặp trong trường hợp này Loại thứ hai là mạng nơ ron hồi quy, cho phép đầu ra của mỗi nút quay trở lại đầu vào của chính nút đó Trong lịch sử phát triển của mạng nơron có hai loại mạng nơron được quan tâm nghiên cứu nhiều nhất là mạng nơron hồi quy (Recurrent Neural Networks) và mạng nơron tích chập (Convolutional Neural Networks)
Hình 1.12 minh họa một mạng nơron hồi quy trong đó có lớp vào (Input Layer), lớp ẩn (Hidden Layer) và lớp ra (Output Layer) Mạng nơron truyền thẳng đặc trưng chính là mạng nơron tích chập Loại mạng này phù hợp cho các đầu vào có dạng ma trận, trong khi mạng nơron hồi quy phù hợp cho các bài toán đầu vào ở dạng chuỗi như trong lĩnh vực xử lý ngôn ngữ tự nhiên, xử
lý tiếng nói
Hình 1.12 Ví dụ về mạng nơron hồi quy11
Mạng nơron tích chập được giới thiệu vào cuối những năm 80 của thế kỷ
10
https://www.quora.com/What-is-ReLU-and-Softmax
11 https://www.skynettoday.com/overviews/neural-net-history