Nghiên cứu một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngược dạ dày

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA TRƯỜNG ĐẠI HỌC HỒNG ĐỨC NGUYỄN THỊ HÀ NGHIÊN CỨU MỘT SỐ KỸ THUẬT HỌC SÂU ỨNG DỤNG TRONG BÀI TOÁN PHÂN ĐOẠN ẢNH TRÀO NGƯỢC DẠ DÀY LUẬN VĂN T

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA

TRƯỜNG ĐẠI HỌC HỒNG ĐỨC

NGUYỄN THỊ HÀ

NGHIÊN CỨU MỘT SỐ KỸ THUẬT HỌC SÂU

ỨNG DỤNG TRONG BÀI TOÁN PHÂN ĐOẠN ẢNH

TRÀO NGƯỢC DẠ DÀY

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

THANH HÓA, NĂM 2020

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Chuyên ngành: Khoa học máy tính

Mã số: 8480101

Người hướng dẫn khoa học: PGS.TS Vũ Việt Vũ

THANH HÓA, NĂM 2020

Trang 3

Danh sách Hội đồng đánh giá luận văn thạc sĩ khoa học

(Theo quyết định số 1327/ QĐ- ĐHHĐ ngày 04 tháng 9 năm 2020 của Hiệu

trưởng Trường Đại học Hồng Đức)

Học hàm, học vị

trong Hội đồng

PGS.TS Phạm Thế Anh Trường Đại học Hồng Đức Chủ tịch

PGS.TS Hoàng Văn Dũng Trường ĐH Sư phạm Kỹ thuật

TS Trần Quang Diệu Học viện Chính trị Quốc gia

TS Trịnh Viết Cường Trường Đại học Hồng Đức Ủy viên

TS Nguyễn Thế Cường Trường Đại học Hồng Đức Ủy viên, Thư ký

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn “Nghiên cứu một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngược dạ dày” là đề tài nghiên cứu

của cá nhân tôi, dưới sự hướng dẫn của PGS.TS Vũ Việt Vũ trung thực, không trùng lặp với các khóa luận, luận văn, luận án và các công trình nghiên cứu đã công bố Trong toàn bộ nội dung nghiên cứu của luận văn, các vấn đề được trình bày đều là những tìm hiểu và nghiên cứu của chính cá nhân tôi hoặc là được trích dẫn từ các nguồn tài liệu có ghi tham khảo rõ ràng, hợp pháp

Tôi xin chịu mọi trách nhiệm và mọi hình thức kỷ luật theo quy định cho lời cam đoan này

Người cam đoan

Nguyễn Thị Hà

Trang 5

LỜI CẢM ƠN

Trước tiên em xin gửi lời cảm ơn sâu sắc đến Thầy hướng dẫn, PGS.TS

Vũ Việt Vũ đã tận tình hướng dẫn, truyền đạt kiến thức, kinh nghiệm cho em trong suốt quá trình thực hiện luận văn này

Xin gửi lời cảm ơn đến quý thầy cô khoa Công nghệ thông tin, Trường Đại học Hồng Đức, những người đã truyền đạt kiến thức quý báu cho em suốt trong thời gian học tập vừa qua

Tôi xin gửi lời cảm ơn tới các đồng chí lãnh đạo, đồng nghiệp đơn vị trường THPT Hậu Lộc 2 đã tạo điều kiện và thời gian để tôi có thể hoàn thành chương trình học của mình

Sau cùng xin gửi lời cảm ơn đến gia đình, bạn bè và các bạn học viên lớp Thạc sĩ Khoa học máy tính khóa 2018-2020 đã luôn động viên, giúp đỡ trong quá trình học tập và làm luận văn

Mặc dù bản thân đã cố gắng nghiên cứu nhưng với khả năng và kiến thức có hạn nên không tránh khỏi những thiếu sót Rất mong nhận được những góp ý quý báu từ quý Thầy, Cô để luận văn được hoàn chỉnh hơn Một lần nữa em xin chân thành cảm ơn!

Trang 6

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC TỪ VIẾT TẮT vi

DANH MỤC BẢNG BIỂU vii

DANH MỤC HÌNH VẼ viii

MỞ ĐẦU 1

1 Tính cấp thiết của đề tài 1

2 Mục tiêu nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 3

3.1 Đối tượng nghiên cứu 3

3.2 Phạm vi nghiên cứu 3

4 Nội dung nghiên cứu 3

5 Phương pháp nghiên cứu 3

5.1 Phương pháp nghiên cứu lý thuyết 3

5.2 Phương pháp nghiên cứu thực nghiệm 4

6 Dự kiến kết quả đạt được 4

7 Cấu trúc của luận văn 4

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 5

1.1 TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG 5

1.2 TỔNG QUAN VỀ XỬ LÝ ẢNH 6

1.2.1 Mở đầu 6

1.2.2 Biểu diễn ảnh, các phép toán cơ bản 8

1.2.2.1 Một số hệ màu phổ biến 8

1.2.2.2 Phân loại ảnh 10

1.2.2.3 Các phép biến đổi ảnh 11

1.2.2.4 Phương pháp phát hiện biên ảnh 14

Trang 7

1.2.2.5 Phân vùng ảnh 16

1.3 BÀI TOÁN PHÂN ĐOẠN ẢNH TRÀO NGƯỢC DẠ DÀY 17

1.3.1 Giới thiệu bài toán 17

1.3.2 Dữ liệu trong bài toán phân đoạn ảnh trào ngược dạ dày 18

1.3.3 Phương pháp giải quyết bài toán phân đoạn ảnh 19

1.3.4 Một số công trình nghiên cứu liên quan 20

1.4 KHÁI NIỆM HỌC MÁY 22

1.5 MẠNG NƠRON NHÂN TẠO 23

1.5.1 Giới thiệu 23

1.5.2 Kiến trúc và quá trình học của mạng nơron nhân tạo 24

1.5.3 Quá trình học trong mạng nơron 27

1.6 MẠNG NƠRON HỌC SÂU 28

1.6.1 Giới thiệu tổng quan 28

1.6.2 Mạng nơron tích chập học sâu 30

1.7 KẾT LUẬN 38

CHƯƠNG 2: NGHIÊN CỨU PHƯƠNG PHÁP HỌC SÂU VÀ ỨNG DỤNG CHO BÀI TOÁN PHÂN ĐOẠN ẢNH 39

2.1 KIẾN TRÚC MẠNG MASK R-CNN VÀ U-NET 39

2.1.1 Mạng Mask R-CNN 39

a) Mạng R-CNN 39

b) Mạng Fast R-CNN 40

c) Mạng Faster R-CNN 41

d) Mạng Mask R-CNN 41

2.1.2 Mạng U-Net 44

2.2 ÁP DỤNG THUẬT TOÁN HỌC SÂU CHO BÀI TOÁN PHÂN ĐOẠN ẢNH TRÀO NGƯỢC DẠ DÀY 46

2.2.1 Bài toán phân đoạn ảnh 46

2.2.2 Kiến trúc hệ thống phân đoạn ảnh trào ngược dạ dày 47

2.3 KẾT LUẬN 48

Trang 8

CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG THỬ NGHIỆM SỬ DỤNG

MẠNG HỌC SÂU CHO BÀI TOÁN PHÂN ĐOẠN ẢNH 49

3.1 THU THẬP VÀ GÁN NHÃN DỮ LIỆU 49

3.2 THỬ NGHIỆM VÀ ĐÁNH GIÁ 54

3.2.1 Dữ liệu thực nghiệm 54

3.2.2 Yêu cầu hệ thống 55

3.2.3 Phương pháp đánh giá kết quả 56

3.2.4 Kết quả thực nghiệm và đánh giá 56

3.3 KẾT LUẬN 61

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 62

 Những kết quả đã thực hiện 62

 Hướng phát triển tiếp theo của đề tài 62

TÀI LIỆU THAM KHẢO 63

Trang 9

DANH MỤC TỪ VIẾT TẮT

ANN Artificial Neural Network Mạng nơron nhân tạo

CNN Convolutional Neural Network Mạng nơron tích chập

CT Computer Tomography Chụp cắt lớp vi tính

FNN Feed- forward Neural Network Mạng nơron chuyển tiếp

IoU Intersection over Union Giao của các vùng

LSTM Long Short Term Memory Bộ nhớ ngắn- dài

MLNN Multi Layer Neural Network Mạng nơron đa lớp

MLP Multi Layer Perceptron Perceptionron nhiều lớp

MRI Magnetic Resonance Imaging Chụp cộng hưởng từ

R-CNN Regional Convolutional Neural

RNN Recurrent Neural Network Mạng nơron hồi quy

Trang 10

DANH MỤC BẢNG BIỂU

Bảng 2.1 Một số phương pháp học sâu cho phát hiện và phân đoạn đối

tượng 39

Bảng 3.1 Dữ liệu Training và Kiểm thử 54

Bảng 3.2 So sánh kết quả giữa Mask R-CNN và U-NET 57

Bảng 3.3 Một số kết quả ảnh của Mask R-CNN và U-NET 58

Bảng 3.4 Một số kết quả ảnh của Mask R-CNN và U-NET (tiếp) 59

Bảng 3.5 So sánh về thời gian huấn luyện mô hình giữa Mask R-CNN và

U-NET 60

Trang 11

DANH MỤC HÌNH VẼ

Hình 1.1 Sơ đồ tổng quát của hệ thống xử lý ảnh 7

Hình 1.2 Biểu diễn hệ màu RGB bằng khối hộp lập phương 8

Hình 1.3 Hình không gian màu HSV 9

Hình 1.4 Mặt phẳng thể hiện màu theo Cb và Cr với hệ số Y’=0.5 10

Hình 1.5 Sơ đồ tổng quát một hệ thống biến đổi ảnh 11

Hình 1.6 Một số hình ảnh thành dạ dày (vùng có vấn đề được tô màu) 18

Hình 1.7 Các bước cơ bản để giải quyết bài toán phân đoạn ảnh 19

Hình 1.8 Trí tuệ nhân tạo hỗ trợ phân tích kết quả chẩn đoán hình ảnh trong chụp cắt lớp vi tính 21

Hình 1.9 Ví dụ về mạng nơron 24

Hình 1.10 Mô hình toán học của một nơron 25

Hình 1.11 Một số hàm kích hoạt dùng trong mạng nơron 25

Hình 1.12 Ví dụ về mạng nơron hồi quy 26

Hình 1.13 Kiến trúc mạng nơron tích chập do LeCun giới thiệu năm 1998 27 Hình 1.14 Ví dụ về mạng nơron sâu 29

Hình 1.15 Kiến trúc mạng CNN đơn giản 30

Hình 1.16 Minh họa quá trình kết nối địa phương trong mạng CNN 31

Hình 1.17 Ví dụ về việc tính toán các lớp cho mạng nơron tích chập 32

Hình 1.18 Đồ thị hàm ReLU 33

Hình 1.19 Hoạt động của lớp ReLU 33

Hình 1.20 Ví dụ về sử dụng max- pooling 34

Hình 1.21 Ví dụ về việc giảm kích thước của dữ liệu: từ một khối kích thước 224x224x64 sau khi giảm chúng ta sẽ được khối 112x112x64 34

Hình 1.22 Vectơ đặc trưng 35

Hình 1.23 Kết quả chẩn đoán hình ảnh 36

Hình 1.24 Quá trình huấn luyện mạng CNN 37

Hình 1.25 Học sâu trong tương quan với các mô hình khác 37

Trang 12

Hình 2.1 Tổng quan các bước của phương pháp R-CNN 39

Hình 2.2 Mô hình mạng Fast R-CNN 40

Hình 2.3 Mô hình mạng Faster R-CNN 41

Hình 2.4 Giải thích kiến trúc Mask R-CNN 42

Hình 2.5 Hoạt động của Mask R-CNN 43

Hình 2.6 Mô tả cách hoạt động của khối deconvolution và unpooling 44

Hình 2.7 Kiến trúc mạng U-Net 45

Hình 2.8 Minh họa bài toán phân loại hình ảnh, phát hiện đối tượng và phân đoạn ảnh theo đối tượng 46

Hình 2.9 Ví dụ về phân đoạn ảnh 47

Hình 2.10 Mô tả chức năng tổng quát của hệ thống 47

Hình 2.11 Các bước thực hiện cho bài toán phân đoạn ảnh 48

Hình 3.1 Kết quả gán nhãn 52

Hình 3.2 Một số ví dụ về ảnh sau khi gán nhãn 54

Hình 3.3 Minh họa IoU 56

Trang 13

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Công nghệ thông tin được xem là một ngành mũi nhọn của các quốc gia, đặc biệt là các quốc gia đang phát triển, tiến hành công nghiệp hóa và hiện đại hoá như ở nước ta Sự bùng nổ thông tin và sự phát triển mạnh mẽ của công nghệ kỹ thuật số, yêu cầu muốn phát triển thì phải tin học hoá vào tất cả các ngành, các lĩnh vực Với sự phát triển nhanh chóng về Công nghệ thông tin đã

hỗ trợ hiệu quả các hoạt động của con người Các phần mềm hiện nay ngày càng mô phỏng được rất nhiều nghiệp vụ khó khăn, hỗ trợ cho người dùng thuận tiện sử dụng, thời gian xử lý nhanh chóng và một số nghiệp vụ được tự động hoá cao Các phần mềm giúp tiết kiệm một lượng lớn thời gian, công sức của con người, tăng độ chính xác và hiệu quả trong công việc Cuộc cách mạng lần thứ Tư đang diễn ra với trọng tâm nghiên cứu là Trí tuệ nhân tạo, Internet vạn vật (IoT) và dữ liệu lớn Trong đó Trí tuệ nhân tạo là chủ đề thu hút rất nhiều nhà nghiên cứu trên thế giới Trí tuệ nhân tạo hướng đến việc nghiên cứu và xây dựng các hệ thống xử lý thông minh giống như các hoạt động của con người trong một lĩnh vực và ngữ cảnh cụ thể nào đó

Một trong những hướng nghiên cứu đã được triển khai và mang lại hiệu quả trong thời gian gần đây là lĩnh vực Y tế thông minh Các ứng dụng có thể

kể đến như khai phá dữ liệu bệnh án điện tử, ứng dụng xử lý ảnh trong hỗ trợ chẩn đoán bệnh, theo dõi và cảnh báo sức khỏe qua hệ thống cảm biến với các thiết bị y tế Đặc biệt trong lĩnh vực xử lý ảnh được coi là lĩnh vực rất hứa hẹn và đang được quan tâm rất nhiều và đây cũng là hướng nghiên cứu tôi muốn tìm hiểu cho luận văn Thạc sĩ của mình Với các kiến thức thu thập

được và các lý giải ở trên tôi quyết định chọn đề tài “Nghiên cứu một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngƣợc dạ dày” cho luận văn Thạc sĩ của mình

Trang 14

Hình 1 minh họa ví dụ về hình ảnh trào ngược dạ dày sử dụng kỹ thuật học sâu:

- Ảnh bên trái: viền màu vàng rộng hơn so với vùng khoanh bởi bác sĩ

- Ảnh giữa: viền màu vàng nhỏ hơn so với vùng khoanh bởi bác sĩ

- Ảnh bên phải: viền màu vàng gần tương đồng với vùng bác sĩ khoanh Bài toán đặt ra ở đây là phát hiện vùng ảnh gần với vùng bác sĩ đã khoanh tốt nhất có thể

Hình 1 Ví dụ về phân đoạn trong dữ liệu ảnh trào ngƣợc dạ dày

Với bài toán phân đoạn ảnh trào ngược dạ dày, quá trình chẩn đoán phụ thuộc rất nhiều vào kinh nghiệm của bác sĩ Các bác sĩ giỏi thường tập trung ở các thành phố lớn, các bệnh viện lớn nên việc xây dựng các hệ thống chẩn đoán tự động, tích hợp các tri thức chuyên gia là vấn đề có tính thực tiễn cao

Để giải quyết bài toán phân đoạn ảnh, chúng ta có thể áp dụng các phương pháp như phân cụm, sử dụng ngưỡng xám Tuy nhiên trong những năm gần đây phương pháp rất hiệu quả được nhiều người quan tâm sử dụng là phương pháp học sâu (Deep learning) Học sâu là sự mở rộng đột phá về nghiên cứu của mạng nơron nhân tạo Thay vì sử dụng mạng nơron với một

số rất ít lớp thì các mạng nơron sâu sẽ có rất nhiều lớp, giúp cho khả năng phân lớp/ dự đoán tăng lên rất đáng kể Trong luận văn của mình, tôi sẽ nghiên cứu tìm hiểu và xây dựng mô hình học phù hợp cho bài toán phân đoạn ảnh trào ngược dạ dày như đã mô tả ở trên Ý nghĩa thực tế của nghiên cứu là hỗ trợ bác sĩ trong quá trình chẩn đoán hình ảnh, phát hiện các vùng dạ dày gặp vấn đề; giảm thời gian, tăng chất lượng quá trình chẩn đoán hình ảnh của bác sĩ về các bệnh liên quan đến hiện tượng trào ngược dạ dày

2 Mục tiêu nghiên cứu

Mục tiêu của đề tài là nghiên cứu kỹ thuật học sâu, áp dụng cho bài toán phân đoạn ảnh trào ngược dạ dày

Trang 15

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Bài toán phân đoạn ảnh

- Nghiên cứu một số mạng học sâu cơ bản

3.2 Phạm vi nghiên cứu

- Bài toán phân đoạn ảnh trào ngược dạ dày

- Mạng học sâu, mạng U-Net, mạng Mask R-CNN

- Lập trình thử nghiệm áp dụng với tập cơ sở dữ liệu ảnh nội soi dạ dày, nghiên cứu thực nghiệm các tham số cho mạng học sâu áp dụng cho bài toán này

4 Nội dung nghiên cứu

- Tổng quan về Trí tuệ nhân tạo và thị giác máy tính: trình bày khái niệm về Trí tuệ nhân tạo và ứng dụng; thị giác máy tính; ứng dụng về xử lý ảnh trong lĩnh vực y tế

- Tổng quan về xử lý ảnh: khái niệm; biểu diễn ảnh và các phép toán cơ bản Giới thiệu bài toán phân đoạn ảnh và dữ liệu trong bài toán phân đoạn ảnh trào ngược dạ dày

- Nghiên cứu một số phương pháp học sâu: tổng quan về học máy; phương pháp mạng nơron nhân tạo; kiến trúc mạng U-Net; kiến trúc mạng Mask R-CNN

- Xây dựng ứng dụng thử nghiệm sử dụng mạng học sâu cho bài toán

phân đoạn ảnh trào ngược dạ dày

5 Phương pháp nghiên cứu

Đề tài sử dụng hai phương pháp nghiên cứu chính: phương pháp nghiên cứu lý thuyết và phương pháp nghiên cứu thực nghiệm

5.1 Phương pháp nghiên cứu lý thuyết

- Nghiên cứu các tài liệu về nhận dạng và xử lý ảnh (dữ liệu dạng ảnh), học máy, trí tuệ nhân tạo, phương pháp mạng nơron và phương pháp Deep learning

Trang 16

- Nghiên cứu nguyên lý hoạt động của mạng học sâu và ứng dụng của nó trong nhận dạng mẫu

- Phân tích, đánh giá hệ thống phân đoạn ảnh trào ngược dạ dày

5.2 Phương pháp nghiên cứu thực nghiệm

- Từ các nghiên cứu lý thuyết, tiến hành xây dựng mô đun phần mềm

- Cài đặt thử nghiệm và đánh giá kết quả

- Phần mềm demo phân đoạn ảnh cho dữ liệu ảnh bệnh trào ngược dạ dày

7 Cấu trúc của luận văn

Đề tài “Nghiên cứu một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngược dạ dày” gồm 3 chương:

Chương 1- Cơ sở lý thuyết

Chương 2- Nghiên cứu phương pháp học sâu và ứng dụng cho bài toán

phân đoạn ảnh

Chương 3- Xây dựng ứng dụng thử nghiệm sử dụng mạng học sâu cho

bài toán phân đoạn ảnh

Trang 17

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1 TỔNG QUAN VỀ TRÍ TUỆ NHÂN TẠO VÀ ỨNG DỤNG

Cuộc cách mạng công nghiệp lần thứ Tư đang diễn ra với trọng tâm nghiên cứu là Trí tuệ nhân tạo (AI: Artificial Intelligence), Internet vạn vật (IoT) và dữ liệu lớn Trong đó Trí tuệ nhân tạo là chủ đề thu hút rất nhiều nhà nghiên cứu trên thế giới Mục tiêu nghiên cứu của Trí tuệ nhân tạo là nghiên cứu và xây dựng các hệ thống xử lý thông minh giống như các hoạt động của con người trong một lĩnh vực và ngữ cảnh cụ thể nào đó Các hệ thống xử lý thông minh được hiểu là các hệ thống phần mềm thông minh hoặc phần mềm thông minh được tích hợp trên hệ thống phần cứng nào đó [23] Nghiên cứu

về Trí tuệ nhân tạo đã có từ hơn 50 năm nay, tuy nhiên hiện nay cùng với sự phát triển vượt bậc về khoa học kỹ thuật dẫn đến các hệ thống tính toán tốc độ rất cao đã làm cho những nghiên cứu về Trí tuệ nhân tạo có cơ hội phát huy hết khả năng vốn có của nó

Trí tuệ nhân tạo đang là một trong những lĩnh vực thu hút được sự quan tâm của rất nhiều nhà nghiên cứu, các tổ chức, doanh nghiệp và chính phủ Chúng tôi điểm qua một số lĩnh vực ứng dụng của Trí tuệ nhân tạo như sau:

Lĩnh vực Y tế: Có thể nói ứng dụng của AI trong việc chăm sóc sức khỏe con

người là một trong những ứng dụng rất quan trọng, bởi nó liên quan mật thiết với sự sống của chúng ta Các ví dụ về ứng dụng của AI trong y tế như:

 Khai phá dữ liệu bệnh án điện tử

 Hỗ trợ Bác sĩ trong chẩn đoán bệnh thông qua hình ảnh, qua phân tích dữ liệu thống kê về từng loại bệnh

 Hỗ trợ phẫu thuật

 Y tá ảo

 Giám sát người bệnh qua camera

 Hỗ trợ người bệnh trong việc đi lại (xe lăn thông minh), hỗ trợ các hoạt động khác như nhìn, truyền thông

Trang 18

Lĩnh vực xử lý ngôn ngữ tự nhiên: Các hệ thống thông minh có thể nghe và

hiểu ngôn ngữ về các câu, ý nghĩa của chúng trong khi một người nói chuyện với nó Hệ thống dịch tự động, sửa lỗi chính tả tự động, hệ thống hỗ trợ phát

âm thông minh, các hệ thống phân tích và trích rút thông tin, lắng nghe mạng

xã hội và báo chí

Lĩnh vực công nghiệp: Các hệ thống xe tự lái, máy bay không người lái, rô

bốt, người máy

Lĩnh vực an ninh: Bao gồm các hệ thống giám sát thông minh qua camera,

các hệ thống phân tích hành vi bất thường qua camera, hệ thống phân tích ảnh xác định dị thường

Lĩnh vực thương mại điện tử: Trí tuệ nhân tạo được áp dụng để phân tích

các số liệu mua bán, phân tích hành vi người tiêu dùng, hỗ trợ quảng cáo theo

cá thể hóa

Tại Việt Nam hiện nay, vấn đề nghiên cứu về Trí tuệ nhân tạo đã được

áp dụng trong các lĩnh vực khác nhau và đã có những sản phẩm ứng dụng vào thực tế Một số lĩnh vực áp dụng tại Việt Nam có thể kể đến như trong Y tế, trong giáo dục, trong lĩnh vực an ninh, giám sát, trong công nghiệp Trong luận văn này, chúng tôi tập trung nghiên cứu ứng dụng của Trí tuệ nhân tạo trong lĩnh vực Y tế, cụ thể là bài toán hỗ trợ chẩn đoán bệnh qua hình ảnh

1.2 TỔNG QUAN VỀ XỬ LÝ ẢNH

1.2.1 Mở đầu

Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đã phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người- máy

Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như

là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của

đối tượng trong không gian và nó có thể xem như một hàm n biến

Trang 19

P(c1,c2, ,cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều

Một hệ thống xử lý ảnh có thể được mô tả như sau:

Hình 1.1 Sơ đồ tổng quát của hệ thống xử lý ảnh

Bước thu nhận ảnh: tín hiệu ảnh được thu nhận và số hóa thông qua các

thiết bị cảm biến hình ảnh (camera, máy ảnh, máy quét…)

Bước tiền xử lí: làm nổi bật các đặc trưng cần quan tâm và loại bỏ sự

ảnh hưởng của nhiễu trong quá trình thu nhận ảnh, giúp ta thu được ảnh mới

có chất lượng tốt hơn phục vụ công tác lưu trữ hoặc làm tiền đề cho các bước

xử lí tiếp theo

Bước trích chọn đặc trưng: là bước quan trọng quyết định sự thành

công của một hệ thống xử lý ảnh Tùy vào bài toán cụ thể mà ta trích chọn đúng đặc trưng cần thiết và phù hợp Các đặc trưng ảnh sau khi trích chọn có thể được đưa vào cơ sở dữ liệu để lưu trữ làm tập các đặc trưng mẫu hoặc sử dụng trực tiếp trong quá trình đối sánh hoặc phân lớp ở giai đoạn sau

Bước hậu xử lý: giúp ta phân loại, nhận dạng các mẫu Ở bước này ta sẽ

xử lý dữ liệu bằng các kỹ thuật, phương pháp phân tích đặc trưng để phân loại mẫu về các nhóm có một số tính chất chung Các phương pháp phân loại, nhận dạng mẫu thường liên quan đến kĩ thuật học máy, nhờ đó hệ thống có thể “hiểu biết” ngữ nghĩa của ảnh theo từng kiểu ứng dụng khác nhau

Bước ra quyết định: là bước cuối cùng về toàn bộ quá trình xử lý ảnh, ví

dụ một quyết định có thể là nhãn của đối tượng trong ảnh

Trích chọn đặc trưng

Hậu

xử lý

Ra quyết định

Đối sánh, rút ra kết luận

Lưu trữ

Trang 20

1.2.2 Biểu diễn ảnh, các phép toán cơ bản

1.2.2.1 Một số hệ màu phổ biến

- Hệ màu RGB (Red-Green-Blue): trong lĩnh vực đồ họa máy tính và xử

lí ảnh, đây là hệ màu phổ biến nhất Hệ màu RGB thường được mô hình hóa bởi một khối hộp với ba chiều tương ứng cho ba màu cơ bản R, G, B [2]

Hình 1.2 Biểu diễn hệ màu RGB bằng khối hộp lập phương1

Mỗi màu trong hệ RGB được tổng hợp từ 3 màu cơ bản theo công thức:

C = R + 28G + 216B Trong đó mỗi thành phần R, G, B được giả sử có độ lớn nằm trong đoạn [0,255] Ví dụ: nếu với 3 thành phần R=255, G=B=0 thì độ lớn C=255 nên điểm ảnh sẽ là màu đỏ; màu vàng được pha trộn từ 2 màu đỏ và xanh lá cây nên R=G=255, B=0 nên độ lớn C=255+28

255+0=65536

Hệ màu RBG thích hợp để hiển thị màu trên các màn hình ti vi, máy chiếu, màn hình máy tính và một số thiết bị kĩ thuật khác như camera kĩ thuật số Tuy nhiên, hệ màu này lại không thích hợp để đặc tả các cảm nhận trực quan về màu sắc của con người Mặt khác, do tính chất “cộng màu” trong hệ RGB nên khi thực hiện các phép xử lý ta bắt buộc phải thực hiện đồng thời trên cả ba thành phần màu cơ bản, do đó làm tăng độ phức tạp tính toán Vì vậy, các hệ thống xử lý ảnh bậc cao như nhận dạng đối tượng thường phải áp dụng những kỹ thuật phức tạp để giải quyết các vấn đề về bất biến độ sáng ảnh

1 https://voer.edu.vn/m/cac-khong-gian-mau/f2ae523e

Trang 21

- Hệ màu HSV (Hue Saturation - Value): là hệ màu gồm 3 giá trị

H,S,V dựa trên các đặc tính màu trực quan như sắc (tint), bóng (shade) và tông màu (tone) hoặc họ màu, độ thuần khiết và độ sáng của hình ảnh trong thực tế để biểu diễn

Hình 1.3 Hình không gian màu HSV2

Trong mô hình trên, một hệ tọa độ hình trụ được dùng để biểu diễn không gian màu [3]:

 Hue: giá trị thể hiện sắc màu của hình ảnh (còn gọi là vùng màu), sắc

màu thông thường được dùng để chỉ tên gọi của màu như đỏ, lục, lam, chàm, tím… Các sắc màu khác nhau được biểu diễn trên một vòng tròn chỉ màu, giá trị từ 0 đến 3600

 Staturation: giá trị thể hiện mức độ bão hòa màu Giá trị của nó để chỉ

mức độ thuần khiết của màu Nói cách khác, khi ảnh có độ bão hòa cao, màu sẽ trong và rực rỡ hơn giá trị bão hòa thấp Giá trị của S (staturation) nằm trong đoạn [0,1], trong đó S đạt giá trị cao nhất (giá trị 1) là màu tinh khiết nhất, hoàn toàn không pha trắng, nghĩa là S càng lớn thì màu càng tinh khiết, nguyên chất

 Value: giá trị đo độ sáng của màu (intensity hoặc lightness) Thành

phần V có giá trị trong đoạn [0,1], với giá trị đặc biệt V=0 thì ảnh là hoàn toàn tối, ngược lại V=1 là hoàn toàn sáng Giá trị V càng lớn thì màu càng sáng

- Hệ màu YCbCr: YCbCr, Y′CbCr hoặc Y Pb / Cb Pr / Cr, cũng được

viết là YCBCR hoặc Y'CBCR, là một họ các không gian màu được sử dụng như một phần của đường dẫn hình ảnh màu trong video và hệ thống chụp ảnh kỹ

2 https://vi.wikipedia.org/wiki/Kh%C3%B4ng_gian_m%C3%A0u_HSB

Trang 22

thuật số Y là thành phần luma và C B và C R là các thành phần sắc độ khác nhau của màu xanh và màu đỏ Y′ (với dấu ') được phân biệt với Y đó là độ chói, nghĩa là cường độ ánh sáng được mã hóa phi tuyến dựa trên các nguyên tắc RGB được hiệu chỉnh gamma

Các không gian màu Y′CbCr được xác định bằng phép biến đổi tọa

độ toán học từ không gian màu RGB tương ứng Nếu không gian màu RGB bên dưới là tuyệt đối thì không gian màu Y′CbCr cũng là một không gian màu tuyệt đối; ngược lại, nếu không gian RGB không xác định thì Y′CbCr cũng vậy

Hình 1.4 Mặt phẳng thể hiện màu theo Cb và Cr với hệ số Y’=0.53

1.2.2.2 Phân loại ảnh

- Ảnh màu: theo lý thuyết của Thomas, ảnh là tổ hợp từ 3 màu cơ bản:

đỏ (R), xanh lục (G), xanh lam (B) và thường thu nhận trên các dải băng tần khác nhau Với ảnh màu, cách biểu diễn cũng tương tự như với ảnh đen trắng, chỉ khác là các số tại mỗi phần tử của ma trận biểu diễn cho ba màu riêng rẽ gồm: đỏ (red), lục (green) và lam (blue) Để biểu diễn cho một điểm ảnh màu cần 24 bit, 24 bit này được chia thành ba khoảng 8 bit Mỗi màu cũng phân thành L cấp màu khác nhau (thường L=256) Mỗi khoảng này biểu diễn cho cường độ sáng của một trong các màu chính

- Ảnh đa cấp xám: là ảnh chỉ chứa các mức xám Mức xám hay màu

xám được định nghĩa là một điểm ảnh màu khi trộn 3 thành phần R,G,B với cường độ như nhau (R=G=B) Do mỗi thành phần màu có giá trị trong đoạn [0,255] nên ta có 256 mức xám [2]

3 https://vi.wikipedia.org/wiki/YcbCr

Trang 23

- Ảnh nhị phân: giá trị xám của tất cả các điểm ảnh chỉ nhận giá trị 1

hoặc 0, như vậy mỗi điểm ảnh trong ảnh nhị phân được biểu diễn bởi 1 bit Ảnh nhị phân thường được dùng để biểu diễn, phân biệt sự xuất hiện đối tượng và nền trong mỗi bức ảnh

- Ảnh hồng ngoại (infrared image): biểu diễn trực quan quang phổ, liên

quan đến phổ điện từ Cung cấp thông tin ảnh dựa trên phản xạ ánh sáng hồng ngoại hoặc bức xạ hồng ngoại mà các đối tượng trong khung nhìn phát ra Dựa vào khả năng thu nhận phản xạ hoặc bức xạ hồng ngoại mà các loại camera hồng ngoại có thể thu được các hình ảnh trong điều kiện không có ánh sáng hoặc ánh sáng kém

1.2.2.3 Các phép biến đổi ảnh

Biến đổi ảnh là việc áp dụng phương pháp nào đó để biến đổi ảnh đầu vào I nhằm thu được kết quả đầu ra I’ mong muốn

Hình 1.5 Sơ đồ tổng quát một hệ thống biến đổi ảnh [3]

Biến đổi ảnh là một bước xử lý quan trọng trong các hệ thống xử lý ảnh nhằm làm nổi trội các thông tin mà hệ thống cần quan tâm

Lược đồ ảnh (Histogram)

Lược đồ ảnh (Histogram) là một đồ thị biểu diễn tần số xuất hiện của cường độ sáng điểm ảnh theo các mức Lược đồ Histogram của một hình ảnh biểu diễn lược đồ về sự phân bố các mức cường độ xám của một bức ảnh

Cân bằng lược đồ ảnh (Histogram equalization)

Kỹ thuật cân bằng lược đồ ảnh thường được sử dụng để tăng cường độ tương phản ảnh Ví dụ, ảnh có lược đồ đa mức xám có giá trị điểm ảnh không phân bố đều trong khoảng [0,255] mà chỉ tập trung trong một khoảng ngắn nào đó thì nhiều khả năng ảnh có độ tương phản thấp Mục tiêu của cân bằng

𝑓(𝐼) biến đổi ảnh

I ảnh đầu và o

I’

ảnh đầu ra

Trang 24

lược đồ ảnh là giúp biến đổi một ảnh có mức độ tương phản thấp thành ảnh có mức độ tương phản cao hơn bằng cách giãn đều giá trị cường độ sáng của các điểm ảnh phân bố trên vùng giá trị rộng hơn mà vẫn giữ được nội dung chính của bức ảnh [3]

Điều chỉnh mức sáng (Brightness adjustment)

Điều chỉnh mức sáng là kĩ thuật cơ bản trong lĩnh vực xử lý ảnh

Ví dụ, thay đổi mức sáng ảnh tại mỗi pixel theo công thức I’(x,y)=I(x,y)+b, với b là hệ số điều chỉnh mức sáng của điểm ảnh, nếu b>0 thì thực hiện tăng mức sáng của điểm ảnh, nếu b<0 thì thực hiện giảm độ sáng của điểm ảnh [3]

Đối với ảnh màu trong hệ không gian màu RGB, việc thay đổi mức sáng

có thể thực hiện thay đổi trên từng kênh màu R-G-B Đối với hệ không gian màu HSV thì V là thành phần biễu diễn mức sáng, việc thay đổi mức sáng tương ứng với thay đổi thành phần V tương ứng [3]

Điều chỉnh độ tương phản

Độ tương phản là mức độ chênh lệch về độ sáng giữa các đối tượng lân cận nhau hoặc với các vùng ảnh nền trong ảnh Nếu mức độ chênh lệch về độ sáng của đối tượng với vùng nền càng thấp thì ta nói ảnh đó có độ tương phản thấp và ngược lại độ chênh lệch càng cao có nghĩa là độ tương phản càng cao Một ảnh có độ tương phản thấp thì khi quan sát thấy ảnh ít có sự sắc nét giữa các thành phần sáng- tối [3]

Biến đổi ảnh màu và đa mức xám

 Chuyển đổi ảnh RGB thành ảnh đa mức xám:

Ảnh RGB được chuyển qua ảnh đa mức xám được thực hiện theo công thức:

Gray =0.2989R +0.5870G + 0.1140B Trong đó R là thành phần màu đỏ Red, G thành phần màu xanh Green và

B là thành phần màu xanh lam Blue [3]

 Chuyển đổi ảnh giữa các hệ màu RGB và HSV [3]

Chuyển đổi RGB sang HSV: việc chuyển đổi ảnh từ hệ màu RGB sang

Trang 25

HSV tương ứng với việc kết hợp các giá trị màu thành phần R,G,B để tính các thành phần màu Hue (H), Saturation (S) và Value (V) Trước hết, thực hiện chuyển đổi cường độ sáng từ miền giá trị [0…255] thành [0 1] bằng cách chia các giá trị thành phần màu R,G,B cho 255:

{

Sau đó, thực hiện tính toán các giá trị cực đại, cực tiểu và độ chênh lệch của giá trị màu thực tế của ảnh trong các giá trị R’,G’,B’ theo công thức:

{ ( ( )) Tiếp theo, giá trị thành phần Hue được tính theo công thức:

{

’

Tính giá trị thành phần độ sáng Value được xác định theo giá trị cực đại

V = M

Giá trị thành phần Saturation được xác định theo công thức:

{

Chuyển đổi HSV sang RGB: trong ảnh màu theo định dạng HSV, các

thành phần màu có giá trị trong các miền xác định như sau Hue [ ], Saturation [ ], Value V [ ]

+ Tính giá trị màu C (Chroma) trong không gian màu HSV theo công thức:

Trang 26

+ Thực hiện tính các giá trị màu (R1,G1,B1) trong không gian màu RGB tương ứng với giá trị Hue và Chroma bằng cách sử dụng giá trị trung gian X cho thành phần lớn nhất của màu này với các công thức:

( 1)

( )

{

( ) ( ) ( ) ( ) ( ) ( ) ( ) Các thành phần màu R,G,B được xác định bằng cách thêm vào mỗi

thành phần màu một giá trị m, với m=V-C là mức độ chênh lệch giữa độ

sáng V và Chroma tức là mức chênh lệch giá trị màu thực tế giữa hai không gian màu

( ) ( )

 Chuyển đổi ảnh hệ màu RGB và YCbCr: đầu tiên, tính giá trị của thành

phần Y Công thức chuyển đổi:

( ) ( )

1.2.2.4 Phương pháp phát hiện biên ảnh

Phát hiện biên là một công cụ quan trọng trong xử lý ảnh Đường biên là nơi mà các điểm ảnh lân cận nhau có cường độ thay đổi mạnh một cách đột ngột Đường biên là một loại đặc trưng cục bộ tiêu biểu trong phân tích, nhận dạng ảnh [1]

Để phát hiện biên ảnh người ta thường dùng một số kỹ thuật sau:

- Kỹ thuật phát hiện biên Gradient

Đạo hàm bậc nhất theo hướng ngang và dọc được tính theo công thức:

Trang 27

[ ]

[

]Biên độ của gradient vector hay độ lớn tổng cộng của giá trị đạo hàm nằm tại biên là kết hợp của cả hai giá trị này theo công thức:

√ Hướng của gradient vector được xác định theo công thức:

( ) Hướng của biên sẽ vuông góc với hướng của gradient vector này [1]

- Kỹ thuật phát hiện biên Canny

Phương pháp này sử dụng hai mức ngưỡng cao và thấp Ban đầu ta dùng mức ngưỡng cao để tìm điểm bắt đầu của biên, sau đó chúng ta xác định hướng phát triển của biên dựa vào các điểm ảnh liên tiếp có giá trị lớn hơn mức ngưỡng thấp Ta chỉ loại bỏ các điểm có giá trị nhỏ hơn mức ngưỡng thấp Các đường biên yếu sẽ được chọn nếu chúng được liên kết với các đường biên khỏe

Phương pháp Canny bao gồm các bước sau:

Bước 1 Trước hết dùng bộ lọc Gaussian để làm mịn ảnh

( ) ( ) ( )Bước 2 Sau đó tính toán gradient của đường biên của ảnh đã được làm mịn

[ ] ( ) ( )[ ] ( ) ( )Bước 3 Tiếp theo là loại bỏ những điểm không phải là cực đại

Bước 4 Bước cuối cùng là loại bỏ những giá trị nhỏ hơn mức ngưỡng [1]

Trang 28

1.2.2.5 Phân vùng ảnh

Phân vùng ảnh là bước then chốt trong xử lý ảnh Phân vùng ảnh thường được sử dụng để xác định vị trí các đối tượng, đường biên (đường thẳng, cong ) Nói cách khác, phân vùng ảnh là một quá trình gán nhãn (assigning a lablel) cho mỗi điểm ảnh trong một bức ảnh, các điểm ảnh trong cùng một nhãn sẽ có những đặc tính giống nhau về màu sắc, cường

độ hoặc kết cấu của ảnh

Vùng ảnh là một trong hai thuộc tính của ảnh, vùng ảnh là tính chất bề mặt Đường bao quanh một vùng ảnh (Boundary) là biên ảnh Các điểm trong một vùng ảnh có độ biến thiên giá trị mức xám tương đối đồng đều hay tính kết cấu tương đồng Phân vùng ảnh theo các dạng sau: Phân vùng theo ngưỡng biên độ; Phân vùng theo miền đồng nhất; Phương pháp tách cây tứ phân; Phương pháp cục bộ; Phương pháp tổng hợp; Phân vùng theo kết cấu

bề mặt

Kết quả của việc phân vùng ảnh là tập hợp các phân đoạn (segments) bao gồm có thể là toàn bộ bức ảnh hoặc tập hợp các đường biên chiết xuất từ hình ảnh Các điểm ảnh trong cùng một vùng có đặc tính tương tự nhau về màu sắc, cường độ hoặc kết cấu Các vùng lân cận thì khác nhau đáng kể về các đặc trưng trên

Phân vùng ảnh là một bước quan trọng trong nhiều lĩnh vực khác nhau như lĩnh vực hình ảnh y tế (medical imaging), phát hiện và nhận dạng đối tượng, hệ thống camera giám sát, hệ thống điều khiển giao thông… Kỹ thuật này là bước tiền xử lý quan trọng trong hầu hết các hệ thống xử lý ảnh Kết quả phân vùng tốt sẽ giúp cho quá trình xử lý về sau đạt hiệu quả cao hơn, nhằm tiết kiệm về chi phí tính toán, thời gian cũng như tăng độ chính xác của các ứng dụng trên

Trong lĩnh vực hình ảnh y tế, các kỹ thuật hình ảnh y tế như chụp

CT (Computer Tomography), chụp MRI (Magnetic Resonance Imaging), chụp X-Quang, USG (Ultrasound) không thể thiếu để có thể phân tích chính

Trang 29

xác nhiều bệnh lý khác nhau, qua đó hỗ trợ đáng kể bác sĩ trong việc chẩn đoán bệnh Trong quá trình phân tích, người chẩn đoán cần phân tích trích xuất các đường biên cần thiết, các bề mặt hoặc các bộ phận cơ thể ra khỏi bức hình, kỹ thuật này được gọi là phân vùng (segmentation) Các phân vùng và đường biên này là rất quan trọng đối với các bác sĩ Chính vì vậy trong vài thập kỷ qua, nhiều thuật toán phân vùng ảnh y tế được đề xuất nhằm tăng độ chính xác trong quá trình phân vùng ảnh

1.3 BÀI TOÁN PHÂN ĐOẠN ẢNH TRÀO NGƢỢC DẠ DÀY

1.3.1 Giới thiệu bài toán

Như đã trình bày ở trên, nội dung luận văn tập trung vào nghiên cứu các

kỹ thuật của Trí tuệ nhân tạo, cụ thể là các thuật toán học máy để xây dựng hệ thống phân đoạn ảnh hỗ trợ bác sĩ trong quá trình chẩn đoán bệnh liên quan đến bệnh trào ngược dạ dày Trào ngược dạ dày là căn bệnh xảy ra rất phổ biến trong xã hội hiện đại ngày nay Bệnh trào ngược dạ dày là tình trạng các chất dịch như pepsin, dịch mật… trong dạ dày lẫn với thức ăn trào ngược lên thực quản gây tổn thương hầu, họng và thực quản Bệnh gây tổn hại nghiêm trọng đến sức khỏe của bệnh nhân cũng như ảnh hưởng đến các hoạt động thường nhật hàng ngày Về bản chất, trào ngược dạ dày không phải căn bệnh quá nguy hiểm Tuy nhiên nếu không được phát hiện sớm và điều trị đúng cách, bệnh sẽ gây ra nhiều biến chứng nguy hiểm như đau dạ dày, hẹp thực quản, giãn thực quản, thậm chí nặng nhất là ung thư thực quản…

Phân đoạn ảnh trào ngược dạ dày là bài toán phân loại bệnh có tính ứng dụng cao Phân đoạn ảnh trào ngược dạ dày ngoài việc có thể phát triển giải pháp phát hiện bệnh, còn tập trung vào việc nhận dạng ra những vùng dạ dày

có vấn đề, để có thể thông báo cho bệnh nhân và bác sĩ điều trị tình trạng sức khỏe, các hướng dẫn, các triệu chứng của bệnh, giai đoạn bệnh, quyết định phác đồ điều trị phù hợp, hiệu quả và hợp lý, đảm bảo an toàn cho bệnh nhân Một số hình ảnh ví dụ được cho trong hình 1.6, trong đó các vùng tổn thương do bệnh được khoanh vùng bởi các đường nét liền màu xanh bao quanh

Trang 30

Hình 1.6 Một số hình ảnh thành dạ dày (vùng có vấn đề đƣợc tô màu)

Phân đoạn ảnh không phải là một vấn đề quá mới, tuy nhiên những kết quả nghiên cứu và xây dựng một mô hình hệ thống cụ thể (như hệ thống phân đoạn ảnh trào ngược dạ dày) vẫn còn những hạn chế nhất định để có thể phát triển ứng dụng trong thực tế Các hệ thống hỗ trợ nhận dạng có thể quan sát, phát hiện được khi bệnh khá rõ ràng Tuy nhiên trong thực tế, bài toán này

sẽ trở nên khó khăn khi số lượng dữ liệu lớn, biểu hiện phức tạp Hầu hết tất

cả những tổn thương ở dạ dày đều có hình ảnh với những dấu hiệu khá giống nhau, chính vì vậy để phân đoạn ảnh trào ngược dạ dày thực quản với những căn bệnh dạ dày khác, ta cần phải có kỹ thuật phân đoạn ảnh với độ chính xác cao

1.3.2 Dữ liệu trong bài toán phân đoạn ảnh trào ngƣợc dạ dày

Dữ liệu trong bài toán phân đoạn ảnh trào ngược dạ dày là các hình ảnh

y tế chụp thành dạ dày, liên quan đến bệnh trào ngược dạ dày Các ảnh chụp thành dạ dày này được chia làm 2 vùng: vùng bình thường và vùng có vấn đề với các biểu hiện trên hình ảnh có sự khác nhau (có thể là rõ nét hoặc chưa)

Trang 31

Trong đó vùng có vấn đề là vùng bị loét, chảy máu, mủ, sưng do các bệnh liên quan đến hiện tượng trào ngược dạ dày hoặc do bệnh trào ngược dạ dày tác động và gây nên

Sau khi thu thập được số lượng ảnh đủ lớn, ta sẽ gán nhãn cho ảnh và sử dụng các thuật toán liên quan để xác định vùng có vấn đề cho mỗi ảnh Từ đó

hỗ trợ bác sĩ trong việc chẩn đoán bệnh trào ngược dạ dày hoặc các bệnh liên quan đến hiện tượng trào ngược dạ dày

1.3.3 Phương pháp giải quyết bài toán phân đoạn ảnh

Để giải quyết bài toán phân đoạn ảnh chúng ta có các bước cơ bản như hình 1.7:

Hình 1.7 Các bước cơ bản để giải quyết bài toán phân đoạn ảnh

Bước thu thập dữ liệu ảnh: Tại bước thu thập dữ liệu ảnh chúng ta phải

có đủ ảnh cho bài toán Pha này chúng ta phải sưu tầm, thu thập ảnh từ các nguồn như bệnh viện, trên các trang mạng Tham khảo ý kiến bác sỹ trong quá trình thu thập ảnh để có bộ ảnh chất lượng

Bước tiền xử lý: Chúng ta phải quy chuẩn ảnh về kích thước phù hợp,

gán nhãn bằng sự trợ giúp của các bác sĩ chuyên khoa, trong trường hợp bài

Thu thập dữ liệu ảnh

Tiền xử lý, gán nhãn và chuẩn bị dữ liệu

Lựa chọn và xây dựng mô hình huấn luyện

Kiểm thử, đánh giá và phân tích kết quả

Trang 32

toán này là khoanh vùng các khu vực tổn thương, lưu trữ và chuẩn bị hai tập

dữ liệu cho pha huấn luyện và pha kiểm thử

Bước lựa chọn và xây dựng mô hình huấn luyện: Bước này là bước

cũng rất quan trọng Chúng ta sẽ sử dụng mô hình học máy trong lĩnh vực AI

để tiến hành học từ dữ liệu mẫu rồi sinh ra mô hình kiểm thử Các phương pháp học máy có thể áp dụng trong trường hợp này như Support Vector Machine, Fuzzy Clustering, Deep learning Trong đó phương pháp học sâu ứng dụng cho bài toán này đã được chứng minh đạt kết quả tốt trong thời gian gần đây và chúng tôi sẽ nghiên cứu cụ thể phương pháp học sâu này trong chương 2

Bước kiểm thử, đánh giá và phân tích kết quả: Nhằm xác định chất

lượng đạt được và phân tích cũng như đánh giá chất lượng của nó

1.3.4 Một số công trình nghiên cứu liên quan

Vấn đề ứng dụng phân tích dữ liệu ảnh áp dụng trong lĩnh vực Y tế được quan tâm nhiều trong thời gian gần đây Chúng ta có thể gặp rất nhiều các công trình nghiên cứu trong việc phân đoạn ảnh cho các bài toán trong y học Trong [5], các tác giả đã đề xuất sử dụng kỹ thuật học sâu cho bài toán phân đoạn ảnh MR tim Trong nghiên cứu này các mạng CNN sâu và U-Net

đã được thử nghiệm và so sánh kết quả Trong [6], mạng nơron hồi quy đã được sử dụng cho bài toán phân đoạn ảnh CT và MRI tuyến tụy; trong [7], các tác giả sử dụng mạng nơron học sâu cho bài toán phân đoạn ảnh 3D MR của não; trong [8], kỹ thuật mạng CNN và RNN cho bài toán phân đoạn ảnh liên quan đến bệnh nấm cũng đã được nghiên cứu và trình bày; trong [10], bài toán phân đoạn ảnh được áp dụng cho ảnh X-Quang ngực để phát hiện các khối u; vấn đề phân đoạn ảnh áp dụng cho hỗ trợ chẩn đoán ung thư phổi [13]; các bài toán về phân đoạn ảnh áp dụng trong ảnh MRI não [4], [17]

 Hiện nay việc ứng dụng công nghệ thông tin vào hỗ trợ chăm sóc sức

khỏe y tế là một chủ đề thu hút rất nhiều doanh nghiệp, tổ chức, có thể

Trang 33

kể đến như hệ thống hỗ trợ chẩn đoán bệnh IBM Watson Health 4 , đây là

hệ thống đã thương mại hóa tại nhiều bệnh viện trên thế giới

 AI Rad Companion Chest CT 5 là hệ thống ứng dụng trí tuệ nhân tạo để

hỗ trợ nhân viên y tế phân tích kết quả chẩn đoán hình ảnh trong chụp cắt lớp vi tính Sử dụng các hình ảnh chụp cắt lớp lồng ngực, phần mềm

AI Rad Companion Chest CT có thể phân biệt các cấu trúc khác nhau của lồng ngực, làm nổi bật từng cấu trúc, đánh dấu và đo lường các bất thường tiềm ẩn (hình 1.8)

Hình 1.8 Trí tuệ nhân tạo hỗ trợ phân tích kết quả chẩn đoán hình ảnh

trong chụp cắt lớp vi tính5

Ứng dụng này còn có thể được áp dụng trên các bộ phận như tim, phổi, động mạch chủ và đốt sống Hệ thống tự động chuyển những phát hiện thành một báo cáo định lượng, giúp giảm khối lượng công việc của các kỹ thuật viên, đồng thời tăng cường tính chính xác trong việc chẩn đoán hình ảnh

Ở Việt Nam cũng đã có một số phần mềm ứng dụng được triển khai:

 Ứng dụng “AI Trợ lý bác sĩ trong chẩn đoán hình ảnh” 6

Trang 34

thị giác máy tính và công nghệ xử lý ngôn ngữ tự nhiên nhằm hỗ trợ nâng cao khả năng chẩn đoán và điều trị bệnh Ứng dụng này được sử dụng nhằm hỗ trợ nâng cao khả năng chẩn đoán hình ảnh chính xác trong X-Quang, chụp cắt lớp vi tính (CT), chụp cộng hưởng từ (MRI)

Sau hai tháng hoạt động, các bác sĩ đã gán nhãn tổng số gần 68.000 ảnh X-Quang tim phổi với độ chính xác cao gần như tuyệt đối Ngoài ra, cũng đã thu thập thành công hơn 800 ngàn ảnh X-Quang từ dữ liệu cộng đồng thế giới

để tiến hành phân loại, gán nhãn

 DeepClinics 7 là dự án phát triển và ứng dụng công nghệ Trí tuệ nhân tạo (AI) và máy học (ML- Machine Learning) vào việc tạo ra hệ thống khám, chẩn đoán bệnh và chăm sóc sức khoẻ, phòng ngừa bệnh về da DeepClinics ứng dụng vào việc:

 Chẩn đoán sơ bộ các bệnh da và các triệu chứng trên da của các bệnh bên trong cơ thể

 Phân tích sâu các loại bệnh quan trọng (trứng cá, ung thư da, nấm, móng, rối loạn sắc tố, virus, STD, da già trước tuổi…)

 Theo dõi tiến triển của bệnh (với người khám/ tự kiểm tra nhiều lần)

 Đề xuất phác đồ điều trị (cho bác sỹ duyệt)

 Cung cấp kiến thức và thông tin (khai hóa, giáo dục về y tế)

1.4 KHÁI NIỆM HỌC MÁY

Học máy (machine learning) là một lĩnh vực của Trí tuệ nhân tạo nhằm nghiên cứu và phát triển các phần mềm dùng cho máy tính hoặc hệ thống máy tính mà có thể giải quyết các tình huống cụ thể giống như con người Máy tính hoặc hệ thống máy tính ở đây hiểu rằng là bất kỳ hệ thống nào mà có thể nạp và sử dụng phần mềm để thực hiện trên nó [9] Các tình huống ở đây được hiểu là những bài toán chúng ta gặp trên thực tế như nhận dạng đối tượng, phát hiện dị thường, giám sát hành vi, dự đoán giá cả thị trường

7 https://deepclinics.com/

Trang 35

Trong lĩnh vực học máy hiện nay có ba phương pháp học cơ bản bao

gồm: học có giám sát, học nửa giám sát và học không giám sát

Ý tưởng cơ bản của học có giám sát có thể hiểu như chúng ta cung cấp

một số mẫu (ví dụ dữ liệu, hình ảnh, đồ vật đã gán nhãn) cho hệ thống học và

sau đó thiết kế phát triển các hệ thống có thể suy diễn hay nhận biết mẫu mới

nằm trong phạm vi nó đã được học

Học nửa giám sát khác với học có giám sát là các thuật toán dạng này chỉ

sử dụng một lượng nhỏ các mẫu (các dữ liệu đã gán nhãn) để học và suy luận

ra các dữ liệu chưa gán nhãn

Học không giám sát không dùng bất kỳ dữ liệu gán nhãn nào mà chỉ sử

dụng các dữ liệu không có nhãn để thực hiện yêu cầu nào đó, chẳng hạn như

phân cụm các dữ liệu hay phát hiện các dị thường trong dữ liệu hay ngoại suy

Trong phần tiếp theo của chương, chúng tôi nghiên cứu và trình bày

phương pháp học máy có giám sát gồm phương pháp mạng nơron nhân tạo và

phương pháp học sâu- một phát triển mở rộng của mạng nơron nhân tạo

1.5 MẠNG NƠRON NHÂN TẠO

1.5.1 Giới thiệu

Mạng nơron nhân tạo (Artificial Neural Network- ANN) là mô hình xử

lý thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh con

người, bao gồm số lượng lớn các nơron được liên kết với nhau để xử lý

thông tin ANN giống như bộ não con người, được học bởi kinh nghiệm

(thông qua huấn luyện), có khả năng lưu giữ những kinh nghiệm hiểu biết

(tri thức) và sử dụng những tri thức đó trong việc dự đoán các dữ liệu chưa

biết (unseen data) Mạng nơron nhân tạo có lịch sử tương đối lâu đời, một

trong những mạng nơron đầu tiên có tên là Perceptron được đề xuất từ

những năm 50 của thế kỷ XX

Như đã trình bày, mạng nơron nhân tạo nói chung thuộc lớp bài toán học

có giám sát nên có thể áp dụng cho những dạng bài toán phân lớp và dự đoán

Trang 36

Trong phần tiếp theo của chương, chúng tôi sẽ giới thiệu về mạng nơron nhân tạo, mạng nơron sâu và áp dụng giải bài toán phân đoạn ảnh trào ngược dạ dày

1.5.2 Kiến trúc và quá trình học của mạng nơron nhân tạo

Kiến trúc mạng nơron gồm tập các nút gọi là các neural và tập các cung (hay gọi là cạnh) để kết nối các neural với nhau Tập các nút được tổ chức thành các lớp, gọi là các layer Trong đó có một lớp đầu vào (input layer) và một lớp đầu ra (output layer), các lớp giữa gọi là các lớp ẩn (hidden layer) Mỗi cung kết nối 2 cặp neural với nhau, trong đó có một nút vào và một nút

ra, nhằm mục đích truyền thông tin và xử lý tính giá trị mới cho các nút ra Mối liên hệ giữa các nút được thể hiện thông qua hàm biến đổi (gọi là hàm truyền) cùng với bộ trọng số tương ứng cho hàm truyền Thông thường, kiến trúc của một mạng nơron được xây dựng trước và các trọng số được xác định trong quá trình huấn luyện Tuy nhiên, một số kiểu mạng có khả năng thay đổi để thích ứng (adaptive) với dữ liệu thực tế và có thể tự thay đổi cấu trúc của mạng dựa trên các thông tin trong quá trình học, một số kiểu như mạng nơron đa lớp (MLNN- Multi layer neural network) và mạng nơron tự

tổ chức (SOM- Self organizing maps) Hình 1.9 cho ta ví dụ về một mạng nơron đơn giản

Hình 1.9 Ví dụ về mạng nơron8

8 https://becominghuman.ai/neural-networks-the-rudiments-and-the-mathematics-d85bff42b361

Trang 37

Hình 1.10 minh họa cho một nơron Mỗi nơron sẽ có các tín hiệu vào, sử dụng một hàm kích hoạt và đầu ra

Hình 1.10 Mô hình toán học của một nơron9

Mỗi nơ ron trước tiên tính toán tổng các giá trị đầu vào:

∑

Tiếp theo áp dụng hàm kích hoạt g để được đầu ra:

( ) (∑

) Hàm kích hoạt phải đảm bảo về tổng thể mạng nơron có thể mô tả hàm phi tuyến Hình 1.11 mô tả một số hàm kích hoạt thường sử dụng trong mạng nơron

Hình 1.11 Một số hàm kích hoạt dùng trong mạng nơron10

9

https://www.researchgate.net/figure/A-simple-mathematical-model-for-a-neuron-The-units-output-activation-is-where-ai_fig1_301464497

Trang 38

Sau khi xác định mô hình toán học cho mỗi nơron, nhiệm vụ tiếp theo là liên kết chúng thành một mạng Có hai cách chính để thực hiện công việc này Loại thứ nhất là mạng lan truyền thẳng, trong đó các nút kết nối theo một hướng duy nhất, nó hình thành một đồ thị có hướng Mỗi nút nhận được tín hiệu đến nó và chuyển tiếp đến nút tiếp theo, không có vòng lặp trong trường hợp này Loại thứ hai là mạng nơ ron hồi quy, cho phép đầu ra của mỗi nút quay trở lại đầu vào của chính nút đó Trong lịch sử phát triển của mạng nơron có hai loại mạng nơron được quan tâm nghiên cứu nhiều nhất là mạng nơron hồi quy (Recurrent Neural Networks) và mạng nơron tích chập (Convolutional Neural Networks)

Hình 1.12 minh họa một mạng nơron hồi quy trong đó có lớp vào (Input Layer), lớp ẩn (Hidden Layer) và lớp ra (Output Layer) Mạng nơron truyền thẳng đặc trưng chính là mạng nơron tích chập Loại mạng này phù hợp cho các đầu vào có dạng ma trận, trong khi mạng nơron hồi quy phù hợp cho các bài toán đầu vào ở dạng chuỗi như trong lĩnh vực xử lý ngôn ngữ tự nhiên, xử

lý tiếng nói

Hình 1.12 Ví dụ về mạng nơron hồi quy11

Mạng nơron tích chập được giới thiệu vào cuối những năm 80 của thế kỷ

10

https://www.quora.com/What-is-ReLU-and-Softmax

11 https://www.skynettoday.com/overviews/neural-net-history

Tiêu đề	Nghiên cứu một số kỹ thuật học sâu ứng dụng trong bài toán phân đoạn ảnh trào ngược dạ dày
Tác giả	Nguyễn Thị Hà
Người hướng dẫn	PGS.TS. Vũ Việt Vũ
Trường học	Trường Đại học Hồng Đức
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Thanh Hóa

Định dạng
Số trang	77
Dung lượng	4,07 MB